METATABULA - Améliorer la documentation technique des jeux de données

hackathon-juin-2018

#1

Logo du défi

Objectif : créer des exemples de fichier de métadonnées relatives à un jeu de données publié pour en faciliter l’exploitation, dans un format ouvert, interopérable et documenté.
La validation, la conversion, l’affichage et la recherche de données tabulaires publiées en ligne sur le web nécessite des métadonnées supplémentaires qui décrivent comment les données doivent être interprétées.
Le format de fichier retenu respectera les recommandations du W3C Metadata Vocabulary for Tabular Data et Model for Tabular Data and Metadata on the Web.
Ces recommandations définissent notamment un modèle pour les données tabulaires, et un vocabulaire pour les métadonnées qui annotent ces données et qui en décrivent l’organisation et le typage. Ainsi que les conventions de découverte de l’emplacement du fichier de métadonnées connaissant celui du fichier de données.
Ces descriptions concernent différents niveaux de granularité, depuis les groupes de tables et comment elles y sont interreliées, jusqu’à la description de cellules individuelles dans une table, en passant par les colonnes.
Par analogie ce fichier correspond à un schéma de base de données pour les bases de données relationnelles exprimé dans le format LDD (langage de définition de données, DDL en anglais) de SQL.
Le gain pour les réutilisateurs est une découvrabilité améliorée et une clarification du format attendu des données, et éventuellement une définition des relations existantes entre des tables publiées.

Jeux de données utilisés

Toutes les données tabulaires sont a priori concernées, depuis la table simple jusqu’aux jeux de données en comprenant plusieurs interreliées.

Exemple retenu : Dotations globales de fonctionnement

Source originelle : Dotations en ligne sur le site de la direction générale des collectivités locales du ministère de l’Intérieur.

Outil de génération par Christian Quest d’Etalab

Besoins

  • data scientists (producteurs et consommateurs)

  • développeurs

  • économistes

  • journalistes

Présentations

datafin-META Tabula.pptx (1,2 Mo)

datafin-META Tabula.pdf (1,1 Mo)

Suites

La commission européenne prévoit de publier le budget de l’Union européenne en données ouvertes et liées (Linked Open Data) : https://joinup.ec.europa.eu/event/linked-eu-budget-webinar


#2

Dans le cadre du projet OpenBudget.fr / OpenBudgets.eu nous utlisons Fiscal Data Package qui est une spécification facile d’utilisation, dédiée aux questions budgétaires, et qui permet d’utiliser un certains nombres d’outils orientés utilisateurs sur OpenSpending.
Nous sommes au fond de la salle à la table Ouvre-boîte avec @OBFR_Florent, venez nous voir !


#3

Bonjour Johan. J’ai ajouté dans les suites à donner à META Tabula une information intéressante sur le budget de l’UE, bientôt publié en LOD.


#4

Merci pour l’info @eleg, je n’ai pas étudié le vocabulaire RDF de peur de contracter une alergie. :smile: Ca a l’air d’exister depuis un certain temps par contre : https://joinup.ec.europa.eu/release/eu-budget-vocabulary-10/10 Je crois qu’on a encore jamais vu d’utiisation à ce jour ce qui est dit long sur la complexité du format de publication…
En tout cas le Datathon d’octobre a l’air intéressant ! https://publications.europa.eu/en/web/eudatathon


#5

Ce datathon est un concours dont la session d’Octobre est la dernière étape.