Convertir des comptes administratifs PDF en CSV

Logo du défi

DESCRIPTION_DEFI

Pour reprendre l’introduction d’un autre défi : « depuis 2012, une forte incitation à la dématérialisation des actes budgétaires incite les collectivités locales à adopter le schéma XML Totem pour la transmission de leur budget à l’État. Actuellement quelques collectivités publient ces fichiers en Open data mais leur lecture n’est pas simple pour les ré-utilisateur.rice.s potentiel.le.s. Ces fichiers XML contiennent en effet plus d’informations que les seules informations budgétaires (emprunts, patrimoine, subventions, masse salariale) et les données sont associées à des nomenclatures difficiles d’accès pour des néophytes. »

Le défi cité veut convertir les fichiers XML en CSV. Pour notre part, notre défi consisterait à convertir les comptes administratifs qui sont au format PDF (beaucoup plus nombreux que ceux qui sont au format XML) et les traduire en XML ou en CSV.

L’outil serait donc un logiciel de reconnaissance de caractères à qui on apprendrait à lire et traduire au bon format les comptes administratifs (et leurs annexes).

Jeux de données utilisés

Les comptes administratifs des collectivités au format pdf

Besoins

  • data scientists
  • designers
  • développeurs