PDF Tabula

hackathon-juin-2018

#1

Logo du défi
PDF tabula : reprendre au mieux les données issues de PDF. Définir une stratégie de production de PDF qui maximise la qualité de la reprise des données.

Jeux de données utilisés

PDF

Besoins

  • développeurs

Présentation finale

datafin-PDF Tabula.pdf (958,7 Ko)

datafin-PDF Tabula.pptx (1,1 Mo)

Suites

NB projet inspiré par l’outil Tabula (GitHub), qui donne des résultats souvent imparfaits par une analyse de surface (moteur).

PDF Tabula exploite les données structurées nécessaires à l’accessibilité (PDF dits « tagués ») qui sont embarquées dans les PDF (à la manière de Factur-X dans ceux générés par Chorus).

PoC par modification du code source pdfinfo.cc du logiciel libre PDFinfo (de la suite Poppler-utils) : ajouts de chevrons < et > ligne 267, ajout d’une balise fermante </…> lignes 293-295 clonées des lignes 266,267 et 288.

Tests sur les rapports du jeu de données Datafin de la Cour des Comptes :

  • traitement des PDF avec PDFinfo modifié pour générer des fichiers XML exhaustifs ;
  • extraction des seuls tableaux avec XMLStarlet ;
  • ajout d’un préfixe … et d’un suffixe ;
  • ouverture des fichiers pseudo-html résultant avec LibreOffice.