Tabula app per estrarre dati da un PDF


Tabula è un software multi – piattaforma progettato per catturare le informazioni tabellari di un PDF e di esportarli in un file CSV o in un foglio di calcolo.

Tabula è un software progettato da giornalisti per dei giornalisti. Infatti come viene spiegato sul sito non c’è un modo semplice per copiare e incollare le righe di dati da file PDF. Tabula permette di estrarre i dati in un foglio di calcolo CSV o Microsoft Excel utilizzando una semplice interfaccia facile da usare.

Tra quelli che utilizzano questo software, utilizzato come detto soprattutto per il giornalismo investigativo o per raccogliere notizie dalla rete (dove la stragrande maggioranza dei file sono proprio nel formato PDF) ci sono ProPublica, il Times di Londra , Foreign Policy , La Nación (Argentina) e San Paul (MN) Pioneer Press.

Per utilizzare Tabula bisogna:

  • Per prima cosa caricare un file PDF contenente una tabella di dati;
  • Selezionare la tabella cliccando in alto a sinistra della tabella da catturare e trascinando il mouse nell’angolo in basso a destra, fino a quando tutti i dati vengono inclusi nell’area di selezione che viene ombreggiata per una migliore visualizzazione dell’area evidenziata;
  • A questo puntto, apparirà una finestra contenente i dati selezionati. Controllare che siano presenti tutti i dati altrimenti ampliare leggermente la selezione;
  • Fare clic sul pulsante Download;
  • Ora è possibile lavorare con i propri dati come file di testo o un foglio di calcolo, piuttosto che un PDF;

Tabula funziona solo su file PDF basati su testo, non documenti digitalizzati.

Per ulteriori informazioni si rimanda comunque al sito source opennews org e in modo particolare all’articolo Introducing Tabula;

Home del progetto tabula.nerdpower;

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

*

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.