Tabula è un software multi – piattaforma progettato per catturare le informazioni tabellari di un PDF e di esportarli in un file CSV o in un foglio di calcolo.
Tabula è un software progettato da giornalisti per dei giornalisti. Infatti come viene spiegato sul sito non c’è un modo semplice per copiare e incollare le righe di dati da file PDF. Tabula permette di estrarre i dati in un foglio di calcolo CSV o Microsoft Excel utilizzando una semplice interfaccia facile da usare.
Tra quelli che utilizzano questo software, utilizzato come detto soprattutto per il giornalismo investigativo o per raccogliere notizie dalla rete (dove la stragrande maggioranza dei file sono proprio nel formato PDF) ci sono ProPublica, il Times di Londra , Foreign Policy , La Nación (Argentina) e San Paul (MN) Pioneer Press.
Per utilizzare Tabula bisogna:
- Per prima cosa caricare un file PDF contenente una tabella di dati;
- Selezionare la tabella cliccando in alto a sinistra della tabella da catturare e trascinando il mouse nell’angolo in basso a destra, fino a quando tutti i dati vengono inclusi nell’area di selezione che viene ombreggiata per una migliore visualizzazione dell’area evidenziata;
- A questo puntto, apparirà una finestra contenente i dati selezionati. Controllare che siano presenti tutti i dati altrimenti ampliare leggermente la selezione;
- Fare clic sul pulsante Download;
- Ora è possibile lavorare con i propri dati come file di testo o un foglio di calcolo, piuttosto che un PDF;
Tabula funziona solo su file PDF basati su testo, non documenti digitalizzati.
Per ulteriori informazioni si rimanda comunque al sito source opennews org e in modo particolare all’articolo Introducing Tabula;
Home del progetto tabula.nerdpower;