Scrapy strumento per estrarre dati dal web


Scrapy è un applicativo per la scansione di siti web e l’estrazione di dati strutturati che possono essere utilizzati per una vasta gamma di applicazioni utili, come il data mining, elaborazione di informazioni o archivistico storico.

Infatti, anche se Scrapy è stato originariamente progettato per lo screen scraping, può essere utilizzato per estrarre dati utilizzando le API o come un web crawler di uso generale.

Logo Scrapy

Logo Scrapy

Scrapy è una applicazione multi – piattaforma (gira infatti su Linux, Windows, Mac e BSD) scritta in Python ma assolutamente non semplice da utilizzare, infatti è uno strumento a riga di comando che si può estrarre rapidamente i dati strutturati da pagine web ma risulta anche difficile da installare e configurare ma che una volta installato e funzionante possiamo usufruire di una serie di strumenti utili come per esempio:

  • Il supporto incorporato per la selezione e l’estrazione di dati provenienti da fonti HTML e XML;
  • Il supporto incorporato per la pulizia e la sanificazione dei dati raschiate con una collezione di filtri riutilizzabili in comune nella rete;
  • Il supporto incorporato per generare esportazioni di feed in diversi formati (JSON, CSV, XML) e la loro memorizzazione in più backend (FTP, S3, filesystem locale);
  • Una pipeline di supporto per scaricare le immagini automaticamente (o qualsiasi altro media) associati con gli articoli raschiati;
  • Ampia gamma di middleware ed estensioni integrate per cookies e gestione delle sessioni, compressione, autenticazione e cache HTTP… ecc. ecc.

Quindi Scrapy è potente e facile da utilizzare una volta configurato questa la Home del progetto dove viene spiegato come fare a configurarlo e ad iniziare ad utilizzarlo.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.

*