Scrapy è un applicativo per la scansione di siti web e l’estrazione di dati strutturati che possono essere utilizzati per una vasta gamma di applicazioni utili, come il data mining, elaborazione di informazioni o archivistico storico.
Infatti, anche se Scrapy è stato originariamente progettato per lo screen scraping, può essere utilizzato per estrarre dati utilizzando le API o come un web crawler di uso generale.
Scrapy è una applicazione multi – piattaforma (gira infatti su Linux, Windows, Mac e BSD) scritta in Python ma assolutamente non semplice da utilizzare, infatti è uno strumento a riga di comando che si può estrarre rapidamente i dati strutturati da pagine web ma risulta anche difficile da installare e configurare ma che una volta installato e funzionante possiamo usufruire di una serie di strumenti utili come per esempio:
- Il supporto incorporato per la selezione e l’estrazione di dati provenienti da fonti HTML e XML;
- Il supporto incorporato per la pulizia e la sanificazione dei dati raschiate con una collezione di filtri riutilizzabili in comune nella rete;
- Il supporto incorporato per generare esportazioni di feed in diversi formati (JSON, CSV, XML) e la loro memorizzazione in più backend (FTP, S3, filesystem locale);
- Una pipeline di supporto per scaricare le immagini automaticamente (o qualsiasi altro media) associati con gli articoli raschiati;
- Ampia gamma di middleware ed estensioni integrate per cookies e gestione delle sessioni, compressione, autenticazione e cache HTTP… ecc. ecc.
Quindi Scrapy è potente e facile da utilizzare una volta configurato questa la Home del progetto dove viene spiegato come fare a configurarlo e ad iniziare ad utilizzarlo.