C'è una grande quantità di dati disponibili attraverso la rete. Cercare di copiare dati in un database utilizzabile direttamente da un sito può essere un processo che richiede molto tempo. Pertanto, l'utilizzo di un metodo di scraping web per estrarre i dati dai siti Web può far risparmiare tempo, energia e denaro.
Web scraping, noto anche come Web Data Extraction o Web Harvesting è un processo di utilizzo dei bot per estrarre i dati dai siti. I web scrapers navigano in un sito, ne valutano il contenuto e poi lo estraggono e lo inseriscono in un foglio di calcolo o in un database.
Ci sono una miriade di strumenti di raschiamento del web disponibili sul mercato, ma sono piuttosto costosi e non facili da usare per persone esperte non tecnologiche. Tuttavia, Web Scraper Chrome Extension è gratuito e facile da usare. Con questa estensione, puoi persino interrompere il processo nel bel mezzo del suo lavoro.
È possibile scaricare il software Web Scraper Chrome Extension da Google Chrome Web Store. L'unico svantaggio è che devi raschiare il sito manualmente e non è un processo facile. Inoltre, non è possibile eseguire la raschiatura a intervalli regolari a livello di codice.
Installazione di Web Scraper Chrome Extension
- Apri il browser Google Chrome;
- Visita Chrome Web Store e cerca l'estensione Web Scraper;
- Aggiungi lo strumento a Chrome;
- Ora sei pronto per iniziare scraping di siti Web utilizzando il browser Chrome.
Dopo aver installato il raschietto, premere F12 per aprire gli strumenti di sviluppo di Google Chrome. In alternativa, fare clic con il tasto destro del mouse sullo schermo e seleziona "inspect element". Una volta aperti gli Strumenti per sviluppatori, vedrai una scheda chiamata "Web Scraper".
Ora impariamo come usarlo su una pagina web in diretta. Immaginiamo che vogliamo scaricare il sito web di Awesomegifs ed estrarre alcuni contenuti e dati da esso. Aprire il sito. Qual è la prima cosa che vedi? Le immagini sono caricate pigramente, giusto?
Una volta aperta una pagina web, devi estrarre il gif URL di immagini significa che devi identificare il selettore CSS che corrisponde alle immagini. Il sito ha circa 130 pagine con immagini; e per passare da una pagina all'altra è necessario modificare il numero della pagina che attualmente è 125. Il modo più semplice per farlo è creare una nuova sitemap e aggiungere il campo URL iniziale. In questo modo, al Web Scraper verrà richiesto di aprire l'URL continuamente, incrementando così il valore finale nel processo. Si aprirà la prima pagina, la seconda pagina, la terza pagina ... fino a quando non raggiunge la pagina 125.
Per iniziare il processo di raschiatura, apri la scheda Sitemap e fai clic su "Raschia". Lo strumento inizierà a raschiare i dati richiesti. Nel caso in cui desideri interrompere il processo di raschiatura nel mezzo, chiudi la finestra e vai alla scheda Sitemap per esportare i dati estratti in un file CSV.
Post a comment