Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Semalt: Web Scraping con Python

Hai passato uno di quei momenti terrificanti quando non hai il Wi-Fi. Se è così, allora hai capito quanto di quello che fai sul tuo computer si basa sulla rete. Per pura abitudine, ti troverai a controllare le tue e-mail, a visualizzare le foto di Instagram dei tuoi amici e a leggere i loro tweet.

Dal momento che così tanto lavoro al computer coinvolge i processi web, sarebbe molto conveniente se i tuoi programmi potessero anche essere online. Questo è il caso di web scraping. Implica l'uso di un programma per scaricare ed elaborare contenuti dal web. Ad esempio, Google utilizza una varietà di programmi di scraping per indicizzare le pagine Web per il loro motore di ricerca.

Ci sono molti modi in cui è possibile raschiare dati da internet. Molti di questi metodi richiedono il comando di una varietà di linguaggi di programmazione come Python e R. Ad esempio, con Python, è possibile utilizzare un numero di moduli come Requests, Beautiful soup, Webbrowser e Selenium.

Il modulo "Richieste" consente di scaricare file facilmente dal Web senza doversi preoccupare di problemi complessi come problemi di connessione, errori di rete e compressione dei dati. Non viene necessariamente con Python, quindi dovrai prima installarlo.

Il modulo è stato sviluppato perché il modulo 'urllib2' di Python ha molte complicazioni che lo rendono difficile da usare. In realtà è abbastanza facile da installare. Tutto quello che devi fare è eseguire le richieste di installazione di pip dalla riga di comando. È quindi necessario eseguire un semplice test per assicurarsi che il modulo sia stato installato correttamente. Per fare ciò, è possibile digitare ">>> richieste di importazione" nella shell interattiva. Se non vengono visualizzati messaggi di errore, l'installazione ha avuto esito positivo.

Per scaricare una pagina, è necessario avviare la funzione 'requests.get ()'. La funzione accetta una stringa di un URL per scaricare e quindi restituisce un oggetto 'risposta'. Questo contiene la risposta restituita dal server Web per la richiesta. Se la richiesta ha esito positivo, la pagina Web scaricata viene salvata come una stringa nella variabile di testo degli oggetti di risposta.

L'oggetto risposta ha solitamente un attributo del codice di stato che è possibile utilizzare per scoprire se il download ha avuto esito positivo. Allo stesso modo, puoi chiamare il metodo 'raise_for_status ()' su un oggetto risposta. Ciò solleva un'eccezione se si sono verificati errori durante il download del file. È un ottimo modo per assicurarsi che un programma si interrompa in caso di download errato.

Da qui, puoi salvare il tuo file web scaricato sul tuo disco rigido usando le funzioni standard, 'open ()' e 'write ()'. Tuttavia, per mantenere la codifica Unicode del testo, sarà necessario sostituire i dati di testo con dati binari.

Per scrivere i dati su un file, puoi utilizzare un ciclo 'for' con il metodo 'iter_content ()'. Questo metodo restituisce bulk di dati su ogni iterazione attraverso il ciclo. Ogni bulk è in byte e devi specificare quanti byte ogni bulk conterrà. Una volta che hai finito di scrivere, chiama 'close ()' in modo da chiudere il file e il tuo lavoro è finito.

View more on these topics

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport