company@semalt.com

Toll-free:

+1-855-979-6663USA

+44-800-060-8429UK

Stop guessing what′s working and start seeing it for yourself.

Start SEO for $0.99

AutoSEO FullSEO E-Commerce SEO Analytics

AutoSEO FullSEO Analytics Free SEO Consultation

What is Semalt About us Client testimonials Contacts QA Help

Client cases Client testimonials AutoSEO client reviews

Question Center →

Web development

Semalt - Come raschiare le pagine Web?

Jan 02, 2018

Beautiful Soup è una libreria Python ampiamente usata per raschiare le pagine web creando un albero di analisi da documenti XML e HTML. Il web scraping, una tecnica di estrazione di dati da siti Web e pagine, è ampiamente utilizzato nei campi di analisi e gestione dei dati. Nella maggior parte dei casi, il linguaggio di programmazione Python è un prerequisito nella scienza dei dati.

Python 3 ha strumenti di scraping e moduli che è possibile applicare al progetto di gestione dei dati. Attualmente in esecuzione come Beautiful Soup 4, questo modulo è compatibile con Python 3 e Python 2.7. Il modulo Beautiful Soup 4 è anche in grado di creare un albero di analisi per zuppa di tag non chiusa. In questo tutorial, imparerai come raschiare la pagina e scrivere i dati raschiati in un file CSV.

Getting started

Per iniziare, impostare un server o un ambiente di codifica Python locale sul PC. Dovresti anche installare il modulo Beautiful Soup and Requests sul tuo computer. Anche la conoscenza del lavoro con entrambi i moduli è un prerequisito necessario. Anche la familiarità con l'etichettatura e la struttura dell'HTML è un ulteriore vantaggio.

Capire i tuoi dati

In questo contesto, verranno utilizzati i dati reali della National Gallery of Art per aiutarti a capire come utilizzare Beautiful Soup 4. La National Gallery of Art comprende 120.000 pezzi che sono fatti da un approssimativo di 13.000 artisti. The Art ha sede a Washington D.C, negli Stati Uniti.

L'estrazione dei dati Web con Beautiful Soup non è così complicata. Ad esempio, se ci si concentra sulla lettera Z, segnare e annotare il primo nome sull'elenco. In questo caso, il primo nome è Zabaglia, Niccola. Per coerenza, indicare il numero di pagine e il nome dell'ultimo artista su quella pagina.

Come importare la libreria Requests and Beautiful Soup

Per importare le librerie, attiva il tuo ambiente di programmazione Python 3. Controlla di essere nella stessa directory con il tuo ambiente di programmazione.Asegui il seguente comando per iniziare my_env / bin / activate.

Crea un nuovo file e inizia ad importare le librerie Beautiful Soup e Requests: la libreria Requests ti permetterà di usare HTTP all'interno dei tuoi programmi Python in formati leggibili, mentre Beautiful Soup, invece, lavora per raschiare velocemente le pagine. bs4 per importare Beautiful Soup.

Come raccogliere e analizzare una pagina Web

Usando Requests si raccoglie l'URL della prima pagina. L'URL della prima pagina verrà assegnato alla pagina delle variabili. BeautifulSoup object from Requests e analizza l'oggetto dal parser di Python.

In questo tutorial, l'obiettivo è raccogliere i link e i nomi degli artisti.Ad esempio, puoi raccogliere le date e le nazionalità degli artisti. tasto destro del mouse sul nome dell'artista, in questo caso usare Zabaglia, Niccola. Per gli utenti Mac OS, toccare "CTRL" e fare clic sul nome. Fai clic sul menu "Ispeziona elemento" che mostra i popup sullo schermo per accedere agli strumenti degli sviluppatori web. Stampa i nomi dell'artista per fare in modo che Beautiful Soup analizzi rapidamente un albero.

Rimozione dei collegamenti in basso

Per rimuovere i collegamenti in basso nella pagina Web, ispezionare il DOM facendo clic con il tasto destro del mouse sull'elemento. Identificherete che i collegamenti sono sotto una tabella HTML. Usando Beautiful Soup, usa il "metodo decompose" per rimuovere i tag dall'albero di analisi.

Come estrarre il contenuto da un tag

Non è necessario stampare l'intero tag del collegamento, utilizzare Beautiful Soup per rimuovere il materiale da un tag. Puoi anche catturare gli URL associati agli artisti usando Beautiful Soup 4.

Catturare i dati raschiati in un file CSV

Il file CSV ti permetterà di memorizzare i dati strutturati in un testo semplice, un formato utilizzato principalmente per i fogli di dati. Si consiglia la conoscenza sulla gestione di file di testo in chiaro in Python.

L'estrazione dei dati Web viene utilizzata per raschiare le pagine e ottenere informazioni. Presta attenzione ai siti web dai quali proviene l'estrazione. Alcuni siti Web dinamici limitano l'estrazione dei dati Web sui loro siti. Scrivere la pagina con Beautiful Soup e Python 3 è così semplice.

View more on these topics

Web-Schabwerkzeuge

Web-Schabwerkzeuge

Semalt company

Company Presentation

Products

Success Cases

Contacts

Pavla Skoropadskoho St, 9A, Kyiv, Ukraine

Semalt - Come raschiare le pagine Web?

Getting started

Capire i tuoi dati

Come importare la libreria Requests and Beautiful Soup

Come raccogliere e analizzare una pagina Web

Rimozione dei collegamenti in basso

Come estrarre il contenuto da un tag

Catturare i dati raschiati in un file CSV

Semalt company

Products

Success Cases

Follow us

Contacts

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport