Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Semalt condivide un modo semplice per estrarre informazioni dai siti web

Web Scraping è un metodo popolare per ottenere contenuti da siti Web. Un algoritmo appositamente programmato arriva alla pagina principale del sito e inizia a seguire tutti i collegamenti interni, assemblando gli interni delle div che hai specificato. Come risultato - file CSV pronto contenente tutte le informazioni necessarie che giacciono in un ordine rigoroso. Il CSV risultante può essere utilizzato per il futuro creando contenuti quasi unici. E in generale, come una tabella, tali dati sono di grande valore. Immagina che l'intera lista dei prodotti di un negozio di costruzioni sia presentata in una tabella. Inoltre, per ogni prodotto, per ogni tipo e marca del prodotto, vengono riempiti tutti i campi e le caratteristiche. Qualsiasi copywriter che lavora per un negozio online sarebbe felice di avere un tale file CSV.

Ci sono molti strumenti per estrarre dati da siti web o scraping web e non preoccuparti se non hai familiarità con nessun linguaggio di programmazione, in questo articolo mostrerò uno dei modi più semplici - usando Scrapinghub.

Prima di tutto, andare su scrapinghub.com, registrarsi e accedere.

Il prossimo passo sulla tua organizzazione può essere semplicemente saltato.

Poi arrivi al tuo profilo. Devi creare un progetto.

Qui è necessario scegliere un algoritmo (useremo l'algoritmo "Portia") e dare un nome al progetto. Chiamiamolo in qualche modo insolito. Ad esempio, "111".

Ora entriamo nello spazio di lavoro dell'algoritmo in cui è necessario digitare l'URL del sito Web da cui si desidera estrarre i dati. Quindi fare clic su "New Spider".

Andremo alla pagina che servirà da esempio. L'indirizzo è aggiornato nell'intestazione. Fai clic su "Annota questa pagina".

Spostare il cursore del mouse a destra per visualizzare il menu. Qui siamo interessati alla scheda "Articolo estratto", dove è necessario fare clic su "Modifica elementi".

Tuttavia viene visualizzata la lista vuota dei nostri campi. Fai clic su "+ campo".

Tutto è semplice qui: è necessario creare un elenco di campi. Per ogni articolo, è necessario inserire un nome (in questo caso, un titolo e un contenuto), specificare se questo campo è richiesto ("Richiesto") e se può variare ("Varia"). Se si specifica che un elemento è "richiesto", l'algoritmo salterà semplicemente le pagine in cui non sarà in grado di riempire questo campo. Se non contrassegnato, il processo può durare per sempre.

Ora basta cliccare sul campo di cui abbiamo bisogno e indicare di cosa si tratta:

Fatto? Quindi nell'intestazione del sito Web fai clic su "Salva campione". Successivamente, è possibile tornare allo spazio di lavoro. Ora l'algoritmo sa come ottenere qualcosa, abbiamo bisogno di impostarne un compito. Per fare ciò, fai clic su "Pubblica modifiche".

Andare alla scheda attività, fare clic su "Esegui Spider". Scegli sito Web, priorità e fai clic su "Esegui".

Bene, lo scraping è ora in corso. La sua velocità è indicata puntando il cursore sul numero di richieste inviate:

La velocità di ottenere stringhe pronte in CSV - puntando verso un altro numero.

Per vedere una lista di articoli già fatti basta cliccare su questo numero. Vedrai qualcosa di simile:

Al termine, il risultato può essere salvato facendo clic su questo pulsante:

Ecco fatto! Ora puoi estrarre informazioni dai siti web senza alcuna esperienza di programmazione.

Post a comment

Post Your Comment
© 2013 - 2023, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport