Stop guessing what′s working and start seeing it for yourself.
Giriş yapın veya kayıt olun
Q&A
Question Center →

Esercitazione su Chrome Web Scraper da Esperto di Semalt

Se utilizzi Google Chrome, c'è un'estensione per il tuo browser che può aiutarti per raschiare le pagine web. È noto come "Scrapper" e può essere utilizzato senza problemi. Scrapper ti aiuterà a raschiare il contenuto di un sito web e a caricare i risultati su Google.

Come eliminare un sito Web usando l'estensione Scraper?

1. Seleziona Chrome Web Store in Google Chrome;

2. Nelle estensioni, effettuare una ricerca per "Scrapper";

3. Il primo risultato di ricerca è l'estensione nota come "Scrapper";

4. Selezionare il pulsante elencato come "Aggiungi a Chrome";

5. Torna all'elenco dei parlamentari del Regno Unito;

6. Fare clic sul seguente link;

7. Ora cerca un MP e assicurati che la voce sia contrassegnata;

8. Fai clic con il pulsante destro del mouse per scegliere "Scrape simile... "option;

9. La console per scrapper apparirà in un'altra finestra;

10. Visualizza il contenuto raschiato nella console del raschietto;

11. Per garantire che il contenuto sia salvato come un foglio di calcolo di Google, seleziona "Salva in Google Documenti ..."


Esteso scraping

Prima di attenersi a questa ricetta, è utile capire le basi dell'HTML. Per esempio, puoi leggere una breve introduzione all'HTML tramite questo link 

Immaginiamo di essere interessati a tutti i film che hanno recitato in Asia Argento, una famosa attrice italiana. 3)

1. C'è un archivio molto dettagliato di attori in IMDB Il sito di Asia Argento è: https://www.imdb.com/name/nm0000782/;

2. Qui puoi vedere tutti i ruoli interpretati dall'attrice. Iniziamo a rottamare le informazioni a cui siamo interessati;

3. Provare a grattarlo come descritto sopra;

4. Vedrete che la lista è un po 'distorta. Ciò è dovuto al fatto che l'elenco qui può essere strutturato diversamente;

5. Dirigersi verso la console del raschietto. In alto a sinistra, vedrai la piccola scatola che dice XPath;

6. Xpath è una sorta di linguaggio di query che funziona per XML e HTML;

7. XPath può aiutare a localizzare le parti della pagina che ti interessano. La prossima cosa è trovare un elemento appropriato e scrivere l'XPath per esso;

8. Ora sistemiamo il nostro tavolo;

9. Vedrete che il nostro XPath esistente, che ha tutti i dati necessari è "// div [3] / div [3] / div [2] / div";

10. XPath informa il sistema di visualizzare il documento HTML e sceglie il terzo elemento, quindi il secondo elemento e poi tutti;

11. Ma vorremmo che i nostri dati fossero separati;

12. Utilizzare la sezione colonne nella console per scrapper per ottenere questo risultato;

13. Iniziamo col trovare il titolo РІР,“ Usa Ispeziona elemento per visualizzare il titolo;

14. Controllare il titolo all'interno di un tag. Aggiungi il tag all'XPath;

15. L'espressione sembra funzionare in modo appropriato, quindi rendi la nostra prima colonna;

16. Nella sezione "Colonne", sostituire il nome della prima colonna in "titolo";

17. Aggiungere l'XPath ad esso;

18. Nella sezione di colonna, gli XPath sono relativi e significa che "./b" sceglierà l'elemento 

19. Nell'XPath per il titolo colonna, aggiungi "./b" e seleziona "scrape";

20. Ora continuiamo per un anno. Gli anni possono essere trovati entro un intervallo;

21. Creare una nuova colonna selezionando il più piccolo accanto alla colonna del titolo;

22. Usando XPath "./span" crea una colonna per "anno";

23. Fare clic su raschiare e visualizzare come è stato aggiunto l'anno;

24. Fatto!

 

Post a comment

Post Your Comment
© 2013 - %s, Semalt.com. All rights reserved