Stop guessing what′s working and start seeing it for yourself.
Giriş yapın veya kayıt olun
Q&A
Question Center →

Didacticiel Chrome Web Scraper de Semalt Expert

Si vous utilisez Google Chrome, il existe une extension pour votre navigateur ce qui peut aider à gratter les pages Web. Il est connu comme «Scrapper», et il peut être utilisé sans problèmes. Scrapper vous aidera à extraire le contenu d'un site Web et à télécharger les résultats dans des documents Google.

Comment scrapper un site Web en utilisant l'extension Scraper?

1. Sélectionnez Chrome Web Store dans Google Chrome.

2. Dans les extensions, effectuez une recherche pour '' Scrapper ''.

3. Le premier résultat de recherche est l'extension connue sous le nom de «Scrapper».

4. Sélectionnez le bouton «Ajouter à Chrome».

5. Revenez à la liste des députés britanniques.

6. Cliquez sur le lien suivant  link .

7. Cherchez maintenant un MP et assurez-vous que l'entrée est marquée.

8. Faites un clic droit pour choisir le "Scrape" Similaire ... "option.

9. La console pour scrapper apparaîtra dans une autre fenêtre.

10. Voir le contenu raclé dans le grattoir 11. Pour vous assurer que le contenu est enregistré en tant que feuille de calcul Google, sélectionnez "Enregistrer dans Google Docs ...".

Grattage étendu

Avant de coller à cette recette , par exemple, vous pouvez lire une courte introduction au HTML via ce lien  

Imaginons que nous sommes intéressés par tous les films mettant en vedette Asia Argento, une actrice italienne célèbre.

1. Il y a une archive très détaillée d'acteurs dans IMDB Le site d'Asia Argento est: https://www.imdb.com/name/nm0000782/;

2..Ici, vous pouvez voir tous les rôles joués par l'actrice. Commençons à mettre au rebut les informations qui nous intéressent;

3. Essayez de gratter comme il a été décrit ci-dessus;

4. Vous verrez que la liste est un peu déformée. Ceci est dû au fait que la liste ici peut être structurée différemment;

5. Dirigez-vous vers la console de raclage. En haut à gauche, vous verrez la petite boîte qui dit XPath;

6. Xpath est une sorte de langage de requête qui fonctionne pour XML et HTML;

7. XPath peut aider à localiser les parties de la page qui vous intéressent. La prochaine chose est de trouver un élément approprié et écrire le XPath pour cela;

8. Maintenant, arrangeons notre table;

9. Vous verrez que notre XPath existant, qui contient toutes les données nécessaires, est "// div [3] / div [3] / div [2] / div";

10. XPath informe le système pour voir le document HTML et choisir le troisième élément, puis le deuxième élément et ensuite tous;

11. Mais nous aimerions que nos données soient séparées;

12. Utiliser la section des colonnes dans la console pour le racloir pour y arriver;

13. Trouvons d'abord notre titre РІР,“ Utiliser Inspecter l'élément pour voir le titre;

14. Vérifiez le titre dans une étiquette. Ajoutez l'étiquette à XPath;

15. L'expression semble fonctionner correctement, alors en faire notre première colonne;

16. Dans la section "Colonnes", remplacer le nom de la première colonne par "titre";

17. Ajoutez le XPath à celui-ci;

18. Dans la section colonne, les XPath sont relatifs et cela signifie que "./b" choisira l'élément  

19. Dans le XPath pour la colonne title, ajoutez "./b" et sélectionnez "scrape";

20. Continuons maintenant pendant un an. Les années peuvent être trouvées dans un intervalle;

21. Créez une nouvelle colonne en sélectionnant le petit plus à côté de la colonne pour votre titre;

22. En utilisant XPath "./span" créer une colonne pour "année";

23. Cliquez sur Éraflure et regardez comment l'année a été ajoutée.

24. Fait!

 
View more on these topics

Post a comment

Post Your Comment
© 2013 - %s, Semalt.com. All rights reserved