Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Semalt partage un moyen facile d'extraire des informations à partir de sites Web

Web Scraping est une méthode populaire pour obtenir du contenu à partir de sites Web. Un algorithme spécialement programmé arrive sur la page principale du site et commence à suivre tous les liens internes, assemblant les intérieurs des divs que vous avez spécifiés. En conséquence - prêt fichier CSV contenant toutes les informations nécessaires dans un ordre strict. Le CSV résultant peut être utilisé pour le futur en créant un contenu presque unique. Et en général, en tant que tableau, ces données sont d'une grande valeur. Imaginez que la liste complète des produits d'un magasin de construction est présentée dans un tableau. De plus, pour chaque produit, pour chaque type et marque du produit, tous les champs et toutes les caractéristiques sont renseignés. Tout rédacteur travaillant pour un magasin en ligne serait heureux d'avoir un tel fichier CSV.

Il y a beaucoup d'outils pour extraire des données de sites Web ou de grattage Web et ne vous inquiétez pas si vous ne connaissez pas les langages de programmation, dans cet article, je vais montrer l'un des moyens les plus faciles - en utilisant Scrapinghub.

Tout d'abord, allez sur scrapinghub.com, enregistrez-vous et connectez-vous.

L'étape suivante de votre organisation peut être simplement ignorée.

Ensuite, vous arrivez à votre profil. Vous devez créer un projet.

Ici, vous devez choisir un algorithme (nous utiliserons l'algorithme "Portia") et donner un nom au projet. Appelons cela quelque peu inhabituel. Par exemple, "111".

Maintenant, nous entrons dans l'espace de travail de l'algorithme où vous devez taper l'URL du site Web dont vous souhaitez extraire des données..Puis cliquez sur "New Spider".

Nous allons passer à la page qui va servir d'exemple. L'adresse est mise à jour dans l'en-tête. Cliquez sur "Annoter cette page".

Déplacez le curseur de la souris vers la droite pour faire apparaître le menu. Ici, nous sommes intéressés par l'onglet "Article extrait", où vous devez cliquer sur "Modifier les articles".

Pourtant, la liste vide de nos champs est affichée. Cliquez sur "+ Champ".

Tout est simple ici: vous devez créer une liste de champs. Pour chaque article, vous devez entrer un nom (dans ce cas, un titre et un contenu), spécifier si ce champ est requis ("Obligatoire") et s'il peut varier ("Varier"). Si vous spécifiez qu'un élément est "requis", l'algorithme sautera simplement les pages où il ne pourra pas remplir ce champ. S'il n'est pas marqué, le processus peut durer éternellement.

Maintenant, il suffit de cliquer sur le champ dont nous avons besoin et d'indiquer de quoi il s'agit:

Terminé? Ensuite, dans l'en-tête du site, cliquez sur "Enregistrer l'échantillon". Après cela, vous pouvez retourner à l'espace de travail. Maintenant, l'algorithme sait comment obtenir quelque chose, nous devons lui assigner une tâche. Pour ce faire, cliquez sur "Publier les modifications".

Allez dans le tableau des tâches, cliquez sur "Run Spider". Choisissez site web, priorité et cliquez sur "Exécuter".

Eh bien, le raclage est maintenant en cours. Sa vitesse est indiquée en pointant votre curseur sur le nombre de demandes envoyées:

La vitesse de préparation des chaînes en CSV - en pointant un autre nombre.

Pour voir la liste des articles déjà créés, il suffit de cliquer sur ce numéro. Vous verrez quelque chose de similaire:

Quand c'est fini, le résultat peut être sauvegardé en cliquant sur ce bouton:

C'est tout! Vous pouvez maintenant extraire des informations de sites Web sans aucune expérience en programmation.

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport