Semalt: Web Scraping avec Python

Jan 12, 2018

Avez-vous traversé un de ces moments terrifiants lorsque vous n'avez pas le Wi-Fi ? Si oui, alors vous avez réalisé à quel point ce que vous faites sur votre ordinateur repose sur le net. Par pure habitude, vous vous retrouverez à consulter vos courriels, à consulter les photos Instagram de vos amis et à lire leurs tweets.

Étant donné que le travail sur l'ordinateur implique tellement de processus en ligne, il serait très pratique que vos programmes soient également mis en ligne. C'est le cas pour raclage de bande. Cela implique l'utilisation d'un programme pour télécharger et traiter le contenu du Web. Par exemple, Google utilise une variété de programmes de grattage pour indexer les pages Web de leur moteur de recherche.

Vous pouvez gratter les données à partir d'Internet de différentes façons. Beaucoup de ces méthodes nécessitent la commande d'une variété de langages de programmation tels que Python et R. Par exemple, avec Python, vous pouvez utiliser un certain nombre de modules tels que Requests, Beautiful soup, Webbrowser et Selenium.

Le module 'Demandes' vous permet de télécharger facilement des fichiers depuis le web sans avoir à vous soucier des problèmes difficiles tels que les problèmes de connexion, les erreurs réseau et la compression des données..Il ne vient pas nécessairement avec Python, et vous devrez donc l'installer en premier.

Le module a été développé parce que le module 'urllib2' de Python présente de nombreuses complications le rendant difficile à utiliser. C'est en fait assez facile à installer. Tout ce que vous avez à faire est de lancer des demandes d'installation pip à partir de la ligne de commande. Vous devez ensuite effectuer un test simple pour vous assurer que le module est correctement installé. Pour ce faire, vous pouvez saisir '>>> demandes d'importation' dans le shell interactif. Si aucun message d'erreur n'apparaît, l'installation a réussi.

Pour télécharger une page, vous devez lancer la fonction 'requests.get'. La fonction prend une chaîne d'une URL à télécharger, puis retourne un objet 'réponse'. Cela contient la réponse renvoyée par le serveur Web pour votre requête. Si votre requête aboutit, la page Web téléchargée est enregistrée en tant que chaîne dans la variable de texte des objets de réponse.

L'objet de réponse a généralement un attribut de code d'état que vous pouvez utiliser pour savoir si votre téléchargement a réussi. De même, vous pouvez appeler la méthode 'raise_for_status' sur un objet de réponse. Cela déclenche une exception si des erreurs se sont produites lors du téléchargement du fichier. C'est un excellent moyen de s'assurer qu'un programme s'arrête en cas de mauvais téléchargement.

De là, vous pouvez sauvegarder votre fichier web téléchargé sur votre disque dur en utilisant les fonctions standard 'open' et 'write'. Cependant, afin de conserver le codage Unicode du texte, vous devrez remplacer les données textuelles par des données binaires.

Pour écrire les données dans un fichier, vous pouvez utiliser une méthode 'for' avec la méthode 'iter_content'. Cette méthode renvoie des masses de données à chaque itération à travers la boucle. Chaque bulk est en octets, et vous devez spécifier combien d'octets chaque bulk contiendra. Une fois que vous avez fini d'écrire, appelez 'close' pour fermer le fichier et votre travail est maintenant terminé.

View more on these topics

déchets de données

grattage des pages Web

Semalt company

Company Presentation

Products

Success Cases

Contacts

Pavla Skoropadskoho St, 9A, Kyiv, Ukraine

Semalt: Web Scraping avec Python

Semalt company

Products

Success Cases

Follow us

Contacts

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport