Stop guessing what′s working and start seeing it for yourself.
login ou enregistrement
Q&A
Question Center →

Semalt - Comment gratter les pages Web?

Beautiful Soup est une bibliothèque Python largement utilisée pour gratter des pages web en créant un arbre d'analyse à partir de documents XML et HTML. Le Web scraping, technique d'extraction de données à partir de sites Web et de pages, est largement utilisé dans les domaines de l'analyse et de la gestion des données. Dans la plupart des cas, le langage de programmation Python est une condition préalable à la science des données.

Python 3 possède  des outils de grattage  et des modules que vous pouvez appliquer à votre projet de gestion de données. Actuellement en cours d'exécution en tant que Beautiful Soup 4, ce module est compatible avec Python 3 et Python 2.7. Le module Beautiful Soup 4 est également capable de créer un arbre d'analyse pour les soupes tag non fermées. Dans ce didacticiel, vous apprendrez à récurer la page et à écrire les données récupérées dans un fichier CSV.

Premiers pas

Pour commencer, configurez un serveur ou un environnement de codage Python local sur votre PC. Vous devez également installer le module Beautiful Soup and Requests sur votre machine. La connaissance du travail avec les deux modules est également une condition préalable nécessaire. La connaissance du marquage et de la structure HTML est également un avantage supplémentaire.

Comprendre vos données

Dans ce contexte, des données réelles de la National Gallery of Art seront utilisées pour vous aider à comprendre comment utiliser Beautiful Soup 4. La National Gallery of Art comprend 120 000 pièces sont réalisées par environ 13 000 artistes. The Art est basé à Washington D.C, États-Unis.

L'extraction de données Web avec Beautiful Soup n'est pas si compliquée. Par exemple, si vous vous concentrez sur la lettre Z, marquez et notez le prénom sur la liste. Dans ce cas, le prénom est Zabaglia, Niccola. Pour plus de cohérence, indiquez le nombre de pages et le nom du dernier artiste sur cette page.

Comment importer les requêtes et la bibliothèque Beautiful Soup

Pour importer des librairies, activez votre environnement de programmation Python 3. Vérifiez que vous êtes dans le même répertoire que votre environnement de programmation Exécutez la commande suivante pour commencer my_env / bin / activate.

Créez un nouveau fichier et commencez à importer les bibliothèques Beautiful Soup et Requests.La bibliothèque Requests vous permettra d'utiliser HTTP dans vos programmes Python dans des formats lisibles.Super Soup, d'autre part, travaille à gratter les pages rapidement. bs4 pour importer Beautiful Soup.

Comment collecter et analyser une page web

Utiliser Requests recueille l'URL de votre première page L'URL de la première page sera assignée à la page variable. BeautifulSoup objet de Requêtes et analyser l'objet de l'analyseur Python.

Dans ce tutoriel, le but est de collecter des liens et les noms des artistes.Par exemple, vous pouvez collecter les dates et les nationalités des artistes. faites un clic droit sur le prénom de l'artiste, dans ce cas, utilisez Zabaglia, Niccola. Pour les utilisateurs de Mac OS, appuyez sur "CTRL" et cliquez sur le nom. Cliquez sur le menu "Inspect Element" qui pop-ups sur votre écran pour accéder aux outils des développeurs Web. Imprimer les noms de l'artiste pour faire Beautiful Soup analyser un arbre rapidement.

Suppression des liens inférieurs

Pour supprimer les liens inférieurs de votre page Web, inspectez le DOM en cliquant avec le bouton droit sur l'élément. Vous identifierez que les liens sont sous un tableau HTML. À l'aide de Beautiful Soup, utilisez la méthode "decompose" pour supprimer les balises de l'arborescence d'analyse.

Comment extraire le contenu d'une étiquette

Vous n'êtes pas obligé d'imprimer la totalité de l'étiquette de lien, utilisez la fonction Soupe belle pour supprimer le matériau d'une étiquette. Vous pouvez également capturer les URL associées aux artistes en utilisant Beautiful Soup 4.

Capture de données récupérées dans un fichier CSV

Le fichier CSV vous permet de stocker des données structurées dans un texte brut, un format qui est principalement utilisé pour les fiches de données. La connaissance de la manipulation de fichiers texte en Python est recommandée.

L'extraction de données Web est utilisée pour racler des pages et obtenir des informations. Soyez attentif aux sites Web dont vous extrayez des informations. Certains sites Web dynamiques limitent l'extraction de données Web sur leurs sites. Pour gratter la page avec Beautiful Soup et Python 3 est aussi simple que cela.

View more on these topics

Post a comment

Post Your Comment

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport