Stop guessing what′s working and start seeing it for yourself.
Bij het uitvoeren van data-analyse of machine learning-projecten, moet u mogelijk websites schrapen om de benodigde gegevens en voltooi uw project. Python-programmeertaal heeft een krachtige verzameling tools en modules die voor dit doel kunnen worden gebruikt. U kunt bijvoorbeeld de BeautifulSoup-module gebruiken voor HTML-parsen.
Hier gaan we kijken naar BeautifulSoup en ontdekken waarom het nu zo veel wordt gebruikt in webscraping.
Om met BeautifulSoup te gaan werken, moet de programmeeromgeving van Python (lokaal of op server) op uw machine zijn ingesteld. Python is meestal vooraf geïnstalleerd in OS X, maar als u Windows gebruikt, moet u de taal van de officiële website downloaden en installeren.
Ten slotte is bekend en comfortabel werken met HTML-tagging en structuur zeker nuttig, omdat u met web-sourcedata zult werken.
De programmeeromgeving van Python is goed ingesteld, je kunt nu een nieuw bestand maken (bijvoorbeeld met nano) met elke gewenste naam.
Met de bibliotheek Verzoeken kun je een door mensen leesbare HTTP-vorm gebruiken in je Python-programma's terwijl BeautifulSoup het schrapen sneller laat verlopen. U kunt de importinstructie gebruiken om beide bibliotheken te openen.
Gebruik de methode requests.get () om de URL te verzamelen van de webpagina waarvan u gegevens wilt extraheren. Maak vervolgens een BeautifulSoup-object of ontleed de structuur. Dit object neemt het document uit Aanvragen als zijn argumenten en parseert het vervolgens. Met de pagina verzameld, geparseerd en ingesteld als een BeautifulSoup-object, kunt u doorgaan met het verzamelen van de gegevens die u nodig hebt.
Wanneer u webgegevens wilt verzamelen, moet u weten hoe die gegevens worden beschreven door het Document Object Model (DOM) van de webpagina. Klik in uw webbrowser met de rechtermuisknop (bij gebruik van Windows) of CTRL + klik (bij gebruik van macOS) op een van de items die deel uitmaken van de van belang zijnde gegevens. Als u bijvoorbeeld gegevens over de nationaliteiten van studenten wilt achterhalen, klikt u op een van de namen van een student. Er verschijnt een contextmenu en daarbinnen ziet u een menu-item dat lijkt op Inspect Element (voor Firefox) of Inspect (voor Chrome). Klik op het relevante menu-item Inspecteren en de hulpprogramma's voor webontwikkeling verschijnen in uw browser.
BeautifulSoup is een eenvoudige maar krachtige HTML-parsingtool die u veel flexibiliteit biedt wanneer websites worden geschraapt. Houd er bij het gebruik rekening mee dat u algemene regels voor het afschrapen in acht neemt, zoals het controleren van de algemene voorwaarden van de website; de site regelmatig opnieuw bezoeken en uw code bijwerken volgens de wijzigingen die op de site zijn aangebracht. Met deze kennis over het schrapen van websites met Python en BeautifulSoup, kunt u nu eenvoudig de webgegevens ophalen die u nodig hebt voor uw project.
Categories
8 1 2 3 4 5 6 7 80 2 4 6 9 1 3 5 7 9 1 4 6 8 0 2 4 6 8 1 3 5 7 9 1 3 6 8 0 2 80 4 9 3 7 1 6 0 4 8 3 7 1 6 0 4 8 3 7 1 6 0 4 8 3 7 1 5 0 4 8 3 7 1 5 0 4 8 2 7 1 5 0 4 1 80 7 4 1 8 5 2 9 7 4 1 8 5 2 9 6 3 0 7 4 1 8 6 3 0 7 4 1 8 5 2 9 6 3 0 7 4 2 9 6 3 0 7 4 1 8 5 2 9 6 3 1 8 5 2 9 6 3 0 80 7 3 0 6 3 0 6 3 0 6 3 9 6 3 9 6 3 9 6 2 9 6 2 9 6 2 9 5 2 9 5 2 8 5 2 8 5 2 8 5 1 8 5 1 8 5 1 8 4 1 8 4 1 8 4 1 7 4 1 7 4 0 7 4 0 7 4 0 7 3 0 7 5 80 9 7 6 4 3 2 0 9 7 6 5 3 2 0 9 8 6 5 3 2 1 9 8 6 5 4 2 1 9 8 7 5 4 2 1 0 8 7 5 4 3 1 0 8 7 5 4 3 1 0 8 7 6 4 3 1 0 9 7 6 4 3 2 0 9 7 6 5 3 2 0 9 8 6 5 3 2 1 9 8 6 5 4 2 1 9 8 registered users | 8 1 80 1 2 3 4 5 6 80 2 4 7 9 1 3 5 7 0 2 4 6 8 0 3 5 7 9 1 3 6 8 0 2 4 6 9 1 3 80 5 9 4 9 3 8 3 7 2 6 1 6 0 5 0 4 9 4 8 3 8 2 7 1 6 1 5 0 5 9 4 9 3 8 3 7 2 6 1 6 0 5 0 7 80 0 0 0 0 0 0 0 9 9 9 9 9 9 9 9 9 9 9 9 9 9 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 7 7 7 7 7 7 7 7 7 7 7 7 7 7 6 6 6 6 6 6 6 6 80 0 9 9 8 8 7 7 6 6 5 5 5 4 4 3 3 2 2 1 1 0 0 0 9 9 8 8 7 7 6 6 5 5 5 4 4 3 3 2 2 1 1 0 0 0 9 9 8 8 7 7 6 6 5 5 5 4 4 3 3 2 2 1 1 0 0 0 9 9 8 8 7 7 80 0 9 9 8 8 8 7 7 6 6 6 5 5 4 4 4 3 3 2 2 2 1 1 0 0 0 9 9 8 8 8 7 7 6 6 6 5 5 4 4 4 3 3 2 2 1 1 1 0 0 9 9 9 8 8 7 7 7 6 6 5 5 5 4 4 3 3 3 2 2 1 1 1 0 0 9 9 9 8 8 7 7 7 6 6 5 5 analyzed websites |
Post a comment