Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Semalt: Extrahieren von URLs von Webseiten mit schöner Suppe

Beautiful Soup ist ein Python-Paket auf hoher Ebene, das zum Parsen von XML- und HTML-Dokumenten verwendet wird. Schöne Soup Python-Bibliothek erstellt einen Syntaxbaum, mit dem nützliche Informationen aus HyperText Markup Language (HTML) extrahiert werden. Diese Bibliothek ist sowohl für Python 2 als auch für Python 3 verfügbar.

In den meisten Fällen stellen Sie fest, dass Ihre Zieldaten nur als Teil einer Webseite abgerufen und verwendet werden können. In einem solchen Fall müssen Sie eine solche  Web Scraping  -Technik verwenden, die Daten in den Formaten extrahiert, die analysiert werden können. Hier kommt die Beautiful Soup-Bibliothek ins Spiel.

Anforderungen

Sie benötigen die richtigen Module, um die Beautiful Soup-Bibliothek zu verwenden. Zu Beginn müssen Sie die Programmiersprache Python 2.7 auf Ihrem Computer installieren. In diesem Beitrag erfahren Sie , wie Sie eine Website  scrappen und alle URLs mit Requests und Beautiful Soup 4 extrahieren. Das HTML-Parsing ist eine Do-it-yourself-Aufgabe, insbesondere mit der technischen Hilfe von Beautiful Soup.

Warum eine schöne Suppe benutzen?

Beautiful Soup ist ein erstklassiges Python-Paket, das seit 2004 verwendet wird, um Websites zu scrappen und HTML-Tags zu analysieren..Kürzlich, Beautiful Soup 4 ersetzt Beautiful Soup 3 in der Branche. Beachten Sie, dass BS4 auf beiden Python-Versionen funktioniert, während BS3 nur auf Python 2.7 funktioniert. Die Bibliothek umfasst die folgenden integrierten Funktionen:

  • Codierungsfunktionen - Sie müssen keine Panik über Codierungen haben, sobald Sie die erforderlichen schönen Soup-Module auf Ihrem Computer installiert haben. Die Bibliothek ist automatisiert, um Eingaben in Unicode und Ausgaben nach UTF-8 zu konvertieren.
  • Navigationsfunktionen - Beautiful Soup bietet einfach zu verwendende Methoden zum Suchen, Navigieren und Ändern eines Syntaxbaums.

Wie benutzt man die Soul-Bibliothek?

Nachdem Sie Beautiful Soup auf Ihrem Computer installiert haben, können Sie die Bibliothek verwenden. Um zu beginnen, importieren Sie die Bibliothek bs4 am Anfang Ihres Python-Codes. Übergeben Sie den Inhalt oder die URL an Beautiful Soup, um ein Soup-Objekt zu erstellen. Die Bibliothek ruft die Zielwebseite jedoch nicht selbst ab. Hier müssen Sie diese Aufgabe manuell erledigen. Sie können die bevorzugten Webseiten auch leicht mit einer Kombination aus Python und Beautiful Soup abrufen.

Rollen der Anforderungsbibliothek

Um eine Seite zu scrappen, müssen Sie sie zuerst herunterladen. Sie können Webseiten mit der Anforderungsbibliothek herunterladen. Die Anforderungsbibliothek arbeitet mit einer "GET" -Anforderung an die Webserver, die wiederum den HTML-Inhalt der bevorzugten Webseite herunterladen.

Extrahieren von URLs von Webseiten

Nun haben Sie detaillierte Informationen über die Bibliothek von Beautiful Soup. Eine Kombination aus BS4-Bibliothek und Python hilft Ihnen, eine Webseite sehr schnell zu holen. Verwenden Sie die Methode "Alle finden", um alle URLs von Ihrer Zielwebseite zu extrahieren. Diese Methode gibt Ihnen eine Zusammenstellung von Elementen mit dem Tag. Von bs4 importieren Sie sowohl schöne Suppe und Anfragen. Führen Sie Ihren Code aus und geben Sie eine Website oder Webseite ein, von der die URLs extrahiert werden sollen.

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport