Stop guessing what′s working and start seeing it for yourself.
登录或注册
Q&A
Question Center →

Semalt - Wie man Webseiten reibt?

Beautiful Soup ist eine Python-Bibliothek, die zum Erstellen von Webseiten verwendet wird aus XML- und HTML-Dokumenten. Web Scraping, eine Technik zum Extrahieren von Daten von Websites und Seiten, wird in den Bereichen Datenanalyse und -verwaltung häufig verwendet. In den meisten Fällen ist Python-Programmiersprache eine Voraussetzung in Data Science.

Python 3 verfügt über  Scraping-Tools  und Module, die Sie auf Ihr Datenverwaltungsprojekt anwenden können. Dieses Modul läuft derzeit als Beautiful Soup 4 und ist sowohl mit Python 3 als auch mit Python 2.7 kompatibel. Beautiful Soup 4-Modul ist auch in der Lage, einen Parse-Baum für nicht geschlossene Tag-Suppe zu erstellen. In diesem Lernprogramm erfahren Sie, wie Sie die Seite abkratzen und die abgekratzten Daten in eine CSV-Datei schreiben.

Erste Schritte

Richten Sie zunächst auf Ihrem PC eine Server- oder lokale Python-Codierungsumgebung ein. Sie sollten auch Beautiful Soup und Requests-Modul auf Ihrem Computer installieren. Kenntnisse in der Arbeit mit beiden Modulen sind ebenfalls eine notwendige Voraussetzung. Vertrautheit mit HTML-Tagging und -Struktur ist auch ein zusätzlicher Vorteil.

Ihre Daten verstehen

In diesem Zusammenhang werden reale Daten der National Gallery of Art verwendet, um Ihnen zu helfen, die Verwendung von Beautiful Soup 4 zu verstehen. Die National Gallery of Art besteht aus 120.000 Stücken werden von ungefähr 13.000 Künstlern ausgeführt. The Art hat seinen Sitz in Washington D.C, USA.

Web-Datenextraktion mit Beautiful Soup ist nicht so kompliziert. Wenn Sie beispielsweise auf den Buchstaben Z fokussieren, markieren und notieren Sie den ersten Namen in der Liste. In diesem Fall ist der Vorname Zabaglia, Niccola. Geben Sie aus Gründen der Konsistenz die Anzahl der Seiten und den Namen des letzten Künstlers auf dieser Seite an.

So importieren Sie Anfragen und schöne Soup-Bibliothek

Um Bibliotheken zu importieren, aktivieren Sie Ihre Python 3-Programmierumgebung. Stellen Sie sicher, dass Sie sich mit Ihrer Programmierumgebung im selben Verzeichnis befinden. Führen Sie den folgenden Befehl aus, um loszulegen. My_env / bin / activate.

Erstellen Sie eine neue Datei und starten Sie den Import von Beautiful Soup und Requests-Bibliotheken.Die Requests-Bibliothek ermöglicht es Ihnen, HTTP in Ihren Python-Programmen in lesbaren Formaten zu verwenden.Beautiful Soup dagegen arbeitet, um Seiten schnell zu scrappen bs4 zum Importieren von Beautiful Soup.

So sammeln und analysieren Sie eine Webseite

Verwenden Sie Requests, um die URL Ihrer ersten Seite zu erfassen BeautifulSoup-Objekt von Requests und parse das Objekt von Python Parser.

In diesem Tutorial ist es das Ziel, Links und die Namen der Künstler zu sammeln. Zum Beispiel können Sie Künstlerdaten und Nationalitäten sammeln. Rechtsklick auf den Vornamen des Künstlers, in diesem Fall Zabaglia, Nicola. Tippen Sie bei Mac OS-Benutzern auf "STRG" und klicken Sie auf den Namen. Klicken Sie auf das Menü "Element prüfen", um Popups auf Ihrem Bildschirm aufzurufen und auf die Tools für Webentwickler zuzugreifen. Drucken Sie die Namen des Künstlers aus, damit Beautiful Soup schnell einen Baum parsen kann.

Entfernen der unteren Links

Um die unteren Links auf Ihrer Webseite zu entfernen, überprüfen Sie das DOM, indem Sie mit der rechten Maustaste auf das Element klicken. Sie erkennen, dass sich die Links in einer HTML-Tabelle befinden. Mit Beautiful Soup können Sie die "decompose" -Methode verwenden, um Tags aus dem Syntaxbaum zu entfernen.

So ziehen Sie Inhalt von einem Tag

Sie müssen nicht das gesamte Link-Tag drucken, sondern Beautiful Soup verwenden, um Material von einem Tag zu entfernen. Sie können URLs, die den Künstlern zugeordnet sind, auch mit Beautiful Soup 4 erfassen.

Erfassen von Scraped-Daten in einer CSV-Datei

CSV-Datei ermöglicht das Speichern strukturierter Daten ein einfacher Text, ein Format, das hauptsächlich für Datenblätter verwendet wird. Kenntnisse zur Handhabung von Nur-Text-Dateien in Python werden empfohlen.

Die Web-Datenextraktion wird verwendet, um Seiten zu scrappen und Informationen zu erhalten. Berücksichtigen Sie die Websites, von denen Sie Informationen extrahieren. Einige dynamische Websites beschränken die Extraktion von Webdaten auf ihren Websites. Die Seite mit Beautiful Soup and Python 3 zu bearbeiten ist so einfach.

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

WeChat

AlexSemalt

Telegram

Semaltsupport