Stop guessing what′s working and start seeing it for yourself.
Login ou cadastro
Q&A
Question Center →

Semalt: Web Scraping mit Python

Hast du einen dieser schrecklichen Momente durchgemacht, in denen du kein Wi-Fi hast? . Wenn ja, dann haben Sie erkannt, wie viel von dem, was Sie auf Ihrem Computer tun, auf das Internet angewiesen ist. Aus reiner Gewohnheit werden Sie Ihre E-Mails abrufen, die Instagram-Fotos Ihrer Freunde ansehen und ihre Tweets lesen.

Da so viel Computerarbeit die Webprozesse betrifft, wäre es sehr praktisch, wenn Ihre Programme auch online gehen könnten. Dies ist der Fall für  Web Scraping . Es beinhaltet ein Programm zum Herunterladen und Verarbeiten von Inhalten aus dem Internet. Zum Beispiel verwendet Google eine Vielzahl von Scraping-Programmen, um Webseiten für ihre Suchmaschine zu indexieren.

Es gibt viele Möglichkeiten, Daten aus dem Internet zu kratzen. Viele dieser Methoden erfordern den Befehl einer Vielzahl von Programmiersprachen wie Python und R. Zum Beispiel können Sie mit Python eine Reihe von Modulen wie Requests, Beautiful Suppen, Webbrowser und Selenium nutzen. 

Das Modul "Anfragen" bietet Ihnen die Möglichkeit, Dateien einfach aus dem Internet herunterzuladen, ohne sich um schwierige Probleme wie Verbindungsprobleme, Netzwerkfehler und Datenkomprimierung kümmern zu müssen..Es muss nicht unbedingt mit Python geliefert werden, daher müssen Sie es zuerst installieren.

Das Modul wurde entwickelt, weil Pythons Modul 'urllib2' viele Komplikationen aufweist, die die Verwendung erschweren. Es ist eigentlich ziemlich einfach zu installieren. Alles, was Sie tun müssen, ist die Ausführung von Pip-Installationsanforderungen über die Befehlszeile. Sie müssen dann einen einfachen Test durchführen, um sicherzustellen, dass das Modul korrekt installiert wurde. Um dies zu tun, können Sie '>>> Importanforderungen' in die interaktive Shell eingeben. Wenn keine Fehlermeldungen angezeigt werden, war die Installation erfolgreich.

Um eine Seite herunterzuladen, müssen Sie die Funktion "requests.get" starten. Die Funktion nimmt eine Zeichenfolge einer URL zum Herunterladen und gibt dann ein Antwortobjekt zurück. Dies enthält die Antwort, die der Webserver für Ihre Anfrage zurückgegeben hat. Wenn Ihre Anfrage erfolgreich ist, wird die heruntergeladene Webseite als Zeichenfolge in der Textvariablen der Antwortobjekte gespeichert.

Das Antwortobjekt besitzt normalerweise ein Statuscode-Attribut, mit dem Sie herausfinden können, ob Ihr Download erfolgreich war. In ähnlicher Weise können Sie die Methode 'raise_for_status' für ein Antwortobjekt aufrufen. Dies führt zu einer Ausnahme, wenn beim Herunterladen der Datei Fehler auftreten. Es ist ein guter Weg, um sicherzustellen, dass ein Programm bei einem schlechten Download stoppt.

Von hier aus können Sie Ihre heruntergeladene Web-Datei mit den Standardfunktionen 'open' und 'write' auf Ihrer Festplatte speichern. Um jedoch die Unicode-Codierung des Textes beizubehalten, müssen Sie Textdaten durch Binärdaten ersetzen.

Um die Daten in eine Datei zu schreiben, können Sie eine 'for' Schleife mit der 'iter_content' Methode verwenden. Diese Methode gibt Datenmengen bei jeder Iteration durch die Schleife zurück. Jeder Bulk ist in Bytes und Sie müssen angeben, wie viele Bytes jeder Bulk enthält. Sobald Sie mit dem Schreiben fertig sind, rufen Sie 'close' auf, um die Datei zu schließen, und Ihr Job ist nun vorbei.

Post a comment

Post Your Comment

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport