Web Scraping, auch Web-Datenextraktion oder Web-Harvesting genannt, ist die Prozess des Extrahierens von Daten von einer Website oder einem Blog. Diese Informationen werden dann verwendet, um Metatags, Metabeschreibungen, Schlüsselwörter und Links zu einer Website festzulegen, wodurch die Gesamtleistung der Suchmaschinenergebnisse verbessert wird.
Zum Abkratzen von Daten werden zwei Haupttechniken verwendet:
- Dokumentanalyse - Es handelt sich um ein XML- oder HTML-Dokument, das in das DOM (Document Object Model) konvertiert wird ) Dateien. PHP bietet uns eine großartige DOM-Erweiterung.
- Reguläre Ausdrücke - Es ist eine Möglichkeit, Daten aus den Web-Dokumenten in Form von regulären Ausdrücken zu scrapen.
Das Problem mit den Scraping-Daten der Website von Drittanbietern hängt mit ihrem Urheberrecht zusammen, da Sie keine Erlaubnis zur Verwendung dieser Daten haben. Aber mit PHP können Sie leicht Daten ohne Probleme mit Copyrights oder niedriger Qualität schaben. Als PHP-Programmierer benötigen Sie möglicherweise Daten von verschiedenen Websites zu Codierungszwecken. Hier haben wir erklärt, wie Sie Daten von anderen Sites effizient erhalten, aber vorher sollten Sie daran denken, dass Sie am Ende entweder die Dateien index.php oder scrape.js erhalten.
Schritte1: Formular erstellen, um die Website-URL einzugeben:
Zunächst sollten Sie in der index.php ein Formular erstellen, indem Sie auf die Schaltfläche Senden klicken und die URL der Website für die Scraping-Daten eingeben.
Schritte 2: PHP-Funktion zum Abrufen von Website-Daten erstellen:
Der zweite Schritt besteht im Erstellen Die PHP-Funktion scrappt in der scrape.php-Datei, da sie hilft, Daten zu erhalten und die URL-Bibliothek zu verwenden. Es ermöglicht Ihnen auch, ohne Probleme mit verschiedenen Servern und Protokollen zu verbinden und zu kommunizieren.
function scrapeSiteData ($ website_url) {
if (! Funktion_exists ('curl_init')) {
stirb ('cURL ist nicht installiert. Bitte installiere es und versuche es erneut. ");
}
$ curl = curl_init;
curl_setopt ($ curl, CURLOPT_URL, $ website_url);
curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, wahr);
$ output = curl_exec ($ curl);
curl_close ($ curl);
gibt $ output zurück;
}
Hier können wir sehen, ob PHP cURL korrekt installiert wurde oder nicht. Drei Haupt-cURLs müssen im Funktionsbereich verwendet werden, und curl_init
hilft beim Initialisieren der Sitzungen, curl_exec
führt es aus und curl_close
hilft beim Schließen der Verbindung. Mit den Variablen wie CURLOPT_URL werden die URLs der Website festgelegt, die wir scrappen müssen. Der zweite CURLOPT_RETURNTRANSFER speichert die gescannten Seiten in der Variablenform und nicht in der Standardform, wodurch letztendlich die gesamte Webseite angezeigt wird.
Steps3: Scrape Specific Data from the Website:
Es ist Zeit, die Funktionalitäten Ihrer PHP-Datei zu bearbeiten und den spezifischen Bereich Ihrer Webseite zu überarbeiten. Wenn Sie nicht alle Daten einer bestimmten URL möchten, sollten Sie die Variablen CURLOPT_RETURNTRANSFER bearbeiten und die Abschnitte markieren, die Sie abkratzen möchten.
if (iset ($ _ POST ['abschicken'])) {
$ html = scrapeWebsiteData ($ _ POST ['website_url']);
$ start_point = strpos ($ html, 'Neueste Beiträge');
$ end_point = strpos ($ html, '', $ start_point);
$ length = $ end_point- $ start_point;
$ html = Teilstr ($ html, $ start_point, $ length);
echo $ html;
}
Wir empfehlen Ihnen, das Grundwissen über PHP und die Regulären Ausdrücke zu entwickeln, bevor Sie einen dieser Codes verwenden oder einen bestimmten Blog oder eine Website für persönliche Zwecke verwenden.
Post a comment