Stop guessing what′s working and start seeing it for yourself.
Aanmelden of registreren
Q&A
Question Center →

Beoordeling door Semalt: Web Scraping For Fun & Profit

Je kunt scrapen zonder de noodzaak van een API. Terwijl site-eigenaren agressief zijn over het stoppen van scraping, geven ze minder om API's en leggen ze meer de nadruk op websites. De feiten dat veel sites onvoldoende bescherming bieden tegen automatische toegang, creëren ruimte voor scrapers. Enkele eenvoudige oplossingen helpen u de gegevens te verzamelen die u nodig hebt.

Beginnen met schrapen

Schrapen vereist inzicht in de structuur van de gegevens die u nodig hebt en de toegankelijkheid ervan. Dit begint met het ophalen van uw gegevens. Zoek de URL die de informatie retourneert die u nodig hebt. Blader door de website en controleer hoe de URL's veranderen terwijl u door verschillende secties navigeert.

U kunt ook verschillende termen op de site doorzoeken en controleren hoe de URL's veranderen op basis van uw zoekterm. Je zou een GET-parameter moeten zien zoals q = die verandert telkens wanneer je een nieuwe term zoekt. Bewaar de GET-parameters die nodig zijn om uw gegevens te laden en de andere te verwijderen.

Hoe om te gaan met paginering

Paginering weerhoudt u van toegang tot alle gegevens die u tegelijk nodig hebt. Wanneer u op pagina 2 klikt, wordt een parameter offset = toegevoegd aan de URL. Dit is het aantal elementen op een pagina of het paginanummer. Verhoog dit nummer op elke pagina van uw gegevens.

Voor sites die AJAX gebruiken, trekt u naar het netwerktabblad in Firebug of Inspector. Controleer de XHR-verzoeken, identificeer en richt u op degenen die uw gegevens invoeren.

Verkrijg gegevens van pagina-opmaak

Dit wordt bereikt met behulp van CSS-haken. Klik met de rechtermuisknop op een bepaald gedeelte van uw gegevens. Trek aan de Firebug of Inspector en zoom door de DOM-tree om het uiterste te krijgen dat een enkel item omhult. Zodra u het juiste knooppunt uit de DOM-structuur heeft, bekijkt u de paginabron om ervoor te zorgen dat uw elementen toegankelijk zijn in onbewerkte HTML.

Om sites te schrapen, hebt u een HTML-parsing-bibliotheek nodig die in HTML leest en verandert in een object dat u kunt herhalen totdat u krijgt wat u nodig hebt. Als uw HTTP-bibliotheek vereist dat u bepaalde cookies of headers instelt, bladert u door de website in uw webbrowser en haalt u de headers op die door uw browser worden verzonden. Zet ze in een woordenboek en stuur ze door met uw verzoek.

Wanneer u een login nodig hebt om te schrapen

Als u een account moet maken en moet inloggen om de gewenste gegevens te krijgen, moet u beschikken over een goede HTTP-bibliotheek om aanmeldingen af te handelen. Met de login van Scraper wordt u blootgesteld aan websites van derden.

Als de snelheidslimiet van uw webservice afhangt van het IP-adres, stelt u een code in die de webservice naar een Javascript aan de client kant raakt. Stuur vervolgens de resultaten van elke client terug naar uw server. De resultaten zullen van zoveel plaatsen afkomstig lijken te zijn en geen enkele zal hun limiet overschrijden.

Slecht gevormde markup

Sommige markups kunnen moeilijk te valideren zijn. In dergelijke gevallen, graven in uw HTML-parser voor fouttolerantie-instellingen. Als alternatief, behandel het hele HTML-document als een lange reeks en doe tekenreeks opsplitsen.

Hoewel u alle soorten gegevens op het net kunt schrapen, gebruiken sommige sites software om te stoppen met schrapen en andere verbieden webschroot. Zulke sites kunnen je aanklagen en je zelfs gevangen houden voor het oogsten van hun gegevens. Dus wees slim in al je webschrapen en doe het veilig.

Post a comment

Post Your Comment

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport