Stop guessing what′s working and start seeing it for yourself.
登录或注册
Q&A
Question Center →

Semalt deelt een makkelijke manier om informatie van websites te extraheren

 Webscraping is een populaire methode om inhoud van websites te verkrijgen. Een speciaal geprogrammeerd algoritme komt naar de hoofdpagina van de site en begint alle interne links te volgen, waarbij de interieurs van door jou gespecificeerde div. Worden samengevoegd. Als een resultaat klaar CSV bestand met alle benodigde informatie in een strikte volgorde. De resulterende CSV kan worden gebruikt voor de toekomst om bijna unieke inhoud te maken. En over het algemeen zijn dergelijke gegevens als tabel van grote waarde. Stel je voor dat de volledige productlijst van een bouwwinkel in een tabel wordt gepresenteerd. Bovendien zijn voor elk product voor elk type en merk van het product alle velden en kenmerken ingevuld. Elke copywriter die voor een online winkel werkt, zou graag een dergelijk CSV bestand hebben.

Er zijn veel tools voor het extraheren van gegevens van websites of webscraping en maak je geen zorgen als je niet bekend bent met programmeertalen, in dit artikel zal ik een van de gemakkelijkste manieren met behulp van Scrapinghub.

Ga allereerst naar scrapinghub.com, registreer en log in.

De volgende stap over uw organisatie kan eenvoudig worden overgeslagen.

Dan kom je bij je profiel. U moet een project maken.

Hier moet je een algoritme kiezen (we zullen het algoritme "Portia" gebruiken) en een naam geven aan het project. Laten we het op de een of andere manier ongewoon noemen. Bijvoorbeeld "111".

Nu komen we in de werkruimte van het algoritme waar u de URL moet typen van de website waarvan u gegevens wilt extraheren. Klik vervolgens op "Nieuwe spider".

We gaan naar de pagina die als voorbeeld gaat dienen. Het adres wordt bijgewerkt in de kop. Klik op "Deze pagina annoteren".

Beweeg uw muiscursor naar rechts waardoor het menu verschijnt. Hier zijn we geïnteresseerd in het tabblad "Extracted item", waar u moet klikken op "Items bewerken".

Toch wordt de lege lijst van onze velden weergegeven. Klik op "+ Field".

Alles is hier eenvoudig: u moet een lijst met velden maken. Voor elk item moet u een naam invoeren (in dit geval een titel en inhoud), specificeren of dit veld vereist is ("Vereist") en of dit kan variëren ("Variëren"). Als u opgeeft dat een item "verplicht" is, zal het algoritme eenvoudig pagina's overslaan waar het dit veld niet kan invullen. Als dit niet wordt gemarkeerd, kan het proces voor altijd duren.

Klik nu gewoon op het veld dat we nodig hebben en geef aan wat het is:

Klaar? Klik vervolgens in de kop van de website op 'Voorbeeld opslaan'. Daarna kunt u terugkeren naar de werkruimte. Nu weet het algoritme hoe iets te krijgen, we moeten er een taak voor instellen. Om dit te doen, klik op "Wijzigingen publiceren".

Ga naar taakbord, klik op "Run Spider". Kies website, prioriteit en klik op "Uitvoeren".

Nou, het krabben is nu aan de gang. De snelheid wordt weergegeven door de cursor op het aantal verzonden verzoeken te richten:

De snelheid van het gereedmaken van reeksen in CSV - door te wijzen naar een ander nummer.

Klik op dit nummer om een lijst met reeds gemaakte artikelen te bekijken. Je ziet iets soortgelijks:

Als het klaar is, kan het resultaat worden opgeslagen door op deze knop te klikken:

Dat is alles! Nu kunt u informatie van websites extraheren zonder enige ervaring met programmeren.

View more on these topics

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

WeChat

AlexSemalt

Telegram

Semaltsupport