Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Semalt: extraheren van URL's van webpagina's met mooie soep

Beautiful Soup is een Python-pakket op hoog niveau dat wordt gebruikt voor het parseren van XML en HTML documenten. Mooie Soup Python-bibliotheek maakt een ontleedboom die wordt gebruikt om nuttige informatie uit HyperText Markup Language (HTML) te extraheren. Deze bibliotheek is beschikbaar voor zowel Python 2 als Python 3-versies.

In de meeste gevallen vindt u dat uw doeldata alleen kunnen worden benaderd en gebruikt als onderdeel van een webpagina. In een dergelijk geval moet u een dergelijke webscraping techniek gebruiken die gegevens kan extraheren in de indelingen die kunnen worden geanalyseerd. Hier komt de Beautiful Soup-bibliotheek om de hoek kijken.

Vereisten

U hebt de juiste modules nodig om de Beautiful Soup-bibliotheek te gebruiken. Om te beginnen, moet je de programmeertaal Python 2.7 op je computer installeren. In dit bericht leert u hoe u een website kunt schrapen en alle URL's kunt extraheren met behulp van Verzoeken en Beautiful Soup 4. HTML-parsing is een doe-het-zelf-taak, vooral met de technische hulp van Beautiful Soup.

Waarom Beautiful Soup gebruiken?

Beautiful Soup is een top-ranked Python-pakket dat sinds 2004 wordt gebruikt om websites te schrapen en HTML-tags te parseren. Onlangs heeft Beautiful Soup 4 Beautiful Soup 3 in de industrie vervangen. Merk op dat BS4 op beide Python-versies werkt, terwijl BS3 alleen op Python 2.7 werkt. De bibliotheek bestaat uit de volgende ingebouwde functies:

  • Encodings-mogelijkheid - U hoeft niet in paniek te raken over coderingen als u de nodige prachtige Soup-modules op uw computer hebt geïnstalleerd. De bibliotheek is geautomatiseerd om ingangen naar Unicode te converteren en naar UTF-8.
  • Navigatiemogelijkheid - Beautiful Soup biedt eenvoudig te gebruiken methoden voor het zoeken, navigeren en wijzigen van een ontleedboom.

Hoe gebruik je de Beautiful Soup-bibliotheek?

Nadat u Beautiful Soup op uw machine hebt geïnstalleerd, kunt u beginnen met het gebruik van de bibliotheek. Om te beginnen, importeert u de bs4-bibliotheek aan het begin van uw Python-code. Geef inhoud of URL door aan Beautiful Soup om een Soup-object te maken. De bibliotheek haalt de doelwebpagina echter niet zelf op. Hier moet je die taak handmatig voltooien. U kunt ook gemakkelijk de gewenste webpagina's ophalen met een combinatie van Python en Beautiful Soup.

Rol van aanvraagbibliotheek

Om een pagina te schrapen, moet u deze eerst downloaden. U kunt webpagina's downloaden met de aanvraagbibliotheek. De bibliotheek van verzoeken werkt door een "GET" aanvraag te doen naar de webservers, die op hun beurt HTML-inhoud van de gewenste webpagina downloaden.

URL's van webpagina's extraheren

Nu hebt u gedetailleerde informatie over de bibliotheek van Beautiful Soup. Een combinatie van BS4-bibliotheek en Python helpt je een webpagina heel snel op te halen. Als u alle URL's van uw doelwebpagina wilt extraheren, gebruikt u de methode "alles zoeken". Met deze methode krijgt u een compilatie van elementen met de tag. Importeer vanaf bs4 zowel Beautiful Soup als verzoeken. Voer uw code uit en voer een website of webpagina in om de URL's uit te pakken.

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport