Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Semalt - Como raspar páginas da Web?

Beautiful Soup é uma biblioteca de Python amplamente utilizada para raspar páginas da web criando uma árvore de análise de documentos XML e HTML. A raspagem da Web, uma técnica de extração de dados de sites e páginas, é amplamente utilizada nos campos de análise e gerenciamento de dados. Na maioria dos casos, a linguagem de programação Python é um pré-requisito na ciência dos dados.

O Python 3 possui  ferramentas de raspagem  e módulos que você pode aplicar ao seu projeto de gerenciamento de dados. Atualmente executado como Beautiful Soup 4, este módulo é compatível com Python 3 e Python 2.7. O módulo Beautiful Soup 4 também é capaz de criar uma árvore de análise para sopas de etiquetas não fechadas. Neste tutorial, você aprenderá a raspar a página e a escrever os dados raspados para um arquivo CSV.

Introdução

Para começar, configure um servidor ou ambiente de codificação Python local em seu PC. Você também deve instalar o módulo Beautiful Soup and Requests em sua máquina. O conhecimento de trabalhar com ambos os módulos também é um pré-requisito necessário. A familiaridade com a marcação e a estrutura HTML também é uma vantagem adicional.

Compreendendo seus dados

Neste contexto, os dados reais da Galeria Nacional de Arte serão usados para ajudá-lo a entender como usar a Bela Sopa 4. A Galeria Nacional de Arte é composta por 120.000 peças que são feitos por cerca de 13.000 artistas. A arte está baseada em Washington D.C, Estados Unidos.

A extração de dados da Web com Beautiful Soup não é tão complicada. Por exemplo, se você se concentrar na letra Z, marque e anote o primeiro nome na lista. Nesse caso, o primeiro nome é Zabaglia, Niccola. Por consistência, indique o número de páginas e o nome do último artista nessa página.

Como importar solicitações e biblioteca de sopas bonitas

Para importar bibliotecas, ative seu ambiente de programação Python 3. Verifique se você está no mesmo diretório com seu ambiente de programação. Execute o seguinte comando para começar. My_env / bin / activate.

Crie um novo arquivo e comece a importar bibliotecas Beautiful Soup and Requests. A biblioteca de solicitações permitirá que você use HTTP em seus programas Python em formatos legíveis. A Beautiful Sopour, por outro lado, trabalha para raspar páginas rapidamente. bs4 para importar Beautiful Soup.

Como coletar e analisar uma página da web

Usando Solicitações coletar URL da sua primeira página. O URL da primeira página será atribuído à página de variáveis. BeautifulSoup objeto de Requests e analisar o objeto do analisador do Python.

Neste tutorial, o objetivo é coletar links e nomes dos artistas. Por exemplo, você pode colecionar datas e nacionalidades de artistas. Para usuários do Windows, clique com o botão direito do mouse no primeiro nome do artista. Neste caso, use Zabaglia, Niccola. Para usuários do Mac OS, toque em "CTRL" e clique no nome. Clique no menu "Inspecionar Elemento" que exibe o menu pop-ups na tela para acessar as ferramentas dos desenvolvedores. Imprima os nomes do artista para fazer a Beautiful Soup analisar uma árvore rapidamente.

Removendo os links inferiores

Para remover os links inferiores na sua página da Web, inspecione o DOM clicando com o botão direito do mouse no elemento. Você identificará que os links estão em uma tabela HTML. Usando Beautiful Soup, use o método "decompose" para remover tags da árvore de análise.

Como extrair conteúdo de uma etiqueta

Você não precisa imprimir a tag de link inteira, use a linda Sopa para remover o material de uma etiqueta. Você também pode capturar URLs associados aos artistas usando o Beautiful Soup 4.

Capturando dados raspados para um arquivo CSV

O arquivo CSV permitirá que você armazene dados estruturados em um texto simples, um formato que é usado principalmente para folhas de dados. É recomendado o conhecimento sobre como manusear arquivos de texto simples em Python.

A extração de dados da Web é usada para raspar páginas e obter informações. Seja atencioso com os sites dos quais você é a informação de extração. Alguns sites dinâmicos restringem a extração de dados na Web em seus sites. Para raspar a página com Beautiful Soup e Python 3 é tão simples.

View more on these topics

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport