company@semalt.com

Toll-free:

+1-855-979-6663USA

+44-800-060-8429UK

Stop guessing what′s working and start seeing it for yourself.

Start SEO for $0.99

AutoSEO FullSEO E-Commerce SEO Analytics

AutoSEO FullSEO Analytics Free SEO Consultation

What is Semalt About us Client testimonials Contacts QA Help

Client cases Client testimonials AutoSEO client reviews

Question Center →

Web development

Semalt - Como raspar páginas da Web?

Jan 09, 2018

Beautiful Soup é uma biblioteca de Python amplamente utilizada para raspar páginas da web criando uma árvore de análise de documentos XML e HTML. A raspagem da Web, uma técnica de extração de dados de sites e páginas, é amplamente utilizada nos campos de análise e gerenciamento de dados. Na maioria dos casos, a linguagem de programação Python é um pré-requisito na ciência dos dados.

O Python 3 possui ferramentas de raspagem e módulos que você pode aplicar ao seu projeto de gerenciamento de dados. Atualmente executado como Beautiful Soup 4, este módulo é compatível com Python 3 e Python 2.7. O módulo Beautiful Soup 4 também é capaz de criar uma árvore de análise para sopas de etiquetas não fechadas. Neste tutorial, você aprenderá a raspar a página e a escrever os dados raspados para um arquivo CSV.

Introdução

Para começar, configure um servidor ou ambiente de codificação Python local em seu PC. Você também deve instalar o módulo Beautiful Soup and Requests em sua máquina. O conhecimento de trabalhar com ambos os módulos também é um pré-requisito necessário. A familiaridade com a marcação e a estrutura HTML também é uma vantagem adicional.

Compreendendo seus dados

Neste contexto, os dados reais da Galeria Nacional de Arte serão usados para ajudá-lo a entender como usar a Bela Sopa 4. A Galeria Nacional de Arte é composta por 120.000 peças que são feitos por cerca de 13.000 artistas. A arte está baseada em Washington D.C, Estados Unidos.

A extração de dados da Web com Beautiful Soup não é tão complicada. Por exemplo, se você se concentrar na letra Z, marque e anote o primeiro nome na lista. Nesse caso, o primeiro nome é Zabaglia, Niccola. Por consistência, indique o número de páginas e o nome do último artista nessa página.

Como importar solicitações e biblioteca de sopas bonitas

Para importar bibliotecas, ative seu ambiente de programação Python 3. Verifique se você está no mesmo diretório com seu ambiente de programação. Execute o seguinte comando para começar. My_env / bin / activate.

Crie um novo arquivo e comece a importar bibliotecas Beautiful Soup and Requests. A biblioteca de solicitações permitirá que você use HTTP em seus programas Python em formatos legíveis. A Beautiful Sopour, por outro lado, trabalha para raspar páginas rapidamente. bs4 para importar Beautiful Soup.

Como coletar e analisar uma página da web

Usando Solicitações coletar URL da sua primeira página. O URL da primeira página será atribuído à página de variáveis. BeautifulSoup objeto de Requests e analisar o objeto do analisador do Python.

Neste tutorial, o objetivo é coletar links e nomes dos artistas. Por exemplo, você pode colecionar datas e nacionalidades de artistas. Para usuários do Windows, clique com o botão direito do mouse no primeiro nome do artista. Neste caso, use Zabaglia, Niccola. Para usuários do Mac OS, toque em "CTRL" e clique no nome. Clique no menu "Inspecionar Elemento" que exibe o menu pop-ups na tela para acessar as ferramentas dos desenvolvedores. Imprima os nomes do artista para fazer a Beautiful Soup analisar uma árvore rapidamente.

Removendo os links inferiores

Para remover os links inferiores na sua página da Web, inspecione o DOM clicando com o botão direito do mouse no elemento. Você identificará que os links estão em uma tabela HTML. Usando Beautiful Soup, use o método "decompose" para remover tags da árvore de análise.

Como extrair conteúdo de uma etiqueta

Você não precisa imprimir a tag de link inteira, use a linda Sopa para remover o material de uma etiqueta. Você também pode capturar URLs associados aos artistas usando o Beautiful Soup 4.

Capturando dados raspados para um arquivo CSV

O arquivo CSV permitirá que você armazene dados estruturados em um texto simples, um formato que é usado principalmente para folhas de dados. É recomendado o conhecimento sobre como manusear arquivos de texto simples em Python.

A extração de dados da Web é usada para raspar páginas e obter informações. Seja atencioso com os sites dos quais você é a informação de extração. Alguns sites dinâmicos restringem a extração de dados na Web em seus sites. Para raspar a página com Beautiful Soup e Python 3 é tão simples.

View more on these topics

raspador de imagem

raspar cromo

Semalt company

Company Presentation

Products

Success Cases

Contacts

Pavla Skoropadskoho St, 9A, Kyiv, Ukraine

Semalt - Como raspar páginas da Web?

Introdução

Compreendendo seus dados

Como importar solicitações e biblioteca de sopas bonitas

Como coletar e analisar uma página da web

Removendo os links inferiores

Como extrair conteúdo de uma etiqueta

Capturando dados raspados para um arquivo CSV

Semalt company

Products

Success Cases

Follow us

Contacts

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport