Beautiful Soup é uma biblioteca de Python amplamente utilizada para raspar páginas da web criando uma árvore de análise de documentos XML e HTML. A raspagem da Web, uma técnica de extração de dados de sites e páginas, é amplamente utilizada nos campos de análise e gerenciamento de dados. Na maioria dos casos, a linguagem de programação Python é um pré-requisito na ciência dos dados.
O Python 3 possui ferramentas de raspagem e módulos que você pode aplicar ao seu projeto de gerenciamento de dados. Atualmente executado como Beautiful Soup 4, este módulo é compatível com Python 3 e Python 2.7. O módulo Beautiful Soup 4 também é capaz de criar uma árvore de análise para sopas de etiquetas não fechadas. Neste tutorial, você aprenderá a raspar a página e a escrever os dados raspados para um arquivo CSV.
Introdução
Para começar, configure um servidor ou ambiente de codificação Python local em seu PC. Você também deve instalar o módulo Beautiful Soup and Requests em sua máquina. O conhecimento de trabalhar com ambos os módulos também é um pré-requisito necessário. A familiaridade com a marcação e a estrutura HTML também é uma vantagem adicional.
Compreendendo seus dados
Neste contexto, os dados reais da Galeria Nacional de Arte serão usados para ajudá-lo a entender como usar a Bela Sopa 4. A Galeria Nacional de Arte é composta por 120.000 peças que são feitos por cerca de 13.000 artistas. A arte está baseada em Washington D.C, Estados Unidos.
A extração de dados da Web com Beautiful Soup não é tão complicada. Por exemplo, se você se concentrar na letra Z, marque e anote o primeiro nome na lista. Nesse caso, o primeiro nome é Zabaglia, Niccola. Por consistência, indique o número de páginas e o nome do último artista nessa página.
Como importar solicitações e biblioteca de sopas bonitas
Para importar bibliotecas, ative seu ambiente de programação Python 3. Verifique se você está no mesmo diretório com seu ambiente de programação. Execute o seguinte comando para começar. My_env / bin / activate.
Crie um novo arquivo e comece a importar bibliotecas Beautiful Soup and Requests. A biblioteca de solicitações permitirá que você use HTTP em seus programas Python em formatos legíveis. A Beautiful Sopour, por outro lado, trabalha para raspar páginas rapidamente. bs4 para importar Beautiful Soup.
Como coletar e analisar uma página da web
Usando Solicitações coletar URL da sua primeira página. O URL da primeira página será atribuído à página de variáveis. BeautifulSoup objeto de Requests e analisar o objeto do analisador do Python.
Neste tutorial, o objetivo é coletar links e nomes dos artistas. Por exemplo, você pode colecionar datas e nacionalidades de artistas. Para usuários do Windows, clique com o botão direito do mouse no primeiro nome do artista. Neste caso, use Zabaglia, Niccola. Para usuários do Mac OS, toque em "CTRL" e clique no nome. Clique no menu "Inspecionar Elemento" que exibe o menu pop-ups na tela para acessar as ferramentas dos desenvolvedores. Imprima os nomes do artista para fazer a Beautiful Soup analisar uma árvore rapidamente.
Removendo os links inferiores
Para remover os links inferiores na sua página da Web, inspecione o DOM clicando com o botão direito do mouse no elemento. Você identificará que os links estão em uma tabela HTML. Usando Beautiful Soup, use o método "decompose" para remover tags da árvore de análise.
Como extrair conteúdo de uma etiqueta
Você não precisa imprimir a tag de link inteira, use a linda Sopa para remover o material de uma etiqueta. Você também pode capturar URLs associados aos artistas usando o Beautiful Soup 4.
Capturando dados raspados para um arquivo CSV
O arquivo CSV permitirá que você armazene dados estruturados em um texto simples, um formato que é usado principalmente para folhas de dados. É recomendado o conhecimento sobre como manusear arquivos de texto simples em Python.
A extração de dados da Web é usada para raspar páginas e obter informações. Seja atencioso com os sites dos quais você é a informação de extração. Alguns sites dinâmicos restringem a extração de dados na Web em seus sites. Para raspar a página com Beautiful Soup e Python 3 é tão simples.
Post a comment