Stop guessing what′s working and start seeing it for yourself.
Login ou cadastro
Q&A
Question Center →

Semalt: Scraping na Web com Python

Você passou por um desses momentos aterradores quando você não possui Wi-Fi . Se assim for, então você percebeu o quanto você faz no seu computador depende da rede. Por completo, você verá seus emails, visualizando as fotos Instagram do seu amigo e lendo seus tweets.

Uma vez que tanto o trabalho do computador envolve os processos da web, seria muito conveniente se seus programas pudessem entrar online também. Este é o caso de  raspagem na web . Envolve o uso de um programa para baixar e processar conteúdo da web. Por exemplo, o Google usa uma variedade de programas de raspagem para indexar páginas da Web para seu mecanismo de pesquisa.

Há muitas maneiras pelas quais você pode  raspar dados  da internet. Muitos desses métodos requerem o comando de uma variedade de linguagens de programação, como Python e R. Por exemplo, com o Python, você pode fazer uso de vários módulos, tais como Solicitações, Sopa bonita, Webbrowser e Selenium.

O módulo 'Requisições' permite a você baixar facilmente arquivos da web sem ter que se preocupar com problemas difíceis, como problemas de conexão, erros de rede e compressão de dados. Ele não vem necessariamente com o Python, e então você terá que instalá-lo primeiro.

O módulo foi desenvolvido porque o módulo 'urllib2' da Python tem muitas complicações, tornando-o difícil de usar. Na verdade, é bastante fácil de instalar. Tudo o que você precisa fazer é executar pedidos de instalação de pips a partir da linha de comando. Você então precisa fazer um teste simples para garantir que o módulo tenha instalado corretamente. Para fazer isso, você pode digitar '>>> importar solicitações' no shell interativo. Se nenhuma mensagem de erro aparecer, a instalação foi bem-sucedida.

Para baixar uma página, você precisa iniciar a função 'requests.get. A função leva uma seqüência de caracteres de uma URL para baixar e, em seguida, retorna um objeto de "resposta". Isso contém a resposta que o servidor da Web retornou para sua solicitação. Se sua solicitação for bem-sucedida, a página da Web baixada será salva como uma string na variável de texto dos objetos de resposta.

O objeto de resposta geralmente possui um atributo de código de status que você pode usar para descobrir se seu download foi bem-sucedido. Da mesma forma, você pode chamar o método 'raise_for_status ' em um objeto de resposta. Isso aumenta uma exceção se houver algum erro ao baixar o arquivo. É uma ótima maneira de se certificar de que um programa pára na ocorrência de um download ruim.

A partir daqui, você pode salvar seu arquivo web baixado em seu disco rígido usando as funções padrão, 'abrir' e 'escrever'. No entanto, para manter a codificação Unicode do texto, você terá que substituir dados de texto por dados binários.

Para escrever os dados em um arquivo, você pode utilizar um loop 'for' com o método 'iter_content'. Este método retorna grandes quantidades de dados em cada iteração através do loop. Cada volume está em bytes e você precisa especificar quantos bytes cada volume irá conter. Depois de terminar de escrever, chame 'close' para fechar o arquivo e seu trabalho está acabado.

Post a comment

Post Your Comment

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport