Você pode raspar o local sem a necessidade de uma API. Enquanto os proprietários do site são agressivos sobre como parar a raspagem, eles se importam menos com as APIs e, em vez disso, colocam mais ênfase nos sites. Os fatos que muitos sites não guardam adequadamente contra o acesso automático criam uma margem de manobra para raspadores. Algumas soluções simples ajudarão você a colher os dados que você precisa.
A raspagem requer a compreensão da estrutura dos dados que você precisa e sua acessibilidade. Isso começa obtendo seus dados. Encontre o URL que retorna as informações que você precisa. Navegue pelo site e verifique como os URLs mudam à medida que você navega por diferentes seções.
Em alternativa, procure vários termos no site e verifique se os URLs mudam com base no seu termo de pesquisa. Você deve ver um parâmetro GET como q = que muda sempre que você pesquisa um novo termo. Mantenha os parâmetros GET necessários para carregar seus dados e remover os outros.
Como lidar com a paginação
A paginação evita o acesso a todos os dados que você precisa ao mesmo tempo. Quando você clica na página 2, um parâmetro offset = é adicionado ao URL. Este é o número de elementos em uma página ou o número da página. Incremente esse número em cada página de seus dados..
Para sites que usam AJAX, puxe a guia de rede no Firebug ou Inspector. Verifique os pedidos XHR, identifique e concentre-se nos que extraem seus dados.
Obter dados do rastreamento de página
Isso é conseguido usando ganchos CSS. Clique com o botão direito do mouse em uma seção específica de seus dados. Puxe o Firebug ou Inspector e faça zoom na árvore DOM para obter o máximo que envolve um único item. Depois de ter o nó correto da árvore DOM, veja a fonte da página para garantir que seus elementos estejam acessíveis em HTML bruto.
Para raspar o site com êxito, você precisa de uma biblioteca de análise HTML que lê em HTML e o converte em um objeto que você pode iterar até obter o que você precisa. Se a sua biblioteca HTTP exige que você configure alguns cookies ou cabeçalhos, navegue no site em seu navegador e obtenha os cabeçalhos enviados pelo seu navegador. Coloque-os em um dicionário e encaminhe com seu pedido.
Se você precisa criar uma conta e logar para obter os dados desejados, você precisa ter uma boa biblioteca HTTP para lidar com logins. O login Scraper o expõe a sites de terceiros.
Se o limite de taxa do seu serviço web depende do endereço IP, defina um código que atinja o serviço da Web para um Javascript do lado do cliente. Em seguida, encaminhe os resultados de volta para o servidor a partir de cada cliente. Os resultados parecerão originários de tantos lugares, e nenhum excederá o limite de taxa.
Marcação mal formada
Algumas marcas podem ser difíceis de validar. Nesses casos, digite seu analisador HTML para obter configurações de tolerância de erro. Alternativamente, trate todo o documento HTML como uma string longa e faça a divisão de cordas.
Enquanto você pode arranjar todos os tipos de dados na rede, alguns sites empregam software para parar de raspar e outros proíbem web scrap ing. Esses sites podem processá-lo e até mesmo você está preso pela colheita de seus dados. Então seja inteligente em toda a sua correia fotorreceptora e faça com segurança.
Post a comment