O Scraping na Web é um método popular de obtenção de conteúdo de sites . Um algoritmo especialmente programado chega à página principal do site e começa a seguir todos os links internos, montando os interiores das divs que você especificou. Como resultado, um arquivo CSV pronto contendo todas as informações necessárias em uma ordem rigorosa. O CSV resultante pode ser usado para o futuro criando conteúdo quase exclusivo. E, em geral, como uma tabela, esses dados são de grande valor. Imagine que toda a lista de produtos de uma loja de construção é apresentada em uma tabela. Além disso, para cada produto, para cada tipo e marca do produto, todos os campos e características são preenchidos. Qualquer redator trabalhando para uma loja online ficaria feliz em ter um arquivo CSV.
Existem muitas ferramentas para extrair dados de sites ou raspagem na web e não se preocupe se você não estiver familiarizado com nenhuma linguagem de programação, neste artigo vou mostrar uma das maneiras mais fáceis - usando Scrapinghub.
Antes de tudo, vá para scrapinghub.com, registre-se e inicie sessão.
O próximo passo sobre sua organização pode ser ignorado.
Então você chega ao seu perfil. Você precisa criar um projeto.
Aqui você precisa escolher um algoritmo (usaremos o algoritmo "Portia") e daremos um nome ao projeto. Vamos chamar isso de alguma forma incomum. Por exemplo, "111".
Agora entramos no espaço de trabalho do algoritmo onde você precisa digitar o URL do site do qual você deseja extrair dados. Em seguida, clique em "New Spider".
Vamos para a página que servirá de exemplo. O endereço é atualizado no cabeçalho. Clique em "Anotar esta página".
Mova o cursor do mouse para a direita e o menu aparecerá. Aqui estamos interessados na guia "Objeto Extraído", onde você precisa clicar em "Editar Itens".
No entanto, a lista vazia de nossos campos é exibida. Clique em "+ Campo".
Tudo é simples aqui: você precisa criar uma lista de campos. Para cada item, você precisa inserir um nome (neste caso, um título e conteúdo), especifique se este campo é necessário ("Requerido") e se ele pode variar ("Variar"). Se você especificar que um item é "necessário", o algoritmo simplesmente ignorará as páginas onde ele não poderá preencher este campo. Se não for marcado, o processo pode durar para sempre.
Agora, basta clicar no campo que precisamos e indicar o que é:
Feito? Em seguida, no cabeçalho do site clique em "Salvar amostra". Depois disso, você pode retornar ao espaço de trabalho. Agora, o algoritmo sabe como obter algo, precisamos definir uma tarefa para isso. Para fazer isso, clique em "Publicar alterações".
Vá para o quadro de tarefas, clique em "Executar aranha". Escolha o site, a prioridade e clique em "Executar".
Bem, a raspagem está agora em processo. A sua velocidade é mostrada apontando o cursor para o número de solicitações enviadas:
A velocidade de obtenção de cordas em CSV - apontando para outro número.
Para ver uma lista de itens já feitos basta clicar neste número. Você verá algo semelhante:
Quando terminar, o resultado pode ser salvo clicando neste botão:
É isso! Agora você pode extrair informações de sites sem experiência em programação.
Post a comment