Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Semalt compartilha uma maneira fácil de extrair informações de sites

 O Scraping na Web  é um método popular de obtenção de conteúdo de sites . Um algoritmo especialmente programado chega à página principal do site e começa a seguir todos os links internos, montando os interiores das divs que você especificou. Como resultado, um arquivo CSV pronto contendo todas as informações necessárias em uma ordem rigorosa. O CSV resultante pode ser usado para o futuro criando conteúdo quase exclusivo. E, em geral, como uma tabela, esses dados são de grande valor. Imagine que toda a lista de produtos de uma loja de construção é apresentada em uma tabela. Além disso, para cada produto, para cada tipo e marca do produto, todos os campos e características são preenchidos. Qualquer redator trabalhando para uma loja online ficaria feliz em ter um arquivo CSV.

Existem muitas ferramentas para extrair dados de sites ou raspagem na web e não se preocupe se você não estiver familiarizado com nenhuma linguagem de programação, neste artigo vou mostrar uma das maneiras mais fáceis - usando Scrapinghub.

Antes de tudo, vá para scrapinghub.com, registre-se e inicie sessão.

O próximo passo sobre sua organização pode ser ignorado.

Então você chega ao seu perfil. Você precisa criar um projeto.

Aqui você precisa escolher um algoritmo (usaremos o algoritmo "Portia") e daremos um nome ao projeto. Vamos chamar isso de alguma forma incomum. Por exemplo, "111".

Agora entramos no espaço de trabalho do algoritmo onde você precisa digitar o URL do site do qual você deseja extrair dados. Em seguida, clique em "New Spider".

Vamos para a página que servirá de exemplo. O endereço é atualizado no cabeçalho. Clique em "Anotar esta página".

Mova o cursor do mouse para a direita e o menu aparecerá. Aqui estamos interessados na guia "Objeto Extraído", onde você precisa clicar em "Editar Itens".

No entanto, a lista vazia de nossos campos é exibida. Clique em "+ Campo".

Tudo é simples aqui: você precisa criar uma lista de campos. Para cada item, você precisa inserir um nome (neste caso, um título e conteúdo), especifique se este campo é necessário ("Requerido") e se ele pode variar ("Variar"). Se você especificar que um item é "necessário", o algoritmo simplesmente ignorará as páginas onde ele não poderá preencher este campo. Se não for marcado, o processo pode durar para sempre.

Agora, basta clicar no campo que precisamos e indicar o que é:

Feito? Em seguida, no cabeçalho do site clique em "Salvar amostra". Depois disso, você pode retornar ao espaço de trabalho. Agora, o algoritmo sabe como obter algo, precisamos definir uma tarefa para isso. Para fazer isso, clique em "Publicar alterações".

Vá para o quadro de tarefas, clique em "Executar aranha". Escolha o site, a prioridade e clique em "Executar".

Bem, a raspagem está agora em processo. A sua velocidade é mostrada apontando o cursor para o número de solicitações enviadas:

A velocidade de obtenção de cordas em CSV - apontando para outro número.

Para ver uma lista de itens já feitos basta clicar neste número. Você verá algo semelhante:

Quando terminar, o resultado pode ser salvo clicando neste botão:

É isso! Agora você pode extrair informações de sites sem experiência em programação.

View more on these topics

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport