company@semalt.com

Toll-free:

+1-855-979-6663USA

+44-800-060-8429UK

Stop guessing what′s working and start seeing it for yourself.

Start SEO for $0.99

AutoSEO FullSEO E-Commerce SEO Analytics

AutoSEO FullSEO Analytics Free SEO Consultation

What is Semalt About us Client testimonials Contacts QA Help

Client cases Client testimonials AutoSEO client reviews

Question Center →

Web development

Semalt compartilha uma maneira fácil de extrair informações de sites

Jan 18, 2018

O Scraping na Web é um método popular de obtenção de conteúdo de sites . Um algoritmo especialmente programado chega à página principal do site e começa a seguir todos os links internos, montando os interiores das divs que você especificou. Como resultado, um arquivo CSV pronto contendo todas as informações necessárias em uma ordem rigorosa. O CSV resultante pode ser usado para o futuro criando conteúdo quase exclusivo. E, em geral, como uma tabela, esses dados são de grande valor. Imagine que toda a lista de produtos de uma loja de construção é apresentada em uma tabela. Além disso, para cada produto, para cada tipo e marca do produto, todos os campos e características são preenchidos. Qualquer redator trabalhando para uma loja online ficaria feliz em ter um arquivo CSV.

Existem muitas ferramentas para extrair dados de sites ou raspagem na web e não se preocupe se você não estiver familiarizado com nenhuma linguagem de programação, neste artigo vou mostrar uma das maneiras mais fáceis - usando Scrapinghub.

Antes de tudo, vá para scrapinghub.com, registre-se e inicie sessão.

O próximo passo sobre sua organização pode ser ignorado.

Então você chega ao seu perfil. Você precisa criar um projeto.

Aqui você precisa escolher um algoritmo (usaremos o algoritmo "Portia") e daremos um nome ao projeto. Vamos chamar isso de alguma forma incomum. Por exemplo, "111".

Agora entramos no espaço de trabalho do algoritmo onde você precisa digitar o URL do site do qual você deseja extrair dados. Em seguida, clique em "New Spider".

Vamos para a página que servirá de exemplo. O endereço é atualizado no cabeçalho. Clique em "Anotar esta página".

Mova o cursor do mouse para a direita e o menu aparecerá. Aqui estamos interessados na guia "Objeto Extraído", onde você precisa clicar em "Editar Itens".

No entanto, a lista vazia de nossos campos é exibida. Clique em "+ Campo".

Tudo é simples aqui: você precisa criar uma lista de campos. Para cada item, você precisa inserir um nome (neste caso, um título e conteúdo), especifique se este campo é necessário ("Requerido") e se ele pode variar ("Variar"). Se você especificar que um item é "necessário", o algoritmo simplesmente ignorará as páginas onde ele não poderá preencher este campo. Se não for marcado, o processo pode durar para sempre.

Agora, basta clicar no campo que precisamos e indicar o que é:

Feito? Em seguida, no cabeçalho do site clique em "Salvar amostra". Depois disso, você pode retornar ao espaço de trabalho. Agora, o algoritmo sabe como obter algo, precisamos definir uma tarefa para isso. Para fazer isso, clique em "Publicar alterações".

Vá para o quadro de tarefas, clique em "Executar aranha". Escolha o site, a prioridade e clique em "Executar".

Bem, a raspagem está agora em processo. A sua velocidade é mostrada apontando o cursor para o número de solicitações enviadas:

A velocidade de obtenção de cordas em CSV - apontando para outro número.

Para ver uma lista de itens já feitos basta clicar neste número. Você verá algo semelhante:

Quando terminar, o resultado pode ser salvo clicando neste botão:

É isso! Agora você pode extrair informações de sites sem experiência em programação.

View more on these topics

script de raspagem

Amazon verkoopgegevens

Semalt company

Company Presentation

Products

Success Cases

Contacts

Pavla Skoropadskoho St, 9A, Kyiv, Ukraine

Semalt compartilha uma maneira fácil de extrair informações de sites

Semalt company

Products

Success Cases

Follow us

Contacts

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport