Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Tutorial da Semalt sobre como raspar os sites mais famosos da Wikipedia

Sites dinâmicos usam arquivos robots.txt para regular e controlar quaisquer atividades de raspagem. Esses sites são protegidos por  termos e políticas de raspagem na web  para impedir que blogueiros e comerciantes raspe seus sites. Para iniciantes, a raspagem na Web é um processo de coleta de dados de sites e páginas da web e salvar, em seguida, salvá-lo em formatos legíveis.

Recuperar dados úteis de sites dinâmicos pode ser uma tarefa incômoda. Para simplificar o processo de extração de dados, os webmasters usam robôs para obter as informações necessárias o mais rápido possível. Os sites dinâmicos compõem as diretivas "permitir" e "desautorizar" que dizem aos robôs onde a raspagem é permitida e onde não é.

Raspando os sites mais famosos da Wikipédia

Este tutorial cobre um estudo de caso que foi realizado por Brendan Bailey em sites de raspagem da Internet. Brendan começou coletando uma lista dos sites mais potentes da Wikipedia. O principal objetivo da Brendan era identificar sites abertos para a extração de dados da Web com base nas regras do robot.txt. Se você estiver raspando um site, considere visitar os termos de serviço do site para evitar violação de direitos autorais.

Regras de raspagem de sites dinâmicos

Com ferramentas de extração de dados na web,  a raspagem do site  é apenas uma questão de clique. A análise detalhada de como Brendan Bailey classificou os sites de Wikipedia e os critérios que utilizou estão descritos abaixo:

Misturado

De acordo com o estudo de caso de Brendan, os sites mais populares podem ser agrupados como Misturados. No gráfico de torta, os sites com uma mistura de regras representam 69%. O robots.txt do Google é um excelente exemplo de robots.txt mistos.


Complete Allow

Complete Allow, por outro lado, marca o 8%. Neste contexto, Complete Allow significa que o arquivo robots.txt do site dá acesso a programas automatizados para raspar todo o site. O SoundCloud é o melhor exemplo a ser utilizado. Outros exemplos de sites de Permitir completo incluem:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

Não definido

Os sites com "Não definido" representaram 11% do número total apresentado no gráfico. Não definido significa as seguintes duas coisas: os sites não possuem o arquivo robots.txt ou os sites carece de regras para "User-Agent". Exemplos de sites onde o arquivo robots.txt é "Not Set" incluem:

  • Live.com
  • Jd.com
  • Cnzz.com

Complete Disallow

Complete Disallow sites proíbem programas automatizados de raspagem seus sites. Linked In é um excelente exemplo de sites completos de desativação. Outros exemplos de sites completos de desativação incluem:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • T.co

A raspagem da Web é a melhor solução para extrair dados. No entanto, raspar alguns sites dinâmicos pode pousá-lo em grandes problemas. Este tutorial irá ajudá-lo a entender mais sobre o arquivo robots.txt e evitar problemas que possam ocorrer no futuro.

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport