Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Tutorial de Semalt sobre cómo raspar sitios web más famosos de Wikipedia

Los sitios web dinámicos usan archivos robots.txt para regular y controlar cualquier actividad de raspado. Estos sitios están protegidos por términos y políticas de raspado de la web para evitar que blogueros y especialistas en mercadeo raspen sus sitios. Para los principiantes, el web scraping es un proceso de recopilación de datos de sitios web y páginas web que se guardan y luego se guardan en formatos legibles.

Recuperar datos útiles de sitios web dinámicos puede ser una tarea engorrosa. Para simplificar el proceso de extracción de datos, los webmasters usan robots para obtener la información necesaria lo más rápido posible. Los sitios dinámicos forman parte de las directivas 'permitir' y 'no permitir' que indican a los robots dónde se permite el raspado y dónde no.

Recortando los sitios más famosos de Wikipedia

Este tutorial cubre un estudio de caso realizado por Brendan Bailey en sitios de raspado de Internet. Brendan comenzó recopilando una lista de los sitios más potentes de Wikipedia. El objetivo principal de Brendan era identificar sitios web abiertos a la extracción de datos web basados en las reglas de robot.txt. Si va a rozar un sitio, considere visitar los términos de servicio del sitio web para evitar la violación de los derechos de autor.

Reglas de raspado de sitios dinámicos

Con herramientas de extracción de datos web, raspado de sitios es solo cuestión de clics. El análisis detallado sobre cómo Brendan Bailey clasificó los sitios de Wikipedia y los criterios que utilizó se describen a continuación:

Mixto

Según el estudio de caso de Brendan, los sitios web más populares se pueden agrupar como mixtos. En el gráfico circular, los sitios web con una combinación de reglas representan el 69%. El archivo robots.txt de Google es un excelente ejemplo de robots.txt mixto.

Complete Allow

Complete Allow, por otro lado, marca 8%. En este contexto, Permitir completo significa que el archivo robots.txt del sitio brinda acceso a los programas automatizados para raspar todo el sitio. SoundCloud es el mejor ejemplo a seguir. Otros ejemplos de sitios de Permitir completo incluyen:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

No establecido

Los sitios web con "No establecido" representaron el 11% del número total presentado en el gráfico. No establecido significa las dos cosas siguientes: o los sitios carecen del archivo robots.txt, o los sitios carece de reglas para "User-Agent". Los ejemplos de sitios web donde el archivo robots.txt es "Not Set" incluyen:

  • Live.com
  • Jd.com
  • Cnzz.com

Complete Disallow

Completar sitios no autorizados prohíben raspar los programas automatizados sus sitios. Linked In es un excelente ejemplo de sitios Complete Disallow. Otros ejemplos de sitios completos de desautorización incluyen:

  • Naver.com
  • Facebook.com
  • Soso.com
  • Taobao.com
  • T.co

El raspado web es la mejor solución para extraer datos. Sin embargo, raspar algunos sitios web dinámicos puede causarle un gran problema. Este tutorial lo ayudará a comprender más sobre el archivo robots.txt y evitar problemas que puedan ocurrir en el futuro.

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport