raspado web, también conocido como cosecha web, es una técnica utilizada para extraer datos de sitios web. El software de extracción web puede acceder a una web directamente utilizando HTTP o un navegador web. Mientras que el proceso puede ser implementado manualmente por un usuario de software, la técnica generalmente implica un proceso automatizado implementado usando un rastreador web o bot.
Web scraping es un proceso en el que los datos estructurados se copian de la web en una base de datos local para su revisión y recuperación. Implica buscar una página web y extraer su contenido. El contenido de la página puede ser analizado, buscado, reestructurado y sus datos copiados en un dispositivo de almacenamiento local.
Las páginas web generalmente se crean a partir de lenguajes de marcado basados en texto, como XHTML y HTML, que contienen una gran cantidad de datos útiles en forma de texto. Sin embargo, muchos de estos sitios web han sido diseñados para usuarios finales humanos y no para uso automatizado. Esta es la razón por la cual se creó el software de raspado.
Hay muchas técnicas que pueden emplearse para un raspado web eficaz. Algunos de ellos se han elaborado a continuación:
1. Copiar y pegar en humanos
De vez en cuando, incluso la mejor herramienta de raspado web no puede reemplazar la precisión y la eficacia de una copia y pegado manual de un ser humano. Esto es principalmente aplicable en situaciones en las que los sitios web establecen barreras para evitar la automatización de la máquina.
2. Combinación de patrones de texto
Este es un enfoque bastante simple pero poderoso usado para extraer datos de páginas web. Puede basarse en el comando grep de UNIX o solo en un recurso de expresión regular de un lenguaje de programación dado, por ejemplo, Python o Perl.
3. Programación HTTP
La Programación HTTP puede usarse tanto para páginas web estáticas como dinámicas. Los datos se extraen mediante la publicación de solicitudes HTTP en un servidor web remoto mientras se usa la programación de socket.
4. Análisis de HTML
Muchos sitios web tienden a tener una extensa colección de páginas creadas dinámicamente desde una fuente de estructura subyacente, como una base de datos. Aquí, los datos que pertenecen a una categoría similar están codificados en páginas similares. En el análisis de HTML, un programa generalmente detecta dicha plantilla en una fuente particular de información, recupera su contenido y luego lo traduce a un formulario de afiliado, conocido como envoltorio.
5. Análisis DOM
En esta técnica, un programa se integra en un navegador web completo como Mozilla Firefox o Internet Explorer para recuperar el contenido dinámico generado por el script del lado del cliente. Estos navegadores también pueden analizar páginas web en un árbol DOM dependiendo de los programas que pueden extraer partes de las páginas.
6. Reconocimiento de anotación semántica
Las páginas que intenta raspar pueden incluir marcas semánticas y anotaciones o metadatos, que pueden usarse para localizar fragmentos de datos específicos. Si estas anotaciones están incrustadas en las páginas, esta técnica puede verse como un caso especial de análisis DOM. Estas anotaciones también pueden organizarse en una capa sintáctica, y luego almacenarse y administrarse por separado de las páginas web. Permite raspadores para recuperar el esquema de datos, así como los comandos de esta capa antes de que elimine las páginas.
Post a comment