Los datos y la información en la web crecen día a día. Hoy en día, la mayoría de las personas usa Google como la primera fuente de conocimiento, ya sea que busquen reseñas sobre una empresa o intenten comprender un nuevo término.
Con la cantidad de datos disponibles en la web, se abren muchas oportunidades para los científicos de datos. Desafortunadamente, la mayoría de los datos en la web no están disponibles. Se presenta en un formato no estructurado denominado formato HTML que no se puede descargar. Por lo tanto, requiere el conocimiento y la experiencia de un científico de datos para hacer uso de él.
Web scraping es el proceso de conversión de datos presentes en formato HTML a un formato estructurado al que se puede acceder y utilizar fácilmente. Casi todos los lenguajes de programación se pueden utilizar para un desguace web adecuado. Sin embargo, en este artículo, usaremos el lenguaje R.
Hay varias maneras en que los datos pueden ser eliminados de la web. Algunos de los más populares incluyen:
1. Humano Copiar-Pegar
Esta es una técnica de raspado lenta pero muy eficiente datos de la web. En esta técnica, una persona analiza los datos por sí misma y luego los copia en el almacenamiento local.
2. Combinación de patrones de texto
Este es otro enfoque simple pero poderoso para extraer información de una web. Requiere el uso de funciones de coincidencia de expresiones regulares de los lenguajes de programación.
3. Interfaz API
Muchos sitios web como Twitter, Facebook, LinkedIn, etc. API pública o privada a la que se puede llamar usando códigos estándar para recuperar datos en un formato prescrito.
4. Análisis de DOM
Tenga en cuenta que algunos programas pueden recuperar contenido dinámico creado por los scripts del lado del cliente Es posible analizar páginas en un árbol DOM que se basa en los programas que puede usar para recuperar algunas partes de estas páginas.
Antes de t o Embárcate en raspado web en R, necesitas tener un conocimiento básico sobre R. Si eres un principiante, hay muchas fuentes geniales que pueden ayudarte. Además, se requiere tener conocimiento de HTML y CSS. Sin embargo, dado que la mayoría de los científicos de datos no son muy sólidos con los conocimientos técnicos de HTML y CSS, puede usar un software abierto como Selector Gadget.
Por ejemplo, si está recortando datos en el sitio web de IMDB para las 100 películas más populares lanzadas en un período determinado, debe eliminar los siguientes datos de un sitio: descripción, tiempo de ejecución, género, clasificación, votos, ganancia bruta, director y elenco. Una vez que haya descartado los datos, puede analizarlos de diferentes maneras. Por ejemplo, puedes crear una cantidad de visualizaciones interesantes. Ahora, cuando tenga una idea general de lo que es un desguace de datos, ¡puede abrazarlo!
Post a comment