Stop guessing what′s working and start seeing it for yourself.
Acceder o registrarse
Q&A
Question Center →

Raspando sitios web con Python y BeautifulSoup - Semalt Advice

        

Hay información más que suficiente en Internet acerca de cómo raspar sitios web y blogs correctamente. Lo que necesitamos no es solo el acceso a esos datos, sino también las formas escalables de recopilarlo, analizarlo y organizarlo. Python y BeautifulSoup son dos maravillosas herramientas para raspar sitios web y extraer datos. En el web scraping, los datos se pueden extraer fácilmente y presentar en el formato que necesita. Si usted es un ávido inversor que valora su tiempo y dinero, definitivamente necesita acelerar el proceso de raspado web y hacerlo lo más optimizado posible.

Primeros pasos

Vamos a usar Python y BeautifulSoup como el idioma principal de raspado.

  • 1. Para los usuarios de Mac, Python está preinstalado en el OS X. Simplemente tienen que abrir Terminal y escribir  python -version . De esta forma, podrán ver la versión de Python 2.7.
  • 2. Para los usuarios de Windows, recomendamos instalar Python a través de su sitio oficial.
  • 3. A continuación, debe acceder a la biblioteca BeautifulSoup con la ayuda de pip. Esta herramienta de administración de paquetes se hizo especialmente para Python.
        

En la terminal, debe insertar el siguiente código:

 easy_install pip 

 instalación de pip BeautifulSoup4 

Reglas de raspado:

Las principales reglas de raspado que debe tener en cuenta son:

  • 1. Debe verificar las Reglas y Regulaciones del sitio antes de comenzar con su raspado. ¡Así que ten mucho cuidado!
  • 2. No debe solicitar los datos de los sitios de manera demasiado agresiva. Asegúrese de que la herramienta que utiliza se comporta de manera razonable. De lo contrario, puede romper el sitio.
  • 3. Una solicitud por segundo es la práctica correcta.
  • 4. El diseño del blog o sitio puede modificarse en cualquier momento, y es posible que tenga que volver a visitar ese sitio y volver a escribir su propio código cuando sea necesario.

Inspeccione la página

Desplace el cursor sobre la página Precio para comprender qué se debe hacer. Lea el texto relacionado con HTML y Python, y a partir de los resultados, verá los precios dentro de las etiquetas HTML.

Estas etiquetas HTML a menudo vienen en forma de

→ →. 

Exportar a Excel CSV

Una vez que haya extraído los datos, el siguiente paso es guardarlos fuera de línea. El formato separado por comas de Excel es la mejor opción en este sentido, y puede abrirlo fácilmente en su hoja de Excel. Pero primero, tendría que importar los módulos Python CSV y los módulos de fecha y hora para registrar sus datos correctamente. El siguiente código se puede insertar en la sección de importación:

 import csv 

 desde la importación de fecha y hora hasta la fecha 

Técnicas avanzadas de raspado

        

BeautifulSoup es una de las herramientas más simples y completas para raspar web. Sin embargo, si necesita cosechar grandes volúmenes de datos, considere algunas otras alternativas:

  • 1. Scrapy es un poderoso y sorprendente marco de raspado de python. 
  • 2. También puede integrar el código con una API pública. La eficiencia de tus datos será importante. Por ejemplo, puedes probar Facebook Graph API, que ayuda a ocultar los datos y no aparece en las páginas de Facebook.
  • 3. Además, puede utilizar los programas back-end como MySQL y almacenar los datos en gran cantidad con gran precisión.
  • 4. DRY significa "No repetir" y puede intentar automatizar las tareas habituales utilizando esta técnica.
View more on these topics

Post a comment

Post Your Comment

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport