Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Semalt - Cómo raspar páginas web?

Beautiful Soup es una biblioteca de Python ampliamente utilizada para raspar páginas web mediante la creación de un árbol de análisis sintáctico de documentos XML y HTML. El raspado web, una técnica de extracción de datos de sitios web y páginas, se utiliza ampliamente en campos de gestión y análisis de datos. En la mayoría de los casos, el lenguaje de programación de Python es un requisito previo en la ciencia de datos.

Python 3 tiene herramientas de raspado y módulos que puede aplicar a su proyecto de gestión de datos. Actualmente se ejecuta como Beautiful Soup 4, este módulo es compatible tanto con Python 3 como con Python 2.7. El módulo Beautiful Soup 4 también es capaz de crear un árbol de análisis sintáctico para sopa de etiqueta no cerrada. En este tutorial, aprenderá cómo raspar la página y escribir los datos raspados en un archivo CSV.

Primeros pasos

Para comenzar, configure un servidor o entorno de codificación Python local en su PC. También debe instalar el módulo Beautiful Soup and Requests en su máquina. El conocimiento de trabajar con ambos módulos también es un requisito previo necesario. La familiaridad con el etiquetado HTML y la estructura también es una ventaja adicional.

Entender sus datos

En este contexto, se usarán datos reales de la National Gallery of Art para ayudarlo a entender cómo usar Beautiful Soup 4. National Gallery of Art comprende 120,000 piezas que son realizados por un aproximado de 13,000 artistas. The Art tiene su sede en Washington D.C, Estados Unidos.

La extracción de datos web con Beautiful Soup no es tan complicada. Por ejemplo, si se enfoca en la letra Z, marque y anote el primer nombre en la lista. En este caso, el primer nombre es Zabaglia, Niccola. Para coherencia, indique el número de páginas y el nombre del último artista en esa página.

Cómo importar la biblioteca Requests and Beautiful Soup

Para importar bibliotecas, active su entorno de programación Python 3. Compruebe que esté en el mismo directorio con su entorno de programación. Ejecute el siguiente comando para comenzar. My_env / bin / activate.

Cree un nuevo archivo y comience a importar las bibliotecas Beautiful Soup and Requests. La biblioteca de solicitudes le permitirá usar HTTP dentro de sus programas de Python en formatos legibles. Beautiful Soup, por otro lado, trabaja para raspar páginas rápidamente. bs4 para importar Beautiful Soup.

Cómo recolectar y analizar una página web

Usando Requests Recopilar la URL de su primera página. La URL de la primera página se asignará a la página de la variable. Objeto BeautifulSoup de Solicitudes y analizar el objeto del analizador de Python.

En este tutorial, el objetivo es recopilar enlaces y los nombres de los artistas. Por ejemplo, puede recopilar las fechas y nacionalidades de los artistas. Haga clic derecho sobre el nombre del artista. En este caso, use Zabaglia, Niccola. Para usuarios de Mac OS, toque "CTRL" y haga clic en el nombre. Haga clic en el menú "Inspeccionar elemento" que emerge en su pantalla para acceder a las herramientas de los desarrolladores web. Imprima los nombres del artista para hacer que Beautiful Soup analice un árbol rápidamente.

Extracción de los enlaces de la parte inferior

Para eliminar los enlaces de la parte inferior de su página web, inspeccione el DOM haciendo clic con el botón derecho en el elemento. Identificará que los enlaces están debajo de una tabla HTML. Usando Beautiful Soup, use el "método de descomposición" para eliminar las etiquetas del árbol de análisis sintáctico.

Cómo extraer contenido de una etiqueta

No tiene que imprimir toda la etiqueta de enlace, use Beautiful Soup para eliminar material de una etiqueta. También puede capturar URLs asociadas con los artistas usando Beautiful Soup 4.

Capturar datos raspados en un archivo CSV

El archivo CSV le permitirá almacenar datos estructurados en un texto sin formato, un formato que se usa principalmente para hojas de datos. Se recomienda conocer los archivos de texto plano en Python.

La extracción de datos web se utiliza para raspar páginas y obtener información. Sea considerado con los sitios web desde los que extrae información. Algunos sitios web dinámicos restringen la extracción de datos web en sus sitios. Para raspar página con Beautiful Soup y Python 3 es así de simple.

View more on these topics

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport