Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Semalt: Web Scraping con Python

Has pasado por uno de esos momentos terroríficos cuando no tienes Wi-Fi. Si es así, entonces se habrá dado cuenta de cuánto de lo que hace en su computadora depende de la red. Por puro hábito, se encontrará revisando sus correos electrónicos, mirando las fotos de Instagram de su amigo y leyendo sus tweets.

Dado que tanto trabajo de computadora involucra los procesos web, sería muy conveniente si sus programas pudieran conectarse también. Este es el caso para raspado web. Implica usar un programa para descargar y procesar contenido de la web. Por ejemplo, Google utiliza una variedad de programas de raspado para indexar páginas web para su motor de búsqueda.

Hay muchas maneras en que puede raspar datos de Internet. Muchos de estos métodos requieren el dominio de una variedad de lenguajes de programación como Python y R. Por ejemplo, con Python, puede utilizar una cantidad de módulos como Solicitudes, Sopa hermosa, Navegador web y Selenio.

El módulo 'Solicitudes' le permite descargar archivos fácilmente desde la Web sin tener que preocuparse por problemas difíciles como problemas de conexión, errores de red y compresión de datos. No necesariamente viene con Python, por lo que tendrá que instalarlo primero.

El módulo fue desarrollado porque el módulo 'urllib2' de Python tiene muchas complicaciones por lo que es difícil de usar. En realidad es bastante fácil de instalar. Todo lo que tienes que hacer es ejecutar solicitudes de instalación de pip desde la línea de comando. Luego debe hacer una prueba simple para asegurarse de que el módulo se haya instalado correctamente. Para hacerlo, puede escribir '>>> solicitudes de importación' en el shell interactivo. Si no aparecen mensajes de error, entonces la instalación fue exitosa.

Para descargar una página, debe iniciar la función 'requests.get ()'. La función toma una cadena de URL para descargar y luego devuelve un objeto de "respuesta". Esto contiene la respuesta que el servidor web devolvió para su solicitud. Si su solicitud tiene éxito, la página web descargada se guarda como una cadena en la variable de texto de los objetos de respuesta.

El objeto de respuesta generalmente tiene un atributo de código de estado que puede usar para averiguar si la descarga fue exitosa. Del mismo modo, puede llamar al método 'raise_for_status ()' en un objeto de respuesta. Esto genera una excepción si ocurrieron errores al descargar el archivo. Es una excelente manera de asegurarse de que un programa se detenga en caso de una descarga incorrecta.

Desde aquí, puede guardar su archivo web descargado en su disco duro utilizando las funciones estándar, 'abrir ()' y 'escribir ()'. Sin embargo, para conservar la codificación Unicode del texto, deberá sustituir los datos de texto con datos binarios.

Para escribir los datos en un archivo, puede utilizar un ciclo 'for' con el método 'iter_content ()'. Este método devuelve los datos masivos en cada iteración a través del ciclo. Cada volumen está en bytes, y debe especificar cuántos bytes contendrá cada uno. Una vez que haya terminado de escribir, llame a 'close ()' para cerrar el archivo y su trabajo habrá terminado.

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport