Una gran cantidad de información presentada en la red se considera "no estructurada" porque no está organizado correctamente Los sitios web HTML son diferentes en la forma en que contienen documentos organizados, y el texto presentado en los documentos está estructurado dentro del código HTML subyacente.
Puede raspar un contenido de página web siguiendo los pasos que se describen a continuación:
Extracción de texto solamente
Después de abrir una página web que contiene el texto que desea, haga clic derecho y seleccione la opción "Guardar página como" o "Guardar como". Escriba un nombre para el archivo en el campo "Nombre de archivo" y en el menú desplegable "Guardar como tipo", elija "Página web, solo HTML". Haga clic en el botón "Guardar" y espere unos segundos.
Todo el texto en esa página se extrae y se guarda como un archivo HTML. Las opciones originales de formato de página permanecen intactas, y puede editar el contenido en dichos editores de texto como Bloc de notas.
Extracción de una página web completa
Seleccione la opción "Guardar como" o "Guardar página como" en el menú "Archivo". A continuación, haga clic en "Página web, completa" en el menú desplegable "Guardar como tipo". Después de hacer clic en "Guardar", el texto y las imágenes se extraerán de la página y se guardarán donde usted desee. El texto se coloca en un archivo HTML mientras las imágenes se almacenan en una carpeta.
2. Extraer HTML de un sitio web utilizando la codificación
Puede trabajar directamente con archivos HTML utilizando herramientas especiales. Además, puede crear un código para eliminar todas las etiquetas HTML y conservar el texto contenido en archivos HTML utilizando XPath o expresiones regulares. Algunos de los lenguajes de programación más populares para esta tarea incluyen Python, Java, JS, Go, PHP y NodeJs.
3. Uso de herramientas de extracción de datos web
Si solo desea extraer archivos HTML de un sitio web sin escribir una sola línea de código o evita la tortura del método copiar y pegar, use herramientas de raspado web. De hecho, hay muchas herramientas útiles que pueden recopilar la información necesaria de un sitio web y luego convertirla al formato estructurado. Solo prueba algunas herramientas de raspado, y definitivamente encontrarás la que sea más adecuada para tus necesidades de desguace.
Post a comment