Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Raschiatura del web con l'esperto di Semalt

Il raschiamento del web, noto anche come raccolta del nastro, è una tecnica utilizzata per estrarre i dati da siti web. Il software di raccolta Web può accedere a un Web direttamente tramite HTTP o un browser web. Mentre il processo può essere implementato manualmente da un utente software, la tecnica generalmente prevede un processo automatizzato implementato utilizzando un web crawler o un bot.

Lo scraping Web è un processo in cui i dati strutturati vengono copiati dal Web in un database locale per le revisioni e il recupero. Implica il recupero di una pagina Web e l'estrazione del suo contenuto. Il contenuto della pagina può essere analizzato, cercato, ristrutturato e i suoi dati copiati in un dispositivo di memorizzazione locale.

Le pagine Web sono generalmente costituite da linguaggi di markup basati su testo come XHTML e HTML, che contengono entrambi una grande quantità di dati utili sotto forma di testo. Tuttavia, molti di questi siti Web sono stati progettati per utenti finali umani e non per uso automatizzato. Questo è il motivo per cui è stato creato il software di scraping.

Esistono molte tecniche che possono essere impiegate per raschiare efficacemente il web. Alcuni di questi sono stati elaborati di seguito:

1. Human Copy-and-paste

Di tanto in tanto, anche il migliore web scraping tool s non può sostituire l'accuratezza e l'efficienza di una copia e incolla manuale di un essere umano. Questo è maggiormente applicabile in situazioni in cui i siti Web creano barriere per impedire l'automazione della macchina.

2. Text Pattern Matching

Questo è un approccio abbastanza semplice ma potente utilizzato per estrarre i dati dalle pagine web. Può essere basato sul comando grep di UNIX o semplicemente su una funzionalità di espressione regolare di un determinato linguaggio di programmazione, ad esempio Python o Perl.

3. Programmazione HTTP

La programmazione HTTP può essere utilizzata sia per pagine Web statiche che dinamiche. I dati vengono estratti mediante la pubblicazione di richieste HTTP su un server Web remoto mentre si utilizza la programmazione socket.

4. HTML Parsing

Molti siti web tendono ad avere una vasta collezione di pagine create dinamicamente da una fonte di struttura sottostante come un database. Qui, i dati che appartengono a una categoria simile sono codificati in pagine simili. Nell'analisi HTML, un programma generalmente rileva tale modello in una particolare fonte di informazioni, ne recupera il contenuto e lo traduce in un modulo affiliato, indicato come wrapper.

5. DOM parsing

In questa tecnica, un programma si incorpora in un browser Web completo come Mozilla Firefox o Internet Explorer per recuperare il contenuto dinamico generato dallo script sul lato client. Questi browser possono anche analizzare pagine Web in un albero DOM a seconda dei programmi che possono estrarre parti delle pagine.

6. Semantic Annotation Recognition

Le pagine che intendi rasentare possono includere markup semantici e annotazioni o metadati, che possono essere utilizzati per individuare frammenti di dati specifici. Se queste annotazioni sono incorporate nelle pagine, questa tecnica può essere vista come un caso speciale di analisi DOM. Queste annotazioni possono anche essere organizzate in un livello sintattico e quindi memorizzate e gestite separatamente dalle pagine Web. Consente agli scraper di recuperare lo schema dei dati e i comandi da questo livello prima di ritagliare le pagine.

View more on these topics

Post a comment

Post Your Comment
© 2013 - 2024, Semalt.com. All rights reserved

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport