Stop guessing what′s working and start seeing it for yourself.
Login or register
Q&A
Question Center →

Semalt Elaborates On URLitor - Strumento per estrarre e estrarre dati dal Web molto interessante

URLor è un nuovo ma efficace strumento di raschiamento e di estrazione dei dati. Per utilizzare URLitor, devi solo aggiungere un elenco di tutti gli URL dei quali desideri racimolare online nel modello fornito. Quindi è necessario specificare l'elemento HTML che si desidera estrarre dalle pagine Web e fare clic sul pulsante di invio. È così facile. Con questo strumento, non è più necessario effettuare una copia o incolla dal browser.

xPath è un linguaggio utilizzato per cercare informazioni nei file XML. Usa determinate espressioni per selezionare i set di nodi oi nodi nei file XML. Le espressioni che XPath comprende sono abbastanza simili a quelle utilizzate con normali file o documenti di computer.

Sebbene XPath sia utilizzato con diversi linguaggi di programmazione, questo strumento è stato creato per utenti che non hanno conoscenze di programmazione. Quindi, non è necessario essere un programmatore per farne uso. Con questo strumento, puoi estrarre dati da diverse pagine HTML e XML.

Per semplicità d'uso, diverse espressioni XPath utilizzate di frequente sono state predefinite in un menu a discesa in modo che gli utenti debbano solo selezionarne uno a seconda del loro obiettivo. di XPath hanno la libertà di usare le loro espressioni personalizzate ogni volta che lo desiderano.

Lo strumento è stato progettato con la capacità di 100 URL in una singola sessione di scraping e richiede un massimo di 10 espressioni contemporaneamente. parole, può raschiare dati da un massimo di 100 URL alla volta.

Alcune importanti espressioni personalizzate XPath che possono essere modificate o aggiunte sono state delineate qui sotto:

1. // div [2]  - Questa espressione seleziona il secondo div in ordine gerarchico;

 2. // link [@ rel = 'canonical'] / @href  - Questa espressione seleziona la posizione (rif) del tag che viene utilizzato per impostare l'attributo rel uguale a canonical;

 3. / html / head / meta [@ name = 'descrizione'] / @ content : questa espressione viene utilizzata per selezionare il contenuto;

 4. // * [@ class = 'class-name']  - Puoi usare questa espressione per selezionare tutti gli elementi con 'class name' come Classe CSS;

 5. // h2 | // title  - Questa espressione può essere utilizzata per selezionare sia il primo H2 che il titolo della pagina;

 6. //*[name()='h1' or name()='title'] - Questa espressione funziona esattamente come sopra. Tuttavia, l'espressione sopra presentata è migliore poiché è più breve;

 7. // * [contains (@class, 'thumb')]  - Questa espressione seleziona ogni elemento che ha una classe CSS e contiene anche 'thumb' per l'estrazione;

 8. ///parent::*[text()='Welcome'] - Questa espressione seleziona il genitore di qualsiasi elemento che ha il testo 'Welcome';

Questo strumento è una versione Beta e potrebbe ancora funzionare con alcuni errori. Tuttavia, è ancora un ottimo strumento per gli utenti con poca o nessuna conoscenza di programmazione in quanto tutte le espressioni utilizzate di frequente sono state predefinite in un menu come menzionato in precedenza.

Post a comment

Post Your Comment
© 2013 - %s, Semalt.com. All rights reserved