URLor è un nuovo ma efficace strumento di raschiamento e di estrazione dei dati. Per utilizzare URLitor, devi solo aggiungere un elenco di tutti gli URL dei quali desideri racimolare online nel modello fornito. Quindi è necessario specificare l'elemento HTML che si desidera estrarre dalle pagine Web e fare clic sul pulsante di invio. È così facile. Con questo strumento, non è più necessario effettuare una copia o incolla dal browser.
xPath è un linguaggio utilizzato per cercare informazioni nei file XML. Usa determinate espressioni per selezionare i set di nodi oi nodi nei file XML. Le espressioni che XPath comprende sono abbastanza simili a quelle utilizzate con normali file o documenti di computer.
Sebbene XPath sia utilizzato con diversi linguaggi di programmazione, questo strumento è stato creato per utenti che non hanno conoscenze di programmazione. Quindi, non è necessario essere un programmatore per farne uso. Con questo strumento, puoi estrarre dati da diverse pagine HTML e XML.
Per semplicità d'uso, diverse espressioni XPath utilizzate di frequente sono state predefinite in un menu a discesa in modo che gli utenti debbano solo selezionarne uno a seconda del loro obiettivo. di XPath hanno la libertà di usare le loro espressioni personalizzate ogni volta che lo desiderano.
Lo strumento è stato progettato con la capacità di 100 URL in una singola sessione di scraping e richiede un massimo di 10 espressioni contemporaneamente. parole, può raschiare dati da un massimo di 100 URL alla volta.
Alcune importanti espressioni personalizzate XPath che possono essere modificate o aggiunte sono state delineate qui sotto:
1. // div [2] - Questa espressione seleziona il secondo div in ordine gerarchico;
2. // link [@ rel = 'canonical'] / @href - Questa espressione seleziona la posizione (rif) del tag che viene utilizzato per impostare l'attributo rel uguale a canonical;
3. / html / head / meta [@ name = 'descrizione'] / @ content : questa espressione viene utilizzata per selezionare il contenuto;
4. // * [@ class = 'class-name'] - Puoi usare questa espressione per selezionare tutti gli elementi con 'class name' come Classe CSS;
5. // h2 | // title - Questa espressione può essere utilizzata per selezionare sia il primo H2 che il titolo della pagina;
6. //*[name()='h1' or name()='title'] - Questa espressione funziona esattamente come sopra. Tuttavia, l'espressione sopra presentata è migliore poiché è più breve;
7. // * [contains (@class, 'thumb')] - Questa espressione seleziona ogni elemento che ha una classe CSS e contiene anche 'thumb' per l'estrazione;
8. ///parent::*[text()='Welcome'] - Questa espressione seleziona il genitore di qualsiasi elemento che ha il testo 'Welcome';
Questo strumento è una versione Beta e potrebbe ancora funzionare con alcuni errori. Tuttavia, è ancora un ottimo strumento per gli utenti con poca o nessuna conoscenza di programmazione in quanto tutte le espressioni utilizzate di frequente sono state predefinite in un menu come menzionato in precedenza.
Post a comment