Il raschiamento del web può essere un'ottima fonte di dati critici che viene utilizzata nella decisione processo in qualsiasi attività commerciale. Pertanto, è al centro dell'analisi dei dati in quanto è l'unico modo sicuro per raccogliere dati affidabili. Tuttavia, poiché la quantità di contenuti online disponibili da rottamare è sempre in aumento, potrebbe risultare quasi impossibile eliminare manualmente ciascuna pagina. Ciò richiede l'automazione.
Mentre ci sono molti strumenti là fuori che sono fatti su misura per diversi progetti automatici di raschiatura, la maggior parte di essi sono premium e ti costeranno una fortuna. È qui che entra in gioco Puppeteer + Chrome + Node.JS. Questo tutorial ti guiderà attraverso il processo assicurandoti di poter scansionare facilmente i siti web.

Come funziona la configurazione?
È importante notare che avere un po 'di conoscenza su JavaScript sarà utile in questo progetto. Per i principianti, dovrai ottenere i 3 programmi precedenti separatamente. Puppeteer è una libreria di nodi che può essere utilizzata per controllare Chrome senza testa. Chrome senza testa si riferisce al processo di esecuzione di Chrome senza GUI, o in altre parole senza eseguire Chrome. Dovrai installare Node 8+ dal suo sito web ufficiale..
Dopo aver installato i programmi, è ora di creare un nuovo progetto per iniziare a progettare il codice. Idealmente, è JavaScript che raschia in quanto si utilizzerà il codice per automatizzare il processo di raschiatura. Per maggiori informazioni su Puppeteer fai riferimento alla sua documentazione, ci sono centinaia di esempi disponibili con cui puoi giocare.
Come automatizzare JavaScript scraping
Quando crei un nuovo progetto, procedi alla creazione di un file (.js). Nella prima riga, dovrai richiamare la dipendenza da Puppeteer che hai installato in precedenza. Questo è seguito da una funzione primaria "getPic ()" che manterrà tutto il codice di automazione. La terza riga invocherà la funzione "getPic ()" in modo da eseguirla. Considerando che la funzione getPic () è una funzione "asincrona", possiamo quindi utilizzare l'espressione attesa che interrompe la funzione in attesa che la "promessa" si risolva prima di passare alla riga successiva del codice. Ciò funzionerà come la funzione di automazione primaria.
Come chiamare chrome senza testa
La prossima riga di codice: "const browser = attende puppeteer.Launch ();" lancia automaticamente puppeteer ed esegue un'istanza di chrome impostandola sulla nostra variabile "browser" appena creata. Procedere con la creazione di una pagina che verrà poi utilizzata per navigare verso l'URL che si desidera eliminare.

Come scartare i dati
Puppeteer API ti consente di giocare con diversi input del sito web come il clocking, il form filling e la lettura dei dati. È possibile fare riferimento ad esso per ottenere una vista ravvicinata su come è possibile automatizzare tali processi. La funzione "scrape ()" verrà utilizzata per inserire il nostro codice di scraping. Procedere all'esecuzione della funzione nodo scrape.js per avviare il processo di scraping. L'intera configurazione dovrebbe quindi iniziare automaticamente a trasmettere il contenuto richiesto. È importante ricordare di passare attraverso il codice e controllare che tutto funzioni secondo il progetto per evitare di incorrere in errori lungo il percorso.
Post a comment