Stop guessing what′s working and start seeing it for yourself.
Scrapy, farklı web sitesinden bilgi ayıklamak için açık kaynak ve bir çerçevedir. API kullanır ve Python ile yazılmıştır. Scrapy, şu anda Scrapinghub Ltd adlı bir web kazıyıcı firması tarafından tutulmaktadır.
Scrapy kullanarak web tarayıcısının nasıl yazıldığına, Craigslist'in ayrıştırılmasına ve depolanmasına ilişkin basit bir eğitimdir. CSV formatında bilgi. Bu dersin beş ana basamağı aşağıda belirtilmiştir:
1. Yeni bir Scrapy projesi oluşturun
2. Bir web sitesini taramak ve veri toplamak için bir örümcek yazın
3. Kazınmış verileri komut satırını kullanarak dışa aktarın
4. Örümcekleri, bağlantıları izleyecek şekilde değiştirin
5. Örümcek bağımsız değişkenlerini kullanın
İlk adım bir proje oluşturmaktır. Scrapy'yi indirip kurmanız gerekir. Arama çubuğunda, verileri depolamak istediğiniz dizin adını girmeniz gerekir. Scrapy bilgi toplamak için farklı örümcekler kullanır ve bu örümcekler dizinler oluşturmak için ilk istekte bulunur. Bir örümceğin çalışması için, dizinlerin listesini ziyaret etmeniz ve orada belirli bir kod yerleştirmeniz gerekir. Mevcut dizindeki dosyalara göz kulak olun ve iki yeni dosyaya dikkat edin: quotes-a.html ve quotes-b.html.
Bir örümcek yazmak ve verileri ayıklamak için en iyi yol, Scrapy kabuğunda farklı seçiciler oluşturmaktır. URL'leri her zaman tırnak işaretleri içine almalısınız; Aksi takdirde, Scrapy bu URL'lerin adlarını veya adlarını anında değiştirecektir. Örümceği uygun şekilde yazmak için bir URL'nin çevresinde çift tırnak işaretleri kullanmalısınız. .extract_first işlevini kullanmalı ve dizin hatasından kaçınmalısınız.
Kazınmış verileri, komut satırı kullanarak dışa aktarmak önemlidir. Onu dışa aktarmazsanız, doğru sonuçlar elde edemezsiniz. Örümcek faydalı bilgiler içeren farklı dizinler oluşturacaktır. Bu bilgiyi daha iyi bir şekilde vermek için Verimli Python anahtar kelimeler kullanmalısınız. Verileri JSON dosyalarına içe aktarmak mümkündür. JSON dosyaları programcılar için yararlıdır. JQ gibi araçlar kazınmış verilerin herhangi bir problem yaşamadan ihraç edilmesine yardımcı olur.
Küçük projelerde, bağlantıları uygun bir şekilde izlemek için örümcekleri değiştirebilirsiniz. Ancak, büyük boyutlu veri kazıma projeleri için gerekli değildir. Örümcek değiştirdiğinizde, Öğe Boru Hatları için yer tutucu bir dosya oluşturulur. Bu dosya öğretici / pipelines.py bölümünde bulunabilir. Scrapy ile sofistike örümcekler inşa edebilir ve yerlerini istediğiniz zaman değiştirebilirsiniz. Bir kerede birden çok site ayıklayabilir ve çeşitli veri çıkarma projeleri yapabilirsiniz.
Parse_author geri arama, dinamik web sitelerinden veri çıkarmak için kullanılabilen örümcek argümanıdır. Belirli bir kodla örümceklere komut satırı argümanları da sağlayabilirsiniz. Örümcek argümanları, hiçbir zaman örümcek nitelikleri haline gelir ve verilerinizin genel görünümünü değiştirir.
Bu yazıda yalnızca Scrapy'nin temelleri üzerinde durduk. Bu araç için birçok özellik ve seçenek bulunmaktadır. Spesifikasyonları hakkında daha fazla bilgi edinmek için Scrapy'yi indirmeniz ve etkinleştirmeniz yeterlidir.
Categories
8 7 81 89 83 88 9 89 0 registered users | 8 1 86 83 85 81 86 82 3 4 5 analyzed websites |
Post a comment