Güzel Çorba, ayrıştırma ağacı oluşturarak web sayfalarını sıyırmak için yaygın olarak kullanılan bir Python kütüphanesi XML ve HTML belgelerinden. Web sızdırma, web sitelerinden ve sayfalardan veri ayıklama tekniği, veri analizi ve yönetim alanlarında yaygın olarak kullanılmaktadır. Çoğu durumda, Python programlama dili veri biliminde bir ön şarttır.
Python 3'te kazıma araçları ve veri yönetimi projenize uygulayabileceğiniz modüller bulunmaktadır. Şu anda Güzel Çorba 4 olarak çalışan bu modül hem Python 3 hem de Python 2.7 ile uyumludur. Güzel Çorba 4 modülü, kapalı olmayan etiket çorbası için ayrıştırma ağacı oluşturma yeteneğine de sahiptir. Bu yazıda, sayfayı nasıl kazacağınızı öğreneceksiniz ve kazınmış verileri bir CSV dosyasına yazacaksınız.
Başlarken
Başlamak için PC'nize bir sunucu veya yerel tabanlı Python kodlama ortamı kurun. Makinenize ayrıca Güzel Çorba ve İstekler modülünü yüklemelisiniz. Her iki modülle çalışma bilgisi de gerekli bir ön şarttır. HTML etiketleme ve yapıyla ilgili bilgi sahibi olmak da ek bir avantaj.
Verilerinizi anlama
Bu bağlamda, Güzel Çorba'nın nasıl kullanılacağını anlamanıza yardımcı olması için Ulusal Sanat Galerisi'nden gelen gerçek veriler kullanılacaktır. National Gallery of Art, 120.000 parça yaklaşık 13.000 sanatçı tarafından yapılır. Sanat, Washington D.C, Amerika Birleşik Devletleri merkezli.
Güzel Çorba ile Web veri çıkarımı o kadar da karmaşık değildir. Örneğin, Z harfine odaklanırsanız, listedeki ilk ad işaretlenip not alın. Bu durumda, ilk adı Zabaglia, Niccola. Tutarlılık sağlamak için, o sayfadaki sayfa sayısını ve son sanatçının adını belirtin.
İstekler ve Güzel Çorba kütüphanesi nasıl alınır
Kitaplıkları içeri aktarmak için Python 3 programlama ortamınızı etkinleştirin Programlama ortamınızla aynı dizinde olduğunuzdan emin olun.
Yeni bir dosya oluşturun ve Güzel Çorba ve İstekler kitaplıklarını içe aktarmaya başlayın İstek kitaplığı, HTTP'yi okunabilir formatlarda Python programlarınız içinde kullanmanıza izin verir.Ancak Güzel Çorba, sayfaları hızla kazıma yapmak için çalışır. bs4, Güzel Çorba almak için.
Bir web sayfasının toplanması ve ayrıştırılması
İsteklerin kullanılması, ilk sayfanızın URL'sini topluyor. İlk sayfanın URL'si değişken sayfaya atanacak. BeautifulSoup nesnesi isteklerden ve nesneyi Python ayrıştırıcısından ayrıştırın.
Bu öğreticide amaç, bağlantıları ve sanatçı adlarını toplamaktır.Örneğin, sanatçıların tarihlerini ve uyruklarını toplayabilirsiniz Windows kullanıcıları için, sanatçının adını sağ tıklayın.Bu durumda Zabaglia'yı kullanın, Niccola. Mac OS kullanıcıları için "CTRL" düğmesine dokunun ve adını tıklayın. Web geliştiricilerin araçlarına erişmek için ekranınızda açılan "Inspect Element" menüsünü tıklayın. Güzel Çorba'nın hızlıca bir ağacın ayrıştırılabilmesi için sanatçının ismini yazın.
Alt bağlantıları kaldırma
Web sayfanızdaki alt bağlantıları kaldırmak için öğeyi sağ tıklatarak DOM'ı inceleyin. Bağlantıların bir HTML tablosunun altında olduğunu tespit edeceksiniz. Güzel Çorba kullanarak, ayrıştırma ağacından etiketleri kaldırmak için "ayrıştırma yöntemi" ni kullanın.
Etiketten içerik nasıl çıkartılır
Tüm bağlantı etiketini basmanız gerekmez, bir etikette bulunan malzemeleri çıkarmak için Güzel Çorba kullanın. Ayrıca Beautiful Soup 4'ü kullanarak sanatçılarla ilişkili URL'leri de yakalayabilirsiniz.
Kazıyınan verileri bir CSV dosyasına yakalamak
CSV dosyası, yapılandırılmış veriyi düz metin, çoğunlukla veri tabloları için kullanılan bir format. Düz metin dosyalarını Python ile işleme konusunda bilgi önerilir.
Web veri çıkarma, sayfaları sıyırmak ve bilgi almak için kullanılır. Çıkarılan bilgileri web sitelerinden düşünceli olun. Bazı dinamik web siteleri, web sitelerinde veri toplama işlemlerini kısıtlar. Güzel Çorba ve Python 3 ile sayfayı sıyırmak bu kadar basit.
Post a comment