Stop guessing what′s working and start seeing it for yourself.
Giriş yapın veya kayıt olun
Q&A
Question Center →

Semalt - Web Sayfalarını Nasıl Kazıyabilirim?

Güzel Çorba, ayrıştırma ağacı oluşturarak web sayfalarını sıyırmak için yaygın olarak kullanılan bir Python kütüphanesi XML ve HTML belgelerinden. Web sızdırma, web sitelerinden ve sayfalardan veri ayıklama tekniği, veri analizi ve yönetim alanlarında yaygın olarak kullanılmaktadır. Çoğu durumda, Python programlama dili veri biliminde bir ön şarttır.

Python 3'te  kazıma araçları  ve veri yönetimi projenize uygulayabileceğiniz modüller bulunmaktadır. Şu anda Güzel Çorba 4 olarak çalışan bu modül hem Python 3 hem de Python 2.7 ile uyumludur. Güzel Çorba 4 modülü, kapalı olmayan etiket çorbası için ayrıştırma ağacı oluşturma yeteneğine de sahiptir. Bu yazıda, sayfayı nasıl kazacağınızı öğreneceksiniz ve kazınmış verileri bir CSV dosyasına yazacaksınız.

Başlarken

Başlamak için PC'nize bir sunucu veya yerel tabanlı Python kodlama ortamı kurun. Makinenize ayrıca Güzel Çorba ve İstekler modülünü yüklemelisiniz. Her iki modülle çalışma bilgisi de gerekli bir ön şarttır. HTML etiketleme ve yapıyla ilgili bilgi sahibi olmak da ek bir avantaj.

Verilerinizi anlama

Bu bağlamda, Güzel Çorba'nın nasıl kullanılacağını anlamanıza yardımcı olması için Ulusal Sanat Galerisi'nden gelen gerçek veriler kullanılacaktır. National Gallery of Art, 120.000 parça yaklaşık 13.000 sanatçı tarafından yapılır. Sanat, Washington D.C, Amerika Birleşik Devletleri merkezli.

Güzel Çorba ile Web veri çıkarımı o kadar da karmaşık değildir. Örneğin, Z harfine odaklanırsanız, listedeki ilk ad işaretlenip not alın. Bu durumda, ilk adı Zabaglia, Niccola. Tutarlılık sağlamak için, o sayfadaki sayfa sayısını ve son sanatçının adını belirtin.

İstekler ve Güzel Çorba kütüphanesi nasıl alınır

Kitaplıkları içeri aktarmak için Python 3 programlama ortamınızı etkinleştirin Programlama ortamınızla aynı dizinde olduğunuzdan emin olun.

Yeni bir dosya oluşturun ve Güzel Çorba ve İstekler kitaplıklarını içe aktarmaya başlayın İstek kitaplığı, HTTP'yi okunabilir formatlarda Python programlarınız içinde kullanmanıza izin verir.Ancak Güzel Çorba, sayfaları hızla kazıma yapmak için çalışır. bs4, Güzel Çorba almak için.

Bir web sayfasının toplanması ve ayrıştırılması

İsteklerin kullanılması, ilk sayfanızın URL'sini topluyor. İlk sayfanın URL'si değişken sayfaya atanacak. BeautifulSoup nesnesi isteklerden ve nesneyi Python ayrıştırıcısından ayrıştırın.

Bu öğreticide amaç, bağlantıları ve sanatçı adlarını toplamaktır.Örneğin, sanatçıların tarihlerini ve uyruklarını toplayabilirsiniz Windows kullanıcıları için, sanatçının adını sağ tıklayın.Bu durumda Zabaglia'yı kullanın, Niccola. Mac OS kullanıcıları için "CTRL" düğmesine dokunun ve adını tıklayın. Web geliştiricilerin araçlarına erişmek için ekranınızda açılan "Inspect Element" menüsünü tıklayın. Güzel Çorba'nın hızlıca bir ağacın ayrıştırılabilmesi için sanatçının ismini yazın.

Alt bağlantıları kaldırma

Web sayfanızdaki alt bağlantıları kaldırmak için öğeyi sağ tıklatarak DOM'ı inceleyin. Bağlantıların bir HTML tablosunun altında olduğunu tespit edeceksiniz. Güzel Çorba kullanarak, ayrıştırma ağacından etiketleri kaldırmak için "ayrıştırma yöntemi" ni kullanın.

Etiketten içerik nasıl çıkartılır

Tüm bağlantı etiketini basmanız gerekmez, bir etikette bulunan malzemeleri çıkarmak için Güzel Çorba kullanın. Ayrıca Beautiful Soup 4'ü kullanarak sanatçılarla ilişkili URL'leri de yakalayabilirsiniz.

Kazıyınan verileri bir CSV dosyasına yakalamak

CSV dosyası, yapılandırılmış veriyi düz metin, çoğunlukla veri tabloları için kullanılan bir format. Düz metin dosyalarını Python ile işleme konusunda bilgi önerilir.

Web veri çıkarma, sayfaları sıyırmak ve bilgi almak için kullanılır. Çıkarılan bilgileri web sitelerinden düşünceli olun. Bazı dinamik web siteleri, web sitelerinde veri toplama işlemlerini kısıtlar. Güzel Çorba ve Python 3 ile sayfayı sıyırmak bu kadar basit.

Post a comment

Post Your Comment

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport