Güzel Çorba, XML ve HTML belgelerinin ayrıştırılması için kullanılan Python paketidir. Web sayfaları için ayrıştırma ağaçları oluşturur ve Python 2 ve Python 3 için kullanılabilir. Düzgün kazınamayan bir web siteniz varsa, farklı BeautifulSoup çerçeveleri kullanabilirsiniz. Çıkarılan veriler, kısa, kuyruklu ve uzun kuyruklu çok sayıda anahtar içeren kapsamlı, okunabilir ve ölçeklenebilir olacaktır.
BeautifulSoup gibi, lxml bir html.parser modülüyle rahatça entegre edilebilir. Bu programlama dilinin en belirgin özelliklerinden biri, gerçek zamanlı veriler için spam koruması ve daha iyi sonuçlar sağlamasıdır. Hem lxml hem de BeautifulSoup öğrenmesi kolaydır ve üç temel işlev sunar: biçimlendirme, ayrıştırma ve ağaç dönüşümü. Bu yazıda, farklı web sayfalarının metnini kapmak için BeautifulSoup'u nasıl kullanacağınızı öğreteceğiz.
Kurulum
İlk adım, pip kullanarak BeautifulSoup 4'ü kurmaktır. Bu paket hem Python 2 hem de 3'te çalışır. BeautifulSoup, Python 2 kodu olarak paketlenmiştir; ve Python 3'le kullandığımızda, otomatik olarak en son sürüme güncellenir, ancak tam Python paketini yüklemedikçe kod güncelleştirilmez.
Ayrıştırıcı Kurulumu
html5lib, lxml ve html.parser gibi uygun bir ayrıştırıcıyı yükleyebilirsiniz. If you can Eğer html5lib, lxml, html.parser gibi uygun bir çözümleyici yükleyebilirsiniz. pip yüklediyseniz, bs4'ten içe aktarmanız gerekir. Kaynağı indirirseniz, bir Python kitaplığından içe aktarmanız gerekir. Lütfen, lxml ayrıştırıcısının iki farklı sürümde olduğunu unutmayın: XML ayrıştırıcı ve HTML ayrıştırıcı. HTML çözümleyici, Python'un eski sürümleri ile düzgün çalışmaz; bu nedenle, HTML ayrıştırıcısı yanıt vermeyi durdurursa veya düzgün yüklenmiyorsa, XML ayrıştırıcısını yükleyebilirsiniz.Lxml ayrıştırıcısı nispeten hızlı ve güvenilirdir ve doğru sonuçlar verir.
Yorumlara erişmek için BeautifulSoup'u kullanın
BeautifulSoup ile istediğiniz web sayfasının yorumlarını edinebilirsiniz. Yorumlar genellikle Yorum Nesnesi bölümünde saklanır ve bir web sayfası içeriğini doğru bir şekilde temsil etmek için kullanılır.
Başlıkları, Bağlantıları ve Başlıkları
Sayfa başlıklarını, bağlantıları ve başlıkları kolayca B eautifulSoup. Belli bir kodla sayfanın biçimlendirmesini elde etmeniz yeterlidir. İşaretleme elde edildikten sonra, başlıkları ve alt başlıklar arasında da verileri kazıyabilirsiniz.
DOM'da gezinmek
Güzel ağaçlar kullanan DOM ağaçlarıyla gezinebiliriz. Etiketler zincirleme SEO amaçları için veri ayıklamak yardımcı olacaktır.
Sonuç:
Yukarıda açıklanan adımlar tamamlandıktan sonra, web sayfası metnini kolaylıkla alabileceksiniz. Tüm süreç beş dakikadan fazla sürmeyecek ve kaliteli sonuçlar vaat ediyor. HTML belgelerinden veya PDF dosyalarından veri çıkarmak istiyorsanız, ne BeautifulSoup ne de Python size yardımcı olacaktır. Bu gibi durumlarda, bir HTML kazıyıcı denemek ve web belgelerinizi kolayca analiz etmelisiniz. SEO amaçlı veri kazımak için BeautifulSoup özelliklerinden tam olarak yararlanmalısınız. Lxml'nin HTML ayrıştırıcılarını tercih etsek bile, BeautifulSoup'ın destek sisteminden faydalanabilir ve birkaç dakika içinde kaliteli sonuçlar elde edebiliriz.
Post a comment