Web kazıyıcı, aynı zamanda web hasat olarak da bilinir; Web sitelerinden veri ayıklayın. Web hasat yazılımı bir web'e doğrudan HTTP veya bir web tarayıcısı kullanarak erişebilir. Süreç, bir yazılım kullanıcısı tarafından manuel olarak uygulanabilirken, teknik genellikle bir web tarayıcısı veya bot kullanılarak gerçekleştirilen otomatik bir işlemi gerektirir.
Web kazıma, yapılandırılmış veriler web'ten incelemeler ve geri çağrı için yerel bir veritabanına kopyalanırken kullanılan bir işlemdir. Bir web sayfası getirip içeriğini çıkarmayı içerir. Sayfanın içeriği ayrıştırılabilir, aranır, yeniden yapılandırılır ve verileri bir yerel depolama aygıtına kopyalanabilir.
Web sayfaları genellikle XHTML ve HTML gibi metin tabanlı biçimlendirme dillerinden oluşturulur ve her ikisi de metin biçiminde yararlı verilerin bir çoğunu içerir. Bununla birlikte, bu web sitelerinin çoğu insan son kullanıcıları için tasarlanmış olup otomatik kullanım için tasarlanmamıştır. Kazıma yazılımının yaratılmasının nedeni budur.
Etkili web kazıma için kullanılabilecek birçok teknik var. Bunlardan bazıları aşağıda detaylandırılmıştır:
1. İnsan kopyalama ve yapıştırma
Zaman zaman en iyi web kazıma aleti bile bir insan manuel kopyası ve yapıştırmasının doğruluğu ve etkinliği. Bu, web sitelerinin makine otomasyonunu önleme engelleri oluşturduğu durumlarda çoğunlukla geçerlidir.
2. Metin Örüntü Eşleştirme
Bu web sayfalarından veri ayıklamak için kullanılan oldukça basit ama güçlü bir yaklaşımdır. UNIX grep komutu veya belirli bir programlama dili olan sadece bir düzenli ifade tesisi, örneğin Python veya Perl'e dayanıyor olabilir.
3. HTTP Programlama
HTTP Programlama, statik ve dinamik web sayfaları için kullanılabilir. Veri, soket programlamasını kullanırken uzak bir web sunucusuna HTTP istekleri göndererek çıkarılır.
4. HTML Ayrıştırma
Birçok web sitesi, bir veritabanı gibi altta yatan bir yapı kaynağından dinamik olarak oluşturulmuş kapsamlı bir sayfa koleksiyonuna sahip olma eğilimindedir. Burada, benzer bir kategoriye ait veriler benzer sayfalara kodlanır. HTML ayrıştırmada, bir program genellikle belirli bir bilgi kaynağında böyle bir şablon algılar, içeriğini alır ve ardından bir sarmalayıcı olarak adlandırılan bağlı bir forma tercüme eder.
5. DOM ayrıştırma
Bu teknikte, bir program, istemci tarafı komut dosyası tarafından üretilen dinamik içeriği almak için Mozilla Firefox veya Internet Explorer gibi tam teşekküllü bir web tarayıcısına yerleştirilir. Bu tarayıcılar ayrıca sayfaların bölümlerini ayıklayabilen programlara bağlı olarak web sayfalarını bir DOM ağacına ayrıştırabilir.
6. Anlambilimsel Açıklamanın Tanınması
Kazıp yapmayı düşündüğünüz sayfalar, belirli veri parçalarını bulmak için kullanılabilecek semantik biçimlendirme ve ek açıklamalar veya meta verileri içerebilir. Bu açıklamalar sayfalara gömülmüşse bu teknik, DOM ayrıştırmasının özel bir hali olarak görülebilir. Bu açıklamalar ayrıca sözdizimsel bir katmanda düzenlenebilir ve daha sonra web sayfalarından ayrı olarak saklanabilir ve yönetilebilir. Kazıyıcıların, sayfaları atlamadan önce veri şemasının yanı sıra bu katmandaki komutları almalarını sağlar.
Post a comment