Stop guessing what′s working and start seeing it for yourself.
Giriş yapın veya kayıt olun
Q&A
Question Center →

Semalt'tan Web Sayfasında Kazıma Başlangıç ​​Kılavuzu

Web üzerindeki veriler ve bilgiler her geçen gün büyümektedir. Günümüzde çoğu insan bir işletmeyle ilgili incelemeler arıyor veya yeni bir terim anlamaya çalışıyor olsunlar da, Google'ı ilk bilgi kaynağı olarak kullanıyor.

Web üzerinde mevcut olan veri miktarı ile, Veri bilimcileri için çok fırsatlar yaratır. Ne yazık ki, web'deki verilerin çoğu kolaylıkla erişilebilir durumda değildir. İndirilemez olan, HTML format olarak adlandırılan ve yapılandırılmamış bir formatta sunulmaktadır. Dolayısıyla, bir veri bilimcisinin bilgi ve tecrübesini kullanmasını gerektirir.

Web kazıması, HTML formatında mevcut verilere, kolayca erişilebilen ve kullanılabilen yapısal bir biçime dönüştürme işlemidir. Hemen hemen tüm programlama dilleri uygun bir web atığı için kullanılabilir. Ancak, bu yazıda R dilini kullanacağız.

Verilerin web'den kazınabilmesinin birkaç yolu vardır. En popüler olanlardan bazıları şunlardır:

1. İnsan Kopyala Yapıştır

Bu, yavaş ama çok etkili bir kazıma tekniğidir. Bu teknikte, bir kişi verileri analiz eder ve daha sonra yerel saklama alanına kopyalar.

2. Metin Örüntü Eşleştirme

Bu, basit ama güçlü bir başka yaklaşımdır

3. API Arayüzü

Twitter, Facebook, LinkedIn vb. gibi web sitelerinin birçoğu, web sitelerinden bilgi almak için kullanılır.

4. DOM Ayrıştırma

Bazı programların istemci tarafı komut dosyaları tarafından oluşturulan dinamik içeriği alabileceğini unutmayın. Sayfaları, bu sayfaların bazı bölümlerini almak için kullanabileceğiniz programlara dayanan bir DOM ağacına ayrıştırmak mümkündür.

Önce o R'de web kazıma yapmaya başlarsanız, R hakkında temel bilgilere sahip olmanız gerekir. Yeni başlayanlar iseniz yardımcı olabilecek çok sayıda harika kaynak vardır. Ayrıca, HTML ve CSS hakkında bilgi sahibi olmanız gerekmektedir. Bununla birlikte, çoğu veri bilimcisi, HTML ve CSS teknik bilgisi ile çok sesli olmadığından, Selector Gadget gibi açık bir yazılım kullanabilirsiniz. Örneğin, belli bir dönemde yayınlanan en popüler 100 filmin IMDB web sitesinde verilerini kazıyorsanız, aşağıdaki verileri bir siteden silmeniz gerekir: açıklama, çalışma zamanı, tür, derecelendirme, oy sayısı , brüt kazanç, yönetmen ve oyuncu kadrosu. Verileri hurdaya attıktan sonra, farklı yollarla analiz edebilirsiniz. Örneğin, bir dizi ilginç görselleştirme oluşturabilirsiniz. Şimdi, bir hurda çöplüğünün ne olduğu konusunda genel bir fikriniz olduğunda, yolunuza devam edebilirsiniz!

View more on these topics

Post a comment

Post Your Comment
© 2013 - 2019, Semalt.com. All rights reserved