Stop guessing what′s working and start seeing it for yourself.
Giriş yapın veya kayıt olun
Q&A
Question Center →

Semalt: PHP Web Sayfasında Kazıma İçin 3 Adım

Web sürtünme, aynı zamanda web veri çıkarma veya web hasat olarak da adlandırılır bir web sitesinden veya blog'dan veri çıkarma işlemi. Bu bilgi daha sonra meta etiketleri, meta açıklamaları, anahtar kelimeleri ve bir siteye olan bağlantıları ayarlamak için kullanılır ve arama motoru sonuçlarındaki genel performansını artırır.

Verileri toplamak için iki temel teknik kullanılır:

  •  Belge ayrıştırma  - Bir XML veya HTML dokümanını DOM'a dönüştürür (Doküman Nesnesi Modeli ) Dosyalar. PHP bize büyük DOM uzantısı sağlar.
  •  Düzenli ifadeler  - Web dokümanlarındaki verilerin düzenli ifadeler biçiminde alınmasının bir yoludur.

Üçüncü taraf web sitesinin kazıma verileri ile ilgili konu, bu verileri kullanma izniniz olmadığı için telif hakkıyla ilgilidir. Fakat PHP ile, telif hakları veya düşük kalite ile bağlantılı sorunlar olmadan verileri kolaylıkla kazıyabilirsiniz. Bir PHP programcısı olarak, kodlama amaçlarıyla farklı web sitelerinden veri gerektirebilir. Burada diğer sitelerden nasıl verimli bir şekilde veri alacağımızı açıkladık, ancak bundan önce sonunda index.php veya scrape.js dosyalarından edinileceğini unutmamalısınız.

Adımlar1: Web Sitesi URL'sini girmek için Form Oluşturun:

Her şeyden önce, Gönder düğmesini tıklayarak index.php dosyasında form oluşturmalı ve verileri silmek için web sitesi URL'si girmelisiniz.


Web sitesi URL'lerini giriniz


Adımlar2: Web Sitesi Verilerini Almak İçin PHP Fonksiyonu Oluşturun:

İkinci adım, Scrape.php dosyasında PHP işlevi sıyrılır, çünkü bu, veri almanıza ve URL kitaplığını kullanmanıza yardımcı olacaktır. Ayrıca, farklı sunucu ve protokolleri herhangi bir sorun olmadan bağlamanıza ve iletişim kurmanıza izin verecektir..

die ('cURL yüklü değil.Lütfen yükleyip tekrar deneyin.)

function scrapeSiteData ($ web sitesi_ülası) {

if function_exists (' curl_init ') ');

}

$ curl = curl_init;

curl_setopt ($ curl, CURLOPT_URL, $ website_url);

curl_setopt ($ curl, CURLOPT_RETURNTRANSFER, true);

$ çıktı = curl_exec ($ curl);

curl_close ($ curl);

return $ çıktısı;

}

Burada PHP cURL'un düzgün kurulup kurulmadığını görebiliriz. Işlevler alanında üç temel cURL kullanılmalı ve curl_init, oturumların başlatılmasına yardımcı olacak, curl_exec bunu yürütecek ve curl_close bağlantıyı kapatmaya yardımcı olacaktır. CURLOPT_URL gibi değişkenler, sıyırmamız gereken web sitesi URL'lerini ayarlamak için kullanılır. İkinci CURLOPT_RETURNTRANSFER, kazınmış sayfaları varsayılan form yerine değişken formda saklamaya yardımcı olur ve sonuçta sonuç olarak tüm web sayfasını görüntüler.

Adımlar3: Web Sitesindeki Belirli Verileri Kazıyın:

PHP dosyanızın işlevlerini ele alıp web sayfanızın belirli bölümünü kazıma zamanı. Belirli bir URL'deki tüm verileri istemiyorsanız, düzenlemenizi CURLOPT_RETURNTRANSFER değişkenlerini kullanın ve kazımak istediğiniz bölümleri vurgulayın. ($ _ POST ['submit'])) {

$ html = scrapeWebsiteData ($ _ POST ['website_url']);

$ start_point = strpos ($ html, 'Son Mesajlar');

$ end_point = strpos ($ html, '', $ start_point);

$ uzunluğu = $ end_point- $ başlangıç_sayfa;

$ html = substr ($ html, $ start_point, $ uzunluk);

echo $ html;

}

Bu kodlardan herhangi birini kullanmadan veya belirli bir blog veya web sitesini kişisel amaçlarla kazmadan önce PHP ve Düzenli İfadeler hakkındaki temel bilgileri geliştirmenizi öneririz.

View more on these topics

Post a comment

Post Your Comment

Skype

semaltcompany

WhatsApp

16468937756

Telegram

Semaltsupport