LinkedIn web kazıma


11

Yakın zamanda LinkedIn API'sine bağlanmak için yeni bir R paketi keşfettim . Ne yazık ki LinkedIn API'sı başlangıç ​​olarak oldukça sınırlı görünüyor; örneğin, yalnızca şirketlerle ilgili temel verileri alabilirsiniz ve bu, bireylerle ilgili verilerden ayrılır. Sitede manuel olarak yapabileceğiniz ancak API aracılığıyla mümkün olmayan belirli bir şirketin tüm çalışanları hakkında veri almak istiyorum .

import.io , LinkedIn sayfalandırmasını tanıdıysa mükemmel olurdu (sayfanın sonuna bakın).

Herkes LinkedIn sitesinin geçerli biçimi için geçerli web kazıma araçları veya teknikleri veya daha esnek analiz yapmak için API bükme yolları biliyor mu? Tercihen R veya ağ bazlı, ancak kesinlikle diğer yaklaşımlara açıktır.


2
Web kazıma LinkedIn hizmet şartlarına aykırıdır. Bkz LinkedIn “YAPILMASI” ve “yapılmaması gerekenler” - DO NOT: "Kullanım manuel veya otomatik yazılım, cihazlar, komut robotlar, diğer araçları veya işlemleri erişmek için,‘sıyrık’,‘taramak’ya da‘örümcek’Hizmetler veya herhangi bir ilgili veri veya bilgi; "
Brian Spiering

Yanıtlar:



3

Scrapy , farklı siteleri daha hızlı kazımanıza ve kod yapınızı daha iyi hale getirmenize yardımcı olabilecek harika bir Python kütüphanesidir. Dinamik JS içerik oluşturma kullanabildikleri için tüm siteler klasik araçlarla ayrıştırılamaz. Bu görev için Selenium kullanmak daha iyidir (Bu web siteleri için bir test çerçevesidir, ancak aynı zamanda harika bir web kazıma aracıdır). Ayrıca bu kütüphane için bir Python sarmalayıcısı da bulunmaktadır. Google'da, Selenyum'u Scrapy içinde kullanmanıza ve kodunuzu net, düzenli hale getirmenize yardımcı olabilecek birkaç numara bulabilirsiniz ve Scrapy kütüphanesi için bazı harika araçlar kullanabilirsiniz .

Selenium'un Linkedin için klasik araçlardan daha iyi bir kazıyıcı olacağını düşünüyorum. Çok fazla javascript ve dinamik içerik var. Ayrıca, hesabınızda kimlik doğrulaması yapmak ve mevcut tüm içeriği kazımak istiyorsanız, istek veya urllib gibi basit kitaplıkları kullanarak klasik kimlik doğrulamasında çok fazla sorun yaşarsınız .


1

Sevdiğim rvest ilgili bölümleri seçmek için eklenti SelectorGadget krom ile birlikte.

Ben rvest kullandım ve forumlar arasında sayfa oluşturmak için küçük komut dosyaları oluşturdum:

  1. "Page n Of m" nesnesini arayın
  2. M çıkar
  3. Sayfa yapısına bağlı olarak, 1'den m'ye kadar bir bağlantı listesi oluşturun (örn. Www.sample.com/sayfa1)
  4. Kazıyıcıyı tüm bağlantı listesi üzerinden yineleyin

0

Python biliyorsanız, ben de güzel bir çorba ile giderdim. Javascript / JQuery'yi (ve node.js'ye aşina iseniz) kodlamanız durumunda, CoffeeScript'i ( Öğreticiye Göz Atın) kontrol etmek isteyebilirsiniz .


0

lxml Python'da güzel bir web hurda kütüphanesidir. Güzel Çorba lxml üzerine bir sarıcı. Yani, lxml hem terapi hem de güzel çorbadan daha hızlıdır ve daha kolay bir öğrenme eğrisine sahiptir.

Bu , kişisel bir proje için web sayfaları üzerinden yinelenebilen bir kazıyıcı örneğidir.


0

BeautifulSoup LinkedIn'de çalışmıyor. Scrappy politikaları ihlal ediyor. Octoparse sadece Windows içindir. Başka bir yol var mı? Bir kişinin hesabı için Benzer Kişiler verilerini ayıklamak istiyorum. Lütfen yardım et!


1
Lütfen bunu yorum olarak gönderin veya yeni bir soru sorun
christopherlovell

Bu önemli bir bilgidir, ancak bunun bir cevap olması gerekiyorsa lütfen içindeki soruyu kaldırın.
Pithikos

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.