«web-scraping» etiketlenmiş sorular

Web kazıma, bir API veya diğer otomatik veri alma yöntemlerini hazır olarak sağlamayan web sitelerinden belirli bilgileri çıkarma işlemidir. "Kazıma İşlemine Nasıl Başlanır" ile ilgili sorular (örneğin Excel VBA ile), çok sayıda işlevsel kod örneği mevcut olduğundan * baştan sona araştırılmalıdır *. Web kazıma yöntemleri, üçüncü taraf uygulamaları, özel yazılım geliştirmeyi ve hatta standartlaştırılmış bir şekilde manuel veri toplamayı içerir.

30
HTML kazıma seçenekleri? [kapalı]
Kapalı . Bu sorunun daha fazla odaklanması gerekiyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu, yalnızca bu yayını düzenleyerek tek bir soruna odaklanacak şekilde güncelleyin . 6 yıl önce kapalı . HTML kazıma için bir Python paketi olan Beautiful Soup'u denemeyi düşünüyorum . Bakmam gereken …

16
Elemanları sınıfa göre bulma
Beautifulsoup kullanarak "class" özniteliği ile HTML öğelerini ayrıştırma konusunda sorun yaşıyorum. Kod şuna benzer soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Komut dosyası bittikten sonra aynı satırda bir hata alıyorum. File "./beautifulcoding.py", line 130, in getlanguage if (div["class"] == "stylelistrow"): File …

3
Başsız Tarayıcı ve kazıma - çözümler [kapalı]
Kapalı. Bu soru Yığın Taşması yönergelerine uygun değil . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu Yığın Taşması için konuyla ilgili olacak şekilde güncelleyin . 5 yıl önce kapalı . Tarayıcı otomatik test takımları ve kazıma yeteneğine sahip başsız tarayıcı platformları için olası çözümlerin listesini yapmaya …

6
Herhangi bir URL'nin veya web sayfasının Google önbellek yaşını nasıl edinebilirim? [kapalı]
Kapalı. Bu soru Yığın Taşması yönergelerine uygun değil . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu Yığın Taşması için konuyla ilgili olacak şekilde güncelleyin . 2 yıl önce kapalı . Bu soruyu geliştir Projemde Google önbellek yaşının önemli bilgiler olarak eklenmesine ihtiyacım var. Google önbellek yaşı, …

3
Hangi HTML Ayrıştırıcı en iyisidir? [kapalı]
Şu anda olduğu gibi, bu soru Soru-Cevap formatımıza uygun değil. Yanıtların gerçekler, referanslar veya uzmanlık tarafından desteklenmesini bekliyoruz, ancak bu soru muhtemelen tartışma, tartışma, oylama veya genişletilmiş tartışma talep edecektir. Bu sorunun çözülebileceğini ve muhtemelen yeniden açılabileceğini düşünüyorsanız, yardım için yardım merkezini ziyaret edin . 7 yıl önce kapalı . …

13
Python kullanarak Selenium ile açılır menü değeri nasıl seçilir?
Açılır listeden bir öğe seçmem gerekiyor . Örneğin: <select id="fruits01" class="select" name="fruits"> <option value="0">Choose your fruits:</option> <option value="1">Banana</option> <option value="2">Mango</option> </select> 1) Önce üzerine tıklamam gerekiyor. Bunu yapıyorum: inputElementFruits = driver.find_element_by_xpath("//select[id='fruits']").click() 2) Bundan sonra iyi elementi seçmek zorundayım diyelim Mango. Ben bunu yapmaya çalıştım inputElementFruits.send_keys(...)ama işe yaramadı.

14
Python ile web kazıma JavaScript sayfası
Basit bir web kazıyıcı geliştirmeye çalışıyorum. HTML kodu olmadan metin ayıklamak istiyorum. Aslında, bu hedefe ulaşıyorum, ancak JavaScript'in yüklü olduğu bazı sayfalarda iyi sonuçlar elde etmediğimi gördüm. Örneğin, bazı JavaScript kodları metin eklerse, onu göremiyorum, çünkü aradığımda response = urllib2.urlopen(request) Orijinal metni eklenmemiş olarak alıyorum (JavaScript istemcide yürütüldüğünden). Bu sorunu …




7
Kuklacı: .evaluate () içindeki değişkeni geçirin
Puppeteer'da bir değişkeni bir page.evaluate()işleve geçirmeye çalışıyorum , ancak aşağıdaki çok basitleştirilmiş örneği kullandığımda, değişken tanımsız.evalVar Puppeteer'da yeniyim ve üzerine inşa edilecek herhangi bir örnek bulamıyorum, bu page.evaluate()yüzden içeride kullanabilmek için bu değişkeni işleve geçirmede yardıma ihtiyacım var. const puppeteer = require('puppeteer'); (async() => { const browser = await puppeteer.launch({headless: …

4
Bir tarayıcı ziyaretini taklit etmek için Python istekleri nasıl kullanılır?
İçeriği aşağıdaki web sitesinden almak istiyorum. Firefox veya Chrome gibi bir tarayıcı kullanırsam, istediğim gerçek web sitesi sayfasını alabilirim, ancak Python istediği paketi (veya wgetkomutu) kullanırsam, tamamen farklı bir HTML sayfası döndürür. Web sitesinin geliştiricisinin bunun için bazı engeller yaptığını düşündüm, bu yüzden soru şu: Python isteklerini veya wget komutunu …

17
Toplama: SSL: http://en.wikipedia.org için CERTIFICATE_VERIFY_FAILED hatası
'Python ile Web Kazıma' kodunun alıştırması yapıyorum ve şu sertifika sorununu yaşıyorum: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in pages: #We …

2
Bir web sitesinden veri toplamanın en iyi yolu nedir? [kapalı]
Kapalı . Bu soru fikir temelli . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek mi istiyorsunuz? Bu yazıyı düzenleyerek gerçekler ve alıntılarla cevaplanabilmesi için soruyu güncelleyin . 6 yıl önce kapalı . Bu soruyu geliştirin Bir web sitesinden içerik çıkarmam gerekiyor, ancak uygulama bu verilere programlı olarak erişmek için …

8
Nasıl daha hızlı kazımak
Burada iş bir API itibaren başlar o bir site kazımak için olduğu https://xxx.xxx.xxx/xxx/1.jsonkadar https://xxx.xxx.xxx/xxx/1417749.jsonve MongoDB tam olarak yazın. Bunun için aşağıdaki kod var: client = pymongo.MongoClient("mongodb://127.0.0.1:27017") db = client["thread1"] com = db["threadcol"] start_time = time.time() write_log = open("logging.log", "a") min = 1 max = 1417749 for n in range(min, max): …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.