«beautifulsoup» etiketlenmiş sorular

Beautiful Soup, HTML / XML ayrıştırmak için bir Python paketidir. Bu paketin en son sürümü, bs4 olarak içe aktarılan sürüm 4'tür.

28
UnicodeEncodeError: 'ascii' codec bileşeni 20 konumunda u '\ xa0' karakterini kodlayamıyor: sıra değeri aralıkta değil (128)
Farklı web sayfalarından (farklı sitelerde) getirilen metinden unicode karakterlerle ilgili sorunlar yaşıyorum. BeautifulSoup kullanıyorum. Sorun, hatanın her zaman yeniden üretilememesidir; bazen bazı sayfalarla çalışır ve bazen a UnicodeEncodeError. Aklıma gelen her şeyi denedim ve yine de Unicode ile ilgili bir tür hata atmadan sürekli çalışan bir şey bulamadım. Kodun sorunlara …

16
Elemanları sınıfa göre bulma
Beautifulsoup kullanarak "class" özniteliği ile HTML öğelerini ayrıştırma konusunda sorun yaşıyorum. Kod şuna benzer soup = BeautifulSoup(sdata) mydivs = soup.findAll('div') for div in mydivs: if (div["class"] == "stylelistrow"): print div Komut dosyası bittikten sonra aynı satırda bir hata alıyorum. File "./beautifulcoding.py", line 130, in getlanguage if (div["class"] == "stylelistrow"): File …

12
bs4.FeatureNotFound: İstediğiniz özelliklere sahip bir ağaç oluşturucu bulunamadı: lxml. Ayrıştırıcı kitaplığı yüklemeniz mi gerekiyor?
... soup = BeautifulSoup(html, "lxml") File "/Library/Python/2.7/site-packages/bs4/__init__.py", line 152, in __init__ % ",".join(features)) bs4.FeatureNotFound: Couldn't find a tree builder with the features you requested: lxml. Do you need to install a parser library? Yukarıdaki çıkışlar Terminalimde. Mac OS 10.7.x kullanıyorum. Python 2.7.1 var ve her ikisi de başarıyla yüklenen ve …

6
UnicodeEncodeError: 'charmap' codec bileşeni karakterleri kodlayamıyor
Bir web sitesini kazımaya çalışıyorum, ama bu bana bir hata veriyor. Aşağıdaki kodu kullanıyorum: import urllib.request from bs4 import BeautifulSoup get = urllib.request.urlopen("https://www.website.com/") html = get.read() soup = BeautifulSoup(html) print(soup) Ve şu hatayı alıyorum: File "C:\Python34\lib\encodings\cp1252.py", line 19, in encode return codecs.charmap_encode(input,self.errors,encoding_table)[0] UnicodeEncodeError: 'charmap' codec can't encode characters in position …

5
TypeError: python ve CSV'de 'str' değil, bayt benzeri bir nesne gerekli
TypeError: 'str' değil, bayt benzeri bir nesne gerekli HTML tablosu verilerini Csv dosyasına kaydetmek için aşağıdaki python kodunu yürütürken hata alıyorum. rideup.pls bana nasıl yardımcı olacağını bilmiyorum. import csv import requests from bs4 import BeautifulSoup url='http://www.mapsofindia.com/districts-india/' response=requests.get(url) html=response.content soup=BeautifulSoup(html,'html.parser') table=soup.find('table', attrs={'class':'tableizer-table'}) list_of_rows=[] for row in table.findAll('tr')[1:]: list_of_cells=[] for cell in …

11
Güzel Çorba ve div ve içeriğini kimliğine göre ayıklamak
soup.find("tagName", { "id" : "articlebody" }) Bu neden <div id="articlebody"> ... </div>aradaki etiketleri ve şeyleri döndürmüyor ? Hiçbir şey döndürmez. Ve bunun var olduğu bir gerçeği biliyorum çünkü ona doğru bakıyorum soup.prettify() soup.find("div", { "id" : "articlebody" }) ayrıca çalışmıyor. ( DÜZENLEME: BeautifulSoup'un sayfamı doğru bir şekilde ayrıştırmadığını fark ettim, …


16
ImportError: bs4 Adında Modül Yok (BeautifulSoup)
Python'da çalışıyorum ve Flask kullanıyorum. Ana Python dosyamı bilgisayarımda çalıştırdığımda, mükemmel çalışıyor, ancak venv'yi etkinleştirdiğimde ve Flask Python dosyasını terminalde çalıştırdığımda, ana Python dosyamın "No Modüle Adlandırılmış bs4" olduğunu söylüyor. Herhangi bir yorum veya tavsiye büyük beğeni topluyor.



6
BeautifulSoup kullanarak düğümlerin alt öğelerini bulma
<a>Alt öğe olan tüm etiketleri almak istiyorum <li>: <div> <li class="test"> <a>link1</a> <ul> <li> <a>link2</a> </li> </ul> </li> </div> Bunun gibi belirli bir sınıfa sahip öğeyi nasıl bulacağımı biliyorum: soup.find("li", { "class" : "test" }) Ama <a>çocukları olan <li class=test>ama başkalarının çocuklarını nasıl bulacağımı bilmiyorum . Seçmek istediğim gibi: <a>link1</a>

17
Toplama: SSL: http://en.wikipedia.org için CERTIFICATE_VERIFY_FAILED hatası
'Python ile Web Kazıma' kodunun alıştırması yapıyorum ve şu sertifika sorununu yaşıyorum: from urllib.request import urlopen from bs4 import BeautifulSoup import re pages = set() def getLinks(pageUrl): global pages html = urlopen("http://en.wikipedia.org"+pageUrl) bsObj = BeautifulSoup(html) for link in bsObj.findAll("a", href=re.compile("^(/wiki/)")): if 'href' in link.attrs: if link.attrs['href'] not in pages: #We …

6
Beautifulsoup ile bir öznitelik değeri çıkarma
Bir web sayfasındaki belirli bir "giriş" etiketindeki tek bir "değer" özniteliğinin içeriğini çıkarmaya çalışıyorum. Aşağıdaki kodu kullanıyorum: import urllib f = urllib.urlopen("http://58.68.130.147") s = f.read() f.close() from BeautifulSoup import BeautifulStoneSoup soup = BeautifulStoneSoup(s) inputTag = soup.findAll(attrs={"name" : "stainfo"}) output = inputTag['value'] print str(output) TypeError alıyorum: liste indeksleri tamsayı olmalı, str …

9
BeautifulSoup ile xpath kullanabilir miyiz?
Bir url'yi kazımak için BeautifulSoup kullanıyorum ve aşağıdaki koda sahiptim import urllib import urllib2 from BeautifulSoup import BeautifulSoup url = "http://www.example.com/servlet/av/ResultTemplate=AVResult.html" req = urllib2.Request(url) response = urllib2.urlopen(req) the_page = response.read() soup = BeautifulSoup(the_page) soup.findAll('td',attrs={'class':'empformbody'}) Şimdi yukarıdaki kodda findAllbunlarla ilgili etiketleri ve bilgileri almak için kullanabiliriz, ancak ben xpath kullanmak istiyorum. …

7
Python: BeautifulSoup - isim özniteliğine göre bir öznitelik değeri alın
İsmine göre bir öznitelik değeri yazdırmak istiyorum, örneğin <META NAME="City" content="Austin"> Bunun gibi bir şey yapmak istiyorum soup = BeautifulSoup(f) //f is some HTML containing the above meta tag for meta_tag in soup('meta'): if meta_tag['name'] == 'City': print meta_tag['content'] Yukarıdaki kod a verir KeyError: 'name', sanırım bunun nedeni ismin BeatifulSoup …

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.