Programlama web-crawler

5

Google'dan web sitemi yeniden taramasını nasıl isteyebilirim? [kapalı]

Kapalı. Bu soru Yığın Taşması yönergelerine uygun değil . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu Yığın Taşması için konuyla ilgili olacak şekilde güncelleyin . 5 yıl önce kapalı . Bu soruyu geliştir Birisi Google'dan bir web sitesini yeniden taramasını istemenin bir yolunu biliyor mu? Mümkünse, …

227 seo web-crawler

2

Python'daki İstekler kitaplığını kullanarak “Kullanıcı aracısı” gönderme

"User-agent"Python isteklerini kullanarak bir web sayfası isterken için bir değer göndermek istiyorum . Aşağıdaki kodda olduğu gibi, başlığın bir parçası olarak göndermek için sorun olup olmadığından emin değilim: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) Hata ayıklama bilgileri, istek sırasında gönderilen üstbilgileri …

216 python web-crawler python-requests

4

rsync'in bitmemiş kaynak dosyalarını kaldırmasını engelle

İki makinem var, hız ve kütle. speed, hızlı bir İnternet bağlantısına sahiptir ve çok sayıda dosyayı diske indiren bir tarayıcı çalıştırır. kütlenin çok fazla disk alanı var. Dosyaları indirdikten sonra hızdan kitleye taşımak istiyorum. İdeal olarak, sadece koşardım: $ rsync --remove-source-files speed:/var/crawldir . ancak rsync'in henüz indirmeyi bitirmemiş bir kaynak …

169 storage web-crawler rsync

8

BeautifulSoup ve Scrapy tarayıcısı arasındaki fark nedir?

Amazon ve e-bay ürün fiyatı arasındaki karşılaştırmayı gösteren bir web sitesi yapmak istiyorum. Bunlardan hangisi daha iyi çalışır ve neden? BeautifulSoup'a biraz aşinayım ama Scrapy tarayıcısına pek benzemiyorum .

134 python beautifulsoup scrapy web-crawler

11

Her Docker görüntüsü için katmanları ve katman boyutlarını bulma

Araştırma amacıyla, genel Docker kayıt defterini ( https://registry.hub.docker.com/ ) taramaya ve 1) ortalama bir görüntünün kaç katmana sahip olduğunu ve 2) bu katmanların boyutlarını bulmaya çalışıyorum. dağıtım fikri. Bununla birlikte, API ve halk kütüphaneleri ile birlikte github'daki ayrıntıları inceledim, ancak aşağıdakileri yapmak için herhangi bir yöntem bulamıyorum: tüm genel depoları …

123 image docker web-crawler

16

php ile arama motoru botları nasıl tespit edilir?

Arama motoru botları php kullanarak nasıl tespit edilebilir?

118 php web-crawler bots

2

TypeError: re.findall () içindeki bayt benzeri bir nesnede dizge kalıbı kullanılamaz

Bir sayfadan url'leri otomatik olarak nasıl getireceğimi öğrenmeye çalışıyorum. Aşağıdaki kodda web sayfasının başlığını almaya çalışıyorum: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) Ve bu beklenmedik hatayı alıyorum: Traceback (most recent call …

112 python python-3.x web-crawler

11

'Gizli' web tarayıcılarını algılama

Algılanmak istemeyen web tarayıcılarını tespit etmek için hangi seçenekler var? (Listeleme algılama tekniklerinin akıllı gizli gezgin programcısının daha iyi bir örümcek yapmasına olanak sağlayacağını biliyorum, ancak akıllı gizli tarayıcıları zaten engelleyebileceğimizi düşünmüyorum, yalnızca hata yapanları.) Googlebot ve Yahoo! gibi güzel tarayıcılardan bahsetmiyorum! Slurp. Bir botu güzel buluyorum eğer: kendisini kullanıcı …

107 web-crawler

5

Bir web sitesindeki tüm bağlantılar / sayfalar nasıl bulunur

Herhangi bir web sitesinde tüm sayfaları ve bağlantıları bulmak mümkün mü? Bir URL girmek ve bu siteden gelen tüm bağlantıların bir dizin ağacını oluşturmak istiyorum? HTTrack'e baktım, ancak bu tüm siteyi indiriyor ve sadece dizin ağacına ihtiyacım var.

102 directory web-crawler

5

Scrapy Spider'da kullanıcı tanımlı bir argüman nasıl iletilir

Bir hurdacı örümceğine kullanıcı tanımlı bir argüman geçirmeye çalışıyorum. Bunun nasıl yapılacağı konusunda kimse önerebilir mi? Bir -ayerde bir parametre okudum ama nasıl kullanılacağı hakkında hiçbir fikrim yok.

100 python scrapy web-crawler

8

Bir siteden URL'lerin listesini alın [kapatıldı]

Kapalı. Bu soru Yığın Taşması yönergelerini karşılamıyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek mi istiyorsunuz? Yığın Taşması için konuya uygun olması için soruyu güncelleyin . 5 yıl önce kapalı . Bu soruyu geliştirin Bir müşteri için yeni bir site kuruyorum, ancak tüm eski sayfalarının 404'lerde bitmesini istemiyorlar. …

100 web-crawler

«web-crawler» etiketlenmiş sorular