«web-crawler» etiketlenmiş sorular

Web tarayıcısı (Web örümceği olarak da bilinir), World Wide Web'e metodik, otomatikleştirilmiş veya düzenli bir şekilde göz atan bir bilgisayar programıdır. Web gezginleri için diğer terimler, karıncalar, otomatik indeksleyiciler, botlar, Web örümcekleri, Web robotları veya - özellikle FOAF topluluğunda - Web scutters'dır.

5
Google'dan web sitemi yeniden taramasını nasıl isteyebilirim? [kapalı]
Kapalı. Bu soru Yığın Taşması yönergelerine uygun değil . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek ister misiniz? Soruyu Yığın Taşması için konuyla ilgili olacak şekilde güncelleyin . 5 yıl önce kapalı . Bu soruyu geliştir Birisi Google'dan bir web sitesini yeniden taramasını istemenin bir yolunu biliyor mu? Mümkünse, …
227 seo  web-crawler 

2
Python'daki İstekler kitaplığını kullanarak “Kullanıcı aracısı” gönderme
"User-agent"Python isteklerini kullanarak bir web sayfası isterken için bir değer göndermek istiyorum . Aşağıdaki kodda olduğu gibi, başlığın bir parçası olarak göndermek için sorun olup olmadığından emin değilim: debug = {'verbose': sys.stderr} user_agent = {'User-agent': 'Mozilla/5.0'} response = requests.get(url, headers = user_agent, config=debug) Hata ayıklama bilgileri, istek sırasında gönderilen üstbilgileri …

4
rsync'in bitmemiş kaynak dosyalarını kaldırmasını engelle
İki makinem var, hız ve kütle. speed, hızlı bir İnternet bağlantısına sahiptir ve çok sayıda dosyayı diske indiren bir tarayıcı çalıştırır. kütlenin çok fazla disk alanı var. Dosyaları indirdikten sonra hızdan kitleye taşımak istiyorum. İdeal olarak, sadece koşardım: $ rsync --remove-source-files speed:/var/crawldir . ancak rsync'in henüz indirmeyi bitirmemiş bir kaynak …


11
Her Docker görüntüsü için katmanları ve katman boyutlarını bulma
Araştırma amacıyla, genel Docker kayıt defterini ( https://registry.hub.docker.com/ ) taramaya ve 1) ortalama bir görüntünün kaç katmana sahip olduğunu ve 2) bu katmanların boyutlarını bulmaya çalışıyorum. dağıtım fikri. Bununla birlikte, API ve halk kütüphaneleri ile birlikte github'daki ayrıntıları inceledim, ancak aşağıdakileri yapmak için herhangi bir yöntem bulamıyorum: tüm genel depoları …


2
TypeError: re.findall () içindeki bayt benzeri bir nesnede dizge kalıbı kullanılamaz
Bir sayfadan url'leri otomatik olarak nasıl getireceğimi öğrenmeye çalışıyorum. Aşağıdaki kodda web sayfasının başlığını almaya çalışıyorum: import urllib.request import re url = "http://www.google.com" regex = r'<title>(,+?)</title>' pattern = re.compile(regex) with urllib.request.urlopen(url) as response: html = response.read() title = re.findall(pattern, html) print(title) Ve bu beklenmedik hatayı alıyorum: Traceback (most recent call …

11
'Gizli' web tarayıcılarını algılama
Algılanmak istemeyen web tarayıcılarını tespit etmek için hangi seçenekler var? (Listeleme algılama tekniklerinin akıllı gizli gezgin programcısının daha iyi bir örümcek yapmasına olanak sağlayacağını biliyorum, ancak akıllı gizli tarayıcıları zaten engelleyebileceğimizi düşünmüyorum, yalnızca hata yapanları.) Googlebot ve Yahoo! gibi güzel tarayıcılardan bahsetmiyorum! Slurp. Bir botu güzel buluyorum eğer: kendisini kullanıcı …
107 web-crawler 



8
Bir siteden URL'lerin listesini alın [kapatıldı]
Kapalı. Bu soru Yığın Taşması yönergelerini karşılamıyor . Şu anda cevapları kabul etmiyor. Bu soruyu geliştirmek mi istiyorsunuz? Yığın Taşması için konuya uygun olması için soruyu güncelleyin . 5 yıl önce kapalı . Bu soruyu geliştirin Bir müşteri için yeni bir site kuruyorum, ancak tüm eski sayfalarının 404'lerde bitmesini istemiyorlar. …
100 web-crawler 
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.