Gutenberg'den tüm İngilizce kitaplar nasıl indirilir?


23

Tüm Gutenberg e-kitaplarını düz metin biçiminde (html değil) ve sadece İngilizce olarak indirmem gerekiyor.

Herkesin Gutenberg sunucusundan nasıl indirileceğine dair önerileri var mı?

Dilbilimsel bir araştırma yapmak için onlara ihtiyacım var.

Yanıtlar:


32

Sayfalarımıza Robot Erişimi Hakkında Bilgiye Göre :

Sitemize Robot erişimi, her şey başarısız olduğunda, son kaynak olarak bırakılmalıdır. Ayrıca, Gutenberg Projesi web sitesinin telif hakkı olduğunu unutmayın.

Ancak, umut var :

Daha İyi Alternatifler

  • Project Gutenberg web sitesinin çevrimdışı bir sürümünü edinin.
  • Tüm Gutenberg ebook dosyalarını edinin.
  • Project Gutenberg katalog verilerini alın.

Ve:

[...] Tüm e-Kitaplarımızı, sıkıştırılmış dosyalarda, robotunuzu http://www.gutenberg.org/robot/harvest adresinde bularak alabilirsiniz.

[...] Zip dosyalarını açmak, 70.000 dosya daha üretecek.

Bu, aşağıdakileri kullanarak tüm dosyaların nasıl alınacağına bir örnektir wget:

wget -w 2 -m http://www.gutenberg.org/robot/harvest

[...] Yalnızca bazı dosya türlerini isterseniz:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt

[...] Yalnızca belirli bir dilde dosyalar istiyorsanız:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?langs[]=de

Öyleyse şunu itiraf ederim:

wget -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en

Wget'e tarama sırasında indirdiği dosya sayısını sınırlamadığını söylemenin bir yolu var mı (örneğin, karşılaştığı ilk 100 metin dosyası)?
rohanbk

Ayrıca, bir metin dosyasında çok sayıda bağlantımız olduğunda (mutlak uri, " gutenberg.org/files/1.zip , gutenberg.org/files/2.zip " deyin , böyle bir metin dosyası sağlamak için hangi parametre kullanılır? indirme bağlantıları bir dizi olarak?
EugeneP

@rohanbk, URL’nin kendisine gutenberg.org/robot/harvest?filetypes]️==xt & langsgs[]==== like like like like like like like like by by by by by by by what what what what what what what what downloaded downloaded what downloaded actually actually actually actually actually actually actually per per per per per per per sayfa başına düşen dosya sayısı sabit değil . (Belki boyuta göre?) Yani, tekrarlamak değil , wget kılavuzuna göre , deneyebilirsiniz --level=0. Ancak iptal etmenize ve yeniden başlatmanıza izin vermeniz daha iyi olur sanırım: dene --level 9999 --no-clobber, sahip olduğunuz dosyaları atlayacak (hala diskte aynı klasörde olduğunuzu varsayarak).
Arjan

1
@EugeneP, bkz --input-file manuel içinde .
Arjan

@Arjan İndirme başında ofset belirtmenin bir yolu var mı? İndirme işlemim bazı nedenlerden dolayı kesildi ve şimdi wget ilk sayfadaki dosyaları kontrol etmeye başladı. -cSeçenek kullanmıştım ama yine de. offset=xxxYansıtılacak URL’yi verdim ancak yine de ilk sayfadan indiriliyor.
user13107,

7

Sen indirebilirsiniz İngiliz kitapların tamamını Gutenberg koleksiyonunu ve diğer dillerin son derece sıkıştırılır ve daha sonra açılabilir tek ZIM dosyasında kiwix hem masaüstü ve Android'de. İngilizce kitaplar 40 GB.


kiwix için linux istemcisi yok
aquagremlin

@aquagremlin Uh? kiwix.org/wiki/Software#GNU.2FLinux Hatta bazı dağıtımlarda paketlenmiş durumda.
Nemo

2
üzgünüm. uyku yok ve büyük düğmenin altındaki 'diğer sistemleri' görmedim.
aquagremlin

bu txt formatı kitap mı?
AD

@ AD Ne demek istediğinden emin değilim. EPUB veya başkaları yerine ZIM ile paketlenmiş HTML'deki metin + resimler. İsterseniz düz metin alabilirsiniz, ancak cevabım çoğunlukla biçimlendirilmiş kitapları tercih eden insanlar içindir.
Nemo

6

Seçilen cevap doğru olsa da, potansiyel olarak iki soruna neden olur:

  1. Bot olarak indirdiğiniz varsayım altında sayfa numarasına erişimi reddederek 403 hatası alabilirsiniz.
  2. Harici bir yansıtmaya gönderilme olasılığınız vardır, yani wgetkomut başarısız olur, harici bir yansıtmadan dosyaları indirirken yinelemeli kontrolleri başarısız olur.

Aşağıdaki çözüm bu sorunları düzeltir:

wget -H -w 2 -m http://www.gutenberg.org/robot/harvest?filetypes[]=txt&langs[]=en \
--referer="http://www.google.com" \
--user-agent="Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.8.1.6) Gecko/20070725 Firefox/2.0.0.6" \
--header="Accept: text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5" \
--header="Accept-Language: en-us,en;q=0.5" \
--header="Accept-Encoding: gzip,deflate" \
--header="Accept-Charset: ISO-8859-1,utf-8;q=0.7,*;q=0.7" \
--header="Keep-Alive: 300"

Yönlendiriciyi ve kullanıcı aracısı dizelerini biraz rasgelelik sağlamak için değiştirmek isteyebilirsiniz.


5

ftp://mirrors.pglaf.org/mirrors/gutenberg-iso , birkaç iyi seçeneğe sahip.

ftp://mirrors.pglaf.org/mirrors/gutenberg-iso/pgdvd042010.iso , ihtiyaçlarınız için yeterli olması gereken 8GB bir dosyadır.

Burada daha fazla bilgi var:

https://www.gutenberg.org/wiki/Gutenberg:The_CD_and_DVD_Project#Downloading_Via_FTP , FTP ve BitTorrent dahil, arşivi indirmek için tüm seçenekleri sunar.


1
Torrent'i daha etik bir seçenek olarak kullanmanızı öneririm (bu üçüncü linkle aynı sayfada): gutenberg.org/wiki/… Daha etiktir çünkü Project Gutenberg'in sunucularına daha az baskı getirir. Muhtemelen daha hızlı ve daha etkilidir. Artı, ftp üzerinden tavsiye ediyorlar. Eğer Linux kullanıyorsanız, Transmission, amaç için iyi bir bit torrent istemcisidir. Bu size yalnızca 2010 yılında sitede bulunan kitapları verecektir, ancak shadowhorst'un cevabı işlevsel olmadığında en iyi seçenek gibi görünmektedir.
Shule

3

Diğer bir seçenek ise http://pgiso.pglaf.org/ adresindeki harika araç .

  1. Bir kimlik aralığı girin (örneğin 1-10000)
  2. İstediğiniz dosya tipini seçin
  3. Dahil etmek istediğiniz dilleri seçin
  4. Bildirim için bekleyin
  5. İndir

2
Benim için çalışmıyor, yalnızca ham php’yı görebiliyorum
Ernest 12

-4

Neden tüm aşırı karmaşık ve yukarıda gösterilen programlama becerilerinizi ve bilginizi tüm bu eylemleri birbirine bağlayan ve "Tıkladığınızda bir dil seçeneği sekmesiyle" Tüm Geçerli Kitapları İndir "yazan basit bir düğme oluşturmak için kullanmıyorsunuz?

Siteye gelen kullanıcıların çoğunun e-kitap koleksiyoncuları olduğundan ve ilgilendikleri konularla ilgili kitapların 1 veya 2 kitap için el ile indirilmesinden eminim. Ancak elle daha büyük bir koleksiyon yapmak çok zor. Bununla birlikte, araştırma için ihtiyaç duyuyorlarsa veya basit bir şekilde, bilgisayarlarında devasa bir dijital kitap kütüphanesine sahip olmak isterler. Çoğu kişi kapalıdır ve bunu yapmak için bir Bilgisayar Sihirbazı olması gerektiğinin farkına vardıklarında siteden uzaklaşırlar. Dolayısıyla, "Tüm Güncel Kitapları İndir" butonu siteye projeye ve kullanıcılarına fayda sağlayacak ve kesinlikle üretecektir. siteye daha fazla ziyaretçi. Böylece herkes mutlu olur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.