Kayıp bir web sitesini yedeklemesiz kurtarma?


262

Ne yazık ki, hosting sağlayıcımız% 100 veri kaybı yaşadı, bu yüzden barındırılan iki blog web sitesinin tüm içeriğini kaybettim:

(Evet, evet, kesinlikle şirket dışı yedeklemeler yapmalıydım . Ne ​​yazık ki, tüm yedeklemelerim sunucunun kendisindeydi. O yüzden dersi kaydet;% 100 kesinlikle haklısın, ama bu şu anda bana yardımcı olmuyor. burada soruya odaklanın!)

Web sitesini web tarayıcısı önbelleklerinden kurtarma işleminin yavaş ve acı bir sürecine başlıyorum.

Warrick gibi bir web sitesini internet örümcek ağından (Yahoo, Bing, Google vb.) Önbellekten kurtarmak için otomatikleştirilmiş birkaç araç var , ancak bunu kullanarak bazı kötü sonuçlar aldım:

  • IP adresim Google’dan kullanması nedeniyle hızla yasaklandı
  • Çok sayıda 500 ve 503 hata alıyorum ve "5 dakika bekliyor ..."
  • Sonuçta, metin içeriğini elle daha hızlı bir şekilde kurtarabilirim

Tüm blog yayınlarının bir listesini kullanarak, Google önbelleğini tıklatarak ve her dosyayı HTML olarak kaydederken çok daha fazla şansım oldu. Çok fazla blog yazısı varken, o kadar da yok, ve daha iyi bir yedekleme stratejisine sahip olamadığım için biraz kendini beğenmeyi hak ettiğimi düşünüyorum. Neyse, önemli olan şu ki, blog yazı metnini bu şekilde alma konusunda iyi şanslar yaşadım ve kesinlikle web sayfalarının metnini İnternet önbelleklerinden çıkarabiliyorum. Şimdiye kadar yaptıklarım temelinde, tüm kayıp blog yazısı metinlerini ve yorumlarını kurtarabileceğime eminim .

Ancak, her blog gönderisiyle birlikte gelen resimler kanıtlanıyor… daha zor.

Web sitesi sayfalarını Internet önbelleklerinden kurtarmak için genel ipuçları ve özellikle arşivlenmiş görüntüleri web sitesi sayfalarından kurtarmak için yerler ?

(Ve yine, lütfen, yedekleme dersi yok. Tamamen, tamamen, tamamen haklısın! Ama haklı olmak, benim acil sorunumu çözmüyor… Bir zaman makinen olmadığı sürece ...)


96
Jeff Atwood gibi biri kendini iki web sitesinin tamamını kaybedebilirse , baskın düştü ... Peki. Kendi yedekleme prosedürlerimi gözden

240
@Phoshi: Jeff, Horing Coding ile ilgili iyi yazı yazdı. Onlara hızlı bir okuma yapmalısın.

34
joshhunt bir (1) internet kazandı. Bu teklif başka tekliflerle birleştirilemez, değiştirilemez veya değiştirilemez. Yağmurluk yok.
Adam Davis,

28
SU'da rep kazanmak için bazı insanların gidecekleri uzunluklar ...

26
Lütfen ne yaptığınızı "yedekleme" olarak atıfta bulunmayın - bu dosyalar aynı sunucudaysa, hiçbir şekilde "yedekleme" yapmazlar.

Yanıtlar:


220

İşte karanlıktaki vahşi bıçağım: web sunucunuzu her resim isteği için 304 döndürecek şekilde yapılandırın, daha sonra bir yere bir URL listesi yayınlayarak ve tüm okuyucularınızdan her URL'yi yükleyip herhangi bir resim toplamasını isteyecek şekilde podcast'i isteyerek kurtarma işlemini kalabalıklaştırın yerel önbelleklerinden yüklenenler. (Bu, yalnızca HTML sayfalarını kendileri geri yükledikten sonra <img ...>, sorunuzun yapabileceğinizi ima ettiği etiketlerle tamamlandıktan sonra çalışabilir .)

Bu temelde "okuyucularınızın web tarayıcısı önbelleklerinden al" demenin harika bir yoludur. Çok sayıda okuyucunuz ve podcast dinleyiciniz olduğundan, web sitenizi yakın zamanda görüntülemiş olabilecek çok sayıda kişiyi etkin bir şekilde harekete geçirebilirsiniz. Ancak, çeşitli web tarayıcılarının önbelleklerinden görüntüleri manuel olarak bulmak ve çıkarmak zordur ve çoğu insanın deneyip başarılı olacağı kadar kolaysa, tüm yaklaşım en iyi şekilde çalışır. Böylece 304 yaklaşımı. Okuyucuların tek istediği bir dizi bağlantıyı tıklamaları ve web tarayıcılarına yüklenen (veya sağ tıklayıp farklı kaydetme vb.) Görüntüleri sürükleyip bırakmaları ve ardından size e-postayla göndermeleri ya da kurduğunuz merkezi konum, ya da her neyse. Bu yaklaşımın ana dezavantajı, web tarayıcı önbelleklerinin zaman içinde geri dönmemesidir. Ancak, son birkaç günde 2006'dan çok eski bir görüntüyü bile kurtarmak için bir gönderi yükleyen tek bir okuyucuyu alır. Yeterince büyük bir kitleyle, her şey mümkün.


52
En yaratıcı yaklaşım için +1. CH'nin çok fazla okuyucusu olduğundan gerçekten işe yarayabilirdi.

16
burada uygulandı? diovo.com/2009/12/…
Jeff Atwood

3
Statik dosyalarınızı resim etiketleri için tarayabilir ve herkesin her bir bağlantıyı tıklatması yerine hepsini bir dev resim sayfasına kopyalayabileceğinizi düşünüyorum. Diovo.com uygulaması çok etkileyici görünüyor, umarım sizin için çalışır.

2
WOW bu kötü bir sihirbazlık olayı ben <3
Ahmad Alfy

4
Aslında, görüntüleri kullanarak canvasAJAX ile eve gönderebilir ve gönderebilirsiniz.
Tomáš Zato

65

Bazılarımız sizi bir RSS okuyucu ile takip ediyor ve önbellekleri temizlemiyor. 2006’ya geri dönecek gibi görünen blog yayınlarım var. Gördüğümden hiçbir resim yok, ancak şimdi yaptığınızdan daha iyi olabilir.


Kesinlikle +1. Google Reader bunu yapmıyor, ancak ben bir masaüstü tabanlı bir iddiaya girerim.

2
Ayrıca insanlardan tarayıcı önbelleklerini kontrol etmelerini isteyebilirsiniz. Kodlama Korku retro tarzını görenler önbellekte saklanmış bazı görüntülere sahip olabilir.

GReader’da 2005’e geri blog yazılarım var, ancak ne yazık ki, imgeleri yok ve bunları bir dizi sayfa olarak dışa aktarmama izin vermiyorlar ... Onları size e-postayla gönderebilirim, Jeff. ..
Glen Solsberry

Evet, ima edildi "Eğer istersen, sana elimde olanı gönderirim." Benim cevabımda da.

3
Çok fazla RSS okuyucusu görüntülerin asla ölmeyeceğini varsayar. Benim yaptığımı biliyorum :(

62

(1) Tüm eksik görüntülerin dosya adlarının bir listesini HTML yedeklerinden çıkarın. Gibi bir şey ile kalacaksınız:

  • kal-puft-hatmi man.jpg
  • internet özellikleri-dialog.png
  • yahoo-anasayfa-Small.png
  • şifre show-animated.gif
  • tivo2.jpg
  • Michael-Abrash grafik programı

(2) Bu dosya adları için bir Google Görsel Arama yapın. Görünüşe bakılırsa, diğer blogcular tarafından “yansıtılmış” olan MANY , aynı dosya adına sahip oldukları için alma konusunda olgunlaşmıştır .

(3) Örneğin 10'dan fazla görüntü için başarılı olduğunu kanıtlarsa bunu otomatik olarak yapabilirsiniz.


Gerçekten böyle bir görüntü elde ederse çok ironik olur.
Hashim

51

Giderek, Google Görsel arama ve yazarak site:codinghorror.comen azından tüm resimlerinizin bir minyatür versiyonlarını bulabilirsiniz. Hayır, mutlaka yardımcı olmuyor, ancak bu binlerce görüntüyü almak için size bir başlangıç ​​noktası veriyor.

Codinghorror görüntüleri

Google bazı durumlarda daha büyük bir küçük resim saklar gibi görünmektedir:

Google ve Bing

Google solda, Bing sağda.


2
evet, en kötü durum, Google’ın küçük resimlerini büyütmek zorunda kalacağız. Bing'in daha büyük küçük resimleri sakladığını duydum
Jeff Atwood

Bilmiyorum; Ben bing tür bir adam değilim. Google’ın yaptığı gibi Görsel arama yapıp yapmadıklarını bile bilmiyorum. Dediğim yazıyı bulacağım ve güncelleyeceğim.
George Stocker

18
Bu sen misin bilemiyorum. Ancak Imageshack, blog resimlerinizin çoğuna sahip görünüyor. profile.imageshack.us/user/codinghorror
Nick Berardi

Tam boy 456 imge gibi görünüyorlar. Her şeyi kurtarmak için en iyi bahis bu olabilir. Belki sana bir çöplük bile sağlayabilirler.
Nick Berardi

28
Google küçük resimlerini başlangıç ​​olarak kullanın, ardından bir kopyasına sahip olup olmadığını görmek için tineye.com'u kullanın.
sep332

40

Bloglar için duyduğuma üzüldüm. Ders vermeyeceğim. Fakat Imageshack'teki resimlerin gibi görünen şeyleri buldum. Gerçekten sizin mi, yoksa birileri etraflarında bir kopyasını saklıyor mu?

http://profile.imageshack.us/user/codinghorror

Tam boy 456 imge gibi görünüyorlar. Her şeyi kurtarmak için en iyi bahis bu olabilir. Belki sana bir çöplük bile sağlayabilirler.


37

Jeff, senin için buraya bir şey yazdım

Kısacası size önerdiğim şey:

  1. Web sunucusunu, her görüntü isteği için 304 döndürecek şekilde yapılandırın. 304, dosyanın değiştirilmediği ve bu, tarayıcının dosyayı varsa önbelleğinden alacağı anlamına gelir. (kredi: bu Süper Kullanıcı cevabı )

  2. Web sitesindeki her sayfada, görüntü verilerini yakalamak ve sunucuya göndermek için küçük bir komut dosyası ekleyin.

  3. Görüntü verilerini sunucuya kaydedin.

  4. İşte bu kadar!

Komut dosyalarını verilen linkten alabilirsiniz.


Süper Kullanıcı cevabı bağlantılı değil.
Nathaniel,

@Nathaniel: FIXED
alexanderpas

28

Wayback Makinesi'nde bu sorguyu deneyin :

http://web.archive.org/web/*sa_re_im_/http://codinghorror.com/*

Bu, size archive.org tarafından arşivlenen codinghorror.com adresinden gelen tüm görüntüleri sağlayacaktır. Bu, bazıları kopya olan 3878 görüntüyü döndürür. Tamamlanmış olmayacak, ama iyi bir başlangıç ​​daha az değil.

Kalan görüntüler için, bir arama motoru önbelleğindeki küçük resimleri kullanabilir ve ardından bunları http://www.tineye.com/ adresinde kullanarak geriye doğru bakabilirsiniz . Küçük resim görüntüsünü verirsiniz ve size web üzerinde bulunan görüntülerle yakından eşleşen bir önizleme ve işaretçi verir.


1
şimdi bir 404 döndürür?
rogerdpack

Wayback Machine'den otomatik olarak bir yedekleme almak için bir araç yaptım: github.com/hartator/wayback-machine-downloader
Hartator

26

ddÖneri üzerine +1 (1) işlenmemiş disk bir yerde mevcutsa; ve (2) görüntüler basit dosyalardı. Ardından, JPG / PNG / GIF gibi görünen tüm güvenilir aralıkları (örneğin) çıkarmak için adli bir 'veri oyma' aracı kullanabilirsiniz. Bu şekilde silinen bir iPhone'daki fotoğrafların% 95'ini + kurtardım.

Açık kaynak araçları 'her şeyden önce' ve onun ardılı 'neşter' bunun için kullanılabilir:

http://foremost.sourceforge.net/

http://www.digitalforensicssolutions.com/Scalpel/


2
Photorec, DD görüntüleri aldığınızda da kullanılabilir.

Her şeyden önce Fedora üzerinde yum üzerinden ulaşılabilir

26

Neyse ki, gelecek nesiller iyi olacak.

Bilim adamları / dilbilimciler bu büyük kayanın sadece bir kısmıyla bile çok şey keşfettiler.

Rosetta Taşı

Birkaç resim eksikse, birkaç bin yıl içinde anlaması için bir başkasına bırakın.

Umarım, biraz gülüyorsunuz. :)


5
Tamam, en azından benden bir kıkırdama var ;-)

21

Archive.org'u da her zaman deneyebilirsiniz. Geri bildirim makinesini kullanın. Bunu web sitelerimdeki görüntüleri kurtarmak için kullandım.


3
En azından CodingHorror için çok fazla önbelleğe sahip görünmüyor. Blog.stackoverflow için görüntüleri görüyorum.

İnternet geri dönüş makinesini kullanarak bir web sitesini bir kez daha yaptım, ancak birkaç kez denedim ve çok fazla siteyi arşivlemiyor ...
djangofan

2004'e geri dönüyor gibi görünüyor burada web.archive.org/web * / codinghorror.com

Şükürler olsun ki bir robots.txt dosyası yoktu. :)
Synetech


14

Uzun bir atış, ama şunları düşünebilirsiniz:

  • Eksik olan resmin tam listesini gönderme
  • tüm okuyucularınızın internet önbellekleri aracılığıyla geri alım sürecini kalabalıklaştırıyor.

Örneğin, Nirsoft Mozilla Cache Görüntüleyicisine bakın :

alt metin
(kaynak: nirsoft.net )

Basit bir komut satırıyla sahip olabilecek herhangi bir "blog.stackoverflow.com" resmini hızla kazabilir:

MozillaCacheView.exe -folder "C:\Documents and Settings\Administrator\Local Settings\Application Data\Mozilla\Firefox\Profiles\acf2c3u2.default\Cache" 
/copycache "http://blog.stackoverflow.com" "image" /CopyFilesFolder "c:\temp\blogso" /UseWebSiteDirStructure 0

Not: Chrome için aynı önbellek gezginine sahipler .

alt metin
(kaynak: nirsoft.net )

(15 günlük blog.stackoverflow.com fotoğraflarına değer vermem gerekiyor)

Ve Internet Explorer veya Opera .


Ardından, okuyucuların önbellekte bulduklarını bildirmek için genel listeyi güncelleyin.


12

Geçmişte http://www.archive.org/ önbelleğe alınmış görüntüleri almak için kullandım. Bir nevi isabet görmüş ya da özledim ama benim için çalıştı.
Ayrıca, eski bir sitede kullandığım stok fotoğrafları kurtarmaya çalışırken, www.tineye.com yalnızca küçük resimlerim olduğunda ve tam boyutlu resimlere ihtiyacım olduğunda harika.

Umarım bu sana yardımcı olur. İyi şanslar.


Codinghorror.com görüntüleri için archive.org 'u birkaç dakika önce inceledim ve tıkladığım birkaç mesajın gösterilmesi yoktu.
George Stocker

Archive.org, verileri ilk dizine ekledikten aylar sonra yayınlar.
Christian

10

Bu muhtemelen en kolay veya en tam çözüm değildir, ancak Evernote gibi hizmetler genellikle uygulama içinde depolandıklarında hem metni hem de görüntüleri kaydederler. ?


10

Archive.org ile ilgili harika deneyimlerim oldu . Tüm blog yayınlarınızı siteden çıkaramasanız bile , düzenli olarak anlık görüntüler tutar:

alt metin

Bu şekilde her sayfayı kontrol edebilir ve yaptığınız blog yazılarını görebilirsiniz. Tüm yayınların adları ile eğer archive.org yoksa, onları Google'ın önbelleğinde kolayca bulabilirsiniz. Arşiv, görüntü tutmaya çalışır, Google önbelleği görüntülere sahip olur ve yakın zamanda önbelleğimi boşaltmadım, bu yüzden daha yeni blog gönderilerinde size yardımcı olabilirim :)


Bir süre önce çalıştığım bir şirketin web sitesinden veri almaya çalıştım. Metin için iyi, görüntüler için daha az. Fakat YMMV
ChrisF

Google Web önbellek yok inan değil görüntüleri saklayın.
Nathaniel,



7

Yaklaşık beş yıl önce, tüm dijital fotoğraflarımı sakladığım harici bir sabit sürücünün enkarnasyonu kötü bir şekilde başarısız oldu. Sabit diskin bir görüntüsünü kullanarak ddJPEG görüntüsüne benzeyen herhangi bir şeyi kurtarmak için ilkel bir araç kullandım. Fotoğraflarımın çoğunu çıkardım.

Öyleyse asıl soru, görüntüleri tutan sanal makine disk görüntüsünün bir kopyasını alabilir misiniz?



7

Archive.org ve [Tor] [2] gibi bir istek anonimleştiricisinin kombinasyonunu öneririm. Anonimleştiriciyi kullanmanızı öneririm, çünkü bu şekilde isteklerinizin her biri rastgele bir IP ve konuma sahip olacak ve bu şekilde çok fazla sayıda istek için bir archive.org (Google gibi) tarafından yasaklanmayı önleyebilirsiniz.

İyi Şanslar, bu blogda bir sürü mücevher var.


Jeff'in archive.org'a bağış yapmak istediği için, anonimleştiriciyi kötüye kullanmak kesinlikle kabul edilemez olmayabilir. Ama yine de sana bunun için bir tekme vermek istiyorum. : - |

6

Wayback makine bazı olacaktır. Google önbelleği ve benzeri önbelleklerin bazıları olacaktır.

Yapabileceğiniz en etkili şeylerden biri, asıl posterleri e-postayla göndererek yardım istemektir.

Aslında bazı altyapı önerileri var, çünkü bunların hepsi temizlendikten sonra. Temel sorun aslında yedekler değil, site çoğaltması ve denetim eksikliği. Özel e-posta alanının içeriğinde bana e-posta gönderirseniz, daha sonra ayağa kalktığınızda, konuyu sizinle görüşmek isterim.


6

Resimleriniz Flickr veya CDN gibi harici bir serviste saklandıysa (podcast'larınızdan birinde belirtildiği gibi), yine de oradaki resim kaynaklarına sahip olabilirsiniz.

Resimlerden bazıları Google Görseller’de arama yaparak bulunabilir ve "Benzer görselleri bul" u tıklayabilir , belki başka sitelerde de kopyalar vardır.


5

archive.org bazen görüntüleri gizler. Her URL'yi manuel olarak alın (veya kısa bir komut dosyası yazın) ve bu şekilde sorgulayın:

string.Format ("GET / * / {0}", nextUri)

Tabii ki aramak için bir acı olacak.

Tarayıcı önbelleğimde bir miktar olabilir. Eğer yaparsam onları bir yerde barındırırım.


4

Kullanıcıların önbelleklerini kazımaya çalışmayı umuyorsanız, sunucuyu 304 Not Modified, tarayıcıların kullandığı tüm koşullu GET ('If-Modified-Since' veya 'If-None-Match') isteklerine yanıt verecek şekilde ayarlamak isteyebilirsiniz . önbelleğe alınmış materyallerini yeniden doğrulayın.

Görüntüler gibi statik içerikteki ilk önbelleğe alma başlıklarınız oldukça liberalse - şeylerin günlerce veya aylarca önbelleğe alınmasına izin veriyorsa - bir süre için yeniden doğrulama istekleri almaya devam edebilirsiniz. Bu isteklere bir çerez ayarlayın ve bu kullanıcılara, sahip oldukları görüntüleri ayıklamak için önbelleklerine karşı bir komut dosyası çalıştırmalarını söyleyin.

Yine de dikkat edin: Herhangi bir metin içeriğini henüz mevcut olmayan satır içi kaynaklarla hazırlamaya başladığınız anda, yeniden önleyiciler 404'lere çarptığında önbelleğe alınmış sürümleri siliyor olabilirsiniz.



4

Açıkça görülme riski altında , görüntüler için kendi bilgisayarınızın yedeklerini çıkarmaya çalışın . Yedekleme stratejimin, harici sürücülerde, yanık disklerde ve zip / tar dosyalarında takılan çok sayıda dosyanın birden fazla kopyasına sahip olduğum için yeterince tehlikeli olduğunu biliyorum. İyi şanslar!


4

Bu dosyaları Snow Leopard'daki Safari önbelleğimden kurtarmayı başardım:

bad-code-offset-back.jpg
bad-code-offset-front.jpg
code-whitespace-invisible.png
code-whitespace-visible.png
coding-horror-official-logo-small.png
coding-horror-text.png
codinghorror-search-logo1.png
crucial-ssd-128gb-ct128m225.jpg
google-microformat-results-forum.png
google-microformat-results-review.png
kraken-cthulhu.jpg
mail.png
powered-by-crystaltech-web-hosting.png
ssd-vs-magnetic-graph.png

Başkasının denemek istiyor, ben ~ / codinghorror / dosya adı, onları ayıklamak için bir Python komut dosyası yazdık burada çevrimiçi koyduk .

Umarım bu yardımcı olur.


3

Barındırma sağlayıcınızın herhangi bir yedeğinin olup olmadığını görme şansınız oldu mu (bazı eski sürümler)?


iyi görünmüyor .. yedekleme programları sanal makine sabit sürücü dosyalarını yedekleyemedi, bu nedenle hiçbir yedekleme yok.
Jeff Atwood

2

Bu veriler sizin için değer nedir? Önemli bir miktar (binlerce dolar) tutarsa, barındırma sağlayıcınızdan web sitenizin verilerini depolamak için kullanılan sabit sürücüden (donanım arızası nedeniyle veri kaybı olması durumunda) isteyin. Daha sonra sürücüyü ne çıkarabileceğinizi görmek için sürücüyü izlemeye veya başka bir veri kurtarma servisine götürebilirsiniz. Bu, sürücüdeki diğer kişilerin de kurtarılmamış verilerinin olasılığı nedeniyle pazarlık yapmakta zor olabilir, ancak gerçekten umursuyorsanız, muhtemelen çalışabilirsiniz.


Sunucu bildiğim kadarıyla bir VM idi.
splattne

1
@ splattne öyle olsa bile, bir çok verinin kurtarılması için sıfır olmayan bir şans var.

Son derece uzmanlaşmış bir hizmet olması gerekirdi.

2

Bunu duyduğuma çok üzüldüm ve size çok kızgınım ve zamanlama - Gönderilerinizden birkaçının çevrimdışı bir kopyasını almak istedim ve tüm sitenize HTTrack yaptım ancak dışarı çıkmak zorunda kaldım (bu birkaç hafta önceydi) ve Onu durdurdum.

Eğer ana bilgisayar yarıya iniyorsa - ve aslında, iyi bir müşteri olduğunuzu tahmin ediyorum ... onlardan size sabit diskleri göndermelerini (tahmin ediyorum ki RAID kullanmaları gerektiğini tahmin ediyorum) ya da bir miktar kurtarma yapmalarını isterim.

Bu hızlı bir süreç olmasa da, bunu bir müşteri için bir ana bilgisayarla yaptım ve tüm veritabanlarını sağlam bir şekilde kurtarabildim (... temelde, ana bilgisayar kullandıkları kontrol paneli için bir yükseltme denedi ve bozdu .. ama hiçbir şeyin üzerine yazılmadı).

Ne olursa olsun - SO sitelerinde tüm hayranlarınızdan iyi şanslar!

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.