Bir siteden URL'lerin listesini alın [kapatıldı]


100

Bir müşteri için yeni bir site kuruyorum, ancak tüm eski sayfalarının 404'lerde bitmesini istemiyorlar. İğrenç olduğu için eski URL yapısını korumak mümkün değildi.

Bu yüzden, istenen eski bir sayfayı araması ve yeni sayfaya kalıcı bir yönlendirme yapması gereken bir 404 işleyici yazıyorum. Sorun şu ki, tüm eski sayfa URL'lerinin listesine ihtiyacım var.

Bunu manuel olarak yapabilirdim, ancak bana göreceli bir liste (örneğin: / sayfa / yol, http: /.../ sayfa / yol değil) ana sayfaya verilen URL'lerin listesini sağlayacak herhangi bir uygulama varsa ilgilenirim sayfa. Örümcek gibi ama daha derin sayfaları bulmaktan başka içeriği umursamayan biri.


Yanıtlar:


69

Kendi sorumu cevaplamak istemedim ama bir site haritası oluşturucu çalıştırmayı düşündüm. İlk bulduğum http://www.xml-sitemaps.com güzel bir metin çıktısına sahip. İhtiyaçlarım için mükemmel.


Ancak 5000 bağlantı sınırı var! .. :( Herhangi bir ücretsiz php site haritası oluşturucu komut dosyası arıyorum.
Jenson M John 13

14
Akım sınırı 500 - küçülüyor…
Oli Studholme

Benim için hata verdi: ::::::: Bir hata oluştu Belirtilen URL'ye erişirken bir hata oluştu: 159.121.ssss Lütfen doğru web sitesi URL'sini belirttiğinizden ve isteğinizi yeniden gönderdiğinizden emin olun.
JustJohn

Bilginize: Ön uç yönlendirmeyi kullanıyorsanız, bu yöntemden bu yolları alamazsınız.
jasonleonhard

Bilginize: Web sitesi kimlik doğrulama ve / veya yetkilendirme kullanıyorsa, tüm yolları da alamazsınız.
jasonleonhard

48

yapmak wget -r -l0 www.oldsite.com

O zaman find www.oldsite.comtüm url'leri ortaya çıkaracağına inanıyorum.

Alternatif olarak, her 404 istekte o özel bulunamadı sayfayı sunmanız yeterlidir! Yani birisi yanlış bağlantıyı kullanırsa, o sayfanın bulunamadığını söyleyen sayfayı alır ve sitenin içeriği hakkında bazı ipuçları verir.


16
Özellikle, bu URL'lerin değil dosyaların bir listesini döndürdüğünden , bu yalnızca statik HTML dosyalarının koleksiyonları olan siteler için gerçekten işe yarayacaktır. Sitede URL sorgu parametreleri, sunucu tarafında yeniden yazılmış URL'ler veya herhangi bir tür include/ require/ vb. sayfaların bir araya getirilmesi, bu gerçekten işe yaramayacaktır.
TJ Schuck

Wget'i yanlış anlıyor olabilirim. 'Wget'in sitenin içeriğini indirmek için olduğunu düşündüm.
Cosmic Hawk

@Doomsy evet, ancak tüm içeriği indirdiğinizde, bu içeriğin tüm URL'lerini kesinlikle bilirsiniz ve indirmeden URL'leri bulmanın bir yolu yoktur.
alamar

1
Varsayılan derinliği düşünün. gnu.org/software/wget/manual/html_node/…
PJ Brunet

1
@alamar Evet, sonsuz özyineleme için "-r -l inf" var, ancak insanlara belgelere bakmalarını öneririm - pek çok harika seçenek! "-M" seçeneği yansıtılacak ve ben "-R.jpg, .jpeg, .gif, .png" yi deneyeceğim ve sanırım resimleri atlıyor.
PJ Brunet

24

Site haritası oluşturucuların bir listesi (bir siteden açıkça URL'lerin listesini alabilirsiniz): http://code.google.com/p/sitemap-generators/wiki/SitemapGenerators

Web Site Haritası Oluşturucuları

Aşağıdakiler, sitemaps.org'da tanımlanan ve Ask, Google, Microsoft Live Search ve Yahoo! Gibi arama motorları tarafından desteklenen açık bir standart olan XML Site Haritaları biçiminde dosya oluşturan veya muhafaza eden araçlara bağlantılardır. Site haritası dosyaları genellikle bir web sitesindeki bir dizi URL'nin yanı sıra bu URL'ler için bazı meta verileri içerir. Aşağıdaki araçlar genellikle "web türü" XML Site Haritası ve URL listesi dosyaları oluşturur (bazıları diğer biçimleri de destekleyebilir).

Lütfen Dikkat: Google, bu sitede listelenen üçüncü taraf yazılımların özelliklerini veya güvenliğini test etmemiş veya doğrulamamıştır. Lütfen yazılımla ilgili her türlü soruyu yazılımın yazarına yönlendirin. Bu araçları beğeneceğinizi umuyoruz!

Sunucu Tarafı Programlar

  • Enarion phpSitemapsNG (PHP)
  • Google Site Haritası Oluşturucu (Linux / Windows, 32 / 64bit, açık kaynak)
  • Outil en PHP (Fransızca, PHP)
  • Perl Site Haritası Oluşturucu (Perl)
  • Python Site Haritası Oluşturucu (Python)
  • Basit Site Haritaları (PHP)
  • SiteMap XML Dinamik Site Haritası Oluşturucu (PHP) $
  • OS / 2 için site haritası oluşturucu (REXX-script)
  • XML Site Haritası Oluşturucu (PHP) $

CMS ve Diğer Eklentiler:

  • ASP.NET - Sitemaps.Net
  • DotClear (İspanyolca)
  • DotClear (2)
  • Drupal
  • E-Ticaret Şablonları (PHP) $
  • E-ticaret Şablonları (PHP veya ASP) $
  • LifeType
  • MediaWiki Site Haritası oluşturucu
  • mnoGoSearch
  • İşletim Sistemi Ticareti
  • phpWebSite
  • Plone
  • RapidWeaver
  • Metin düzeni
  • vBulletin
  • Wikka Wiki (PHP)
  • WordPress

İndirilebilir Araçlar

  • GSiteCrawler (Windows)
  • GWebCrawler ve Site Haritası Oluşturucu (Windows)
  • G-Mapper (Windows)
  • Inspyder Site Haritası Oluşturucu (Windows) $
  • IntelliMapper (Windows) $
  • Microsys A1 Site Haritası Oluşturucu (Windows) $
  • Rage Google Site Haritası Automator $ (OS-X)
  • Screaming Frog SEO Spider ve Site Haritası oluşturucu (Windows / Mac)
  • Site Haritası Pro (Windows) $
  • Site Haritası Yazıcısı (Windows) $
  • DevIntelligence tarafından hazırlanan Site Haritası Oluşturucu (Windows)
  • Sorrowmans Site Haritası Araçları (Windows)
  • TheSiteMapper (Windows) $
  • Vigos Gsitemap (Windows)
  • Visual SEO Studio (Windows)
  • WebDesignPros Site Haritası Oluşturucu (Java Webstart Uygulaması)
  • Weblight (Windows / Mac) $
  • WonderWebWare Site Haritası Oluşturucu (Windows)

Çevrimiçi Jeneratörler / Hizmetler

  • AuditMyPc.com Site Haritası Oluşturucu
  • AutoMapIt
  • Otomatik site haritası $
  • Enarion phpSitemapsNG
  • Ücretsiz Site Haritası Oluşturucu
  • Neuroticweb.com Site Haritası Oluşturucu
  • ROR Site Haritası Oluşturucu
  • ScriptSocket Site Haritası Oluşturucu
  • SeoUtility Site Haritası Oluşturucu (İtalyanca)
  • Site haritasıDoc
  • Site haritası
  • Site haritasıGönder
  • Akıllı BT Danışmanlığı Google Site Haritaları XML Doğrulayıcısı
  • XML Site Haritası Oluşturucu
  • XML Site Haritaları Oluşturucu

Entegre Site Haritası oluşturuculara sahip CMS

  • Beton5

Google Haberler Site Haritası Oluşturucuları Aşağıdaki eklentiler, yayıncıların, sitemaps.org protokolünün Yardım Merkezimizde açıkladığımız bir çeşidi olan Google Haberler Site Haritası dosyalarını güncellemelerine olanak tanır. Google Haberler Site Haritaları, Site Haritası dosyalarının normal özelliklerine ek olarak, yayıncıların, tek tek makaleler için erişim düzeylerini belirlemenin yanı sıra, yayınladıkları içerik türlerini açıklamalarına da olanak tanır. Google Haberler hakkında daha fazla bilgiyi Yardım Merkezimizde ve Yardım Forumlarımızda bulabilirsiniz.

  • WordPress Google Haberler eklentisi

Kod Parçacıkları / Kitaplıkları

  • ASP komut dosyası
  • Emacs Lisp komut dosyası
  • Java kitaplığı
  • Perl betiği
  • PHP sınıfı
  • PHP oluşturucu komut dosyası

Bir aracın meşru bir nedenle eklenmesi veya kaldırılması gerektiğine inanıyorsanız, lütfen Web Yöneticisi Yardım Forumu'na bir yorum bırakın.


Tüm url'den bir baskı ekranı sağlayan kimse var mı?
ValRob

6

Bulduğum en iyi şey , Java kullanan ve sayfalarda sınırı olmayan ve hatta sonuçları ham URL listesi olarak dışa aktarmanıza izin veren http://www.auditmypc.com/xml-sitemap.asp .

Ayrıca oturumları da kullanır, bu nedenle bir CMS kullanıyorsanız, taramayı çalıştırmadan önce oturumu kapattığınızdan emin olun.


3
kulağa hoş geliyordu, ama bozuk.
NoobishPro

2

Dolayısıyla, ideal bir dünyada sitenizdeki tüm sayfalar için bir spesifikasyonunuz olur. Ayrıca test etmek için tüm sayfalarınızı vurabilecek bir test altyapınız da olacaktır.

Muhtemelen ideal bir dünyada değilsiniz. Bunu neden yapmıyorsun ...?

  1. İyi bilinen eski URL'ler ile yenileri arasında bir eşleme oluşturun. Eski bir URL gördüğünüzde yeniden yönlendirin. Muhtemelen "bu sayfa taşındı, yeni url'si XXX, kısa süre içinde yeniden yönlendirileceksiniz" şeklinde bir sunum yapmayı düşünebilirim.

  2. Eşleştirmeniz yoksa, "üzgünüm - bu sayfa taşındı. İşte ana sayfanın bağlantısı" mesajını sunun ve isterseniz onları yeniden yönlendirin.

  3. Tüm yönlendirmeleri günlüğe kaydedin - özellikle eşleme içermeyenleri. Zamanla, önemli olan sayfalar için eşlemeler ekleyin.



0

Diskten her html'de okuyan ve bir "a" öğesinin her "href" özniteliğini çıkaran bir örümcek yazın (bir çözümleyici ile yapılabilir). Hangi bağlantıların belirli bir sayfaya ait olduğunu unutmayın (bu, MultiMap veri yapısı için ortak bir görevdir). Bundan sonra, 404 işleyicisi için girdi görevi gören bir eşleme dosyası oluşturabilirsiniz.


0

Herhangi bir sayıda çevrimiçi site haritası oluşturma aracına bakardım. Şahsen ben kullandım bu bir geçmişte (tabanlı java), ancak eminim "site haritası oluşturucu" için bir google araması yaparsanız farklı seçenekler sürü bulabilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.