Github Wiki cihazımı arama motorları tarafından nasıl taranabilir hale getirebilirim? robots.txt bunu yasaklıyor gibi görünüyor


9

W3C bağlantı denetleyicisini kullanırken, Github Wiki'imin taranamadığını öğrendim:

https://github.com/aegif/CmisSync/wiki/Getting-started-with-CmisSync-development
Durum: (Yok) robots.txt tarafından yasaklandı

İnsanların bu Wiki'yi arama motorlarında kolayca bulmasını istediğim için bu talihsiz bir durum.

SORU: Github Wiki cihazımı arama motorları tarafından nasıl taranabilir hale getirebilirim?
Yoksa yanılıyorum ve Github'ın robots.txt dosyası gerçekten iyi mi?


1
Cevabın bu benzer sorudakiyle aynı olduğunu düşünüyorum .
John C

Yanıtlar:


9

GitHub robots.txt dosyası , örneğin Googlebot bölümünde wiki sayfalarının taranmasına açıkça izin vermiyor:

User-agent: Googlebot
Allow: /*/*/tree/master
Allow: /*/*/blob/master
...
Disallow: /*/*/wiki/*/*

Bu site çapında robotlar dosyası olduğundan, etrafta dolaşmak yok.

GitHub , wiki'leri "projenizle ilgili uzun biçimli içeriği paylaşmak" için bir yer olarak tanımladığından ilginç bir seçim . Genel wikiler varsayılan olarak herhangi bir kullanıcı tarafından düzenlenebilir olduğundan, belki de spam göndericilere karşı ağır bir korumadır.


0

GitHub wikileri onu destekleyen motorlar tarafından aranabilir. Https://github.com/robots.txt dosyasının ilk iki satırına bakın :

# If you would like to crawl GitHub contact us at support@github.com.
# We also provide an extensive API: https://developer.github.com/

Muhtemelen çeşitli wiki formatlarını vb.

Örneğin, Google'da "openrefine broker protokolü" için arama yapın ve ilk isabet Github projesi wiki'sinin altındaki bir sayfadır.


Hmm, öyleyse Google neden OP'nin wiki'sini değil, Broker-Protocol wiki'sini dizine ekliyor?
Vidar S. Ramdal
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.