Robots.txt: Hiçbir yere bağlı olmayan bir sayfaya izin vermem gerekir mi?

12

Web sitemde kullanıcının yalnızca URL'sini verirsem ziyaret edebilmesini istediğim bazı sayfalar var.

Tek sayfaları robots.txtiçeri almazsam, bu sayfalara bakan herkes tarafından görülebilir.

Sorum şu: Onları herhangi bir yerden veya en azından dizine eklenmiş bir sayfadan bağlamazsam, tarayıcılar tarafından yine de bir şekilde erişilebilir mi?

robots.txt

— martjno
kaynak

11

Sayfanın SERP'lerde hiç görünmesini istemiyorsunuz ...

Robots.txt dosyasında izin vermeyin. Bunun yerine sayfalarınıza noindex meta etiketi (veya X-Robots-Tag HTTP üstbilgisi) ekleyin.

J0k'nin önerdiği gibi, sayfalarınız bir şekilde bulunabilir. İstatistik raporları, dizin listeleri vb.

Robots.txt dosyasında izin verilmemesi sayfanın taranmasını önler, ancak yine de dizine eklenebilir ve SERP'lerde yalnızca URL bağlantısı olarak görünebilir. Gibi bir şey:

Google SERP'lerinde yalnızca URL bağlantısı

Bir noindex meta etiketi, sayfanın SERP'lerde görünmesini engeller - ancak Google, noindex meta etiketini görmek için sayfayı tarayabilmelidir - bu nedenle robots.txt dosyasında izin verilmez!

Sayfada herkese açık olmaması gereken bir şey varsa , sayfalar bir tür kimlik doğrulamasının arkasında olmalıdır.

— Bay Beyaz
kaynak

Akılda tutulması gereken bir şey, bu gerçekten gizli bir şeyse, onu bir URL ile "gizlemek" seçtiğiniz yöntemden bağımsız olarak kötü bir uygulamadır. Böyle bir durumda doğru kimlik doğrulamasının kullanılması gerçekten önemlidir.

— John Mueller

1

Ayrıca, sosyal medya düğmeleri (Beğen / Paylaş / + 1 / çeşitli yer işaretleri) da içeriği getirir ve URL'nin üzerinde noindex olsa (veya robotlar tarafından izin verilmemiş olsa bile) URL, başlık ve snippet'i herkese açık bir şekilde görüntüleyebilir .Txt). Bunu önlemenin tek yolu kimlik doğrulaması kullanmaktır.

— John Mueller

2

Bence robots.txt dosyasını okuyan ve yönergeleri izleyen iyi bir tarayıcınız var. Ve direktiflere uymayan bir diğeri.

Ve bu url'yi nasıl vermeyi planlıyorsunuz? E-posta ile, Facebook veya Twitter mı kullanıyorsunuz? Bu hizmetlerin tümü gönderdiğiniz bilgileri tarar. Gmail, reklam sağlamak için aldığınız e-postaları ayrıştırır. Böylece, URL'niz bir şekilde taranacaktır.

Bazı kullanıcılar Google Araç Çubuğu'nu (veya arama motorundan başka herhangi bir araç çubuğunu) kullanır. Araç çubuğunun ziyaret ettiğiniz tüm URL'leri Google'a göndermesine izin veren bir seçenek (iyi hatırlıyorsam varsayılan olarak işaretlidir) vardır. Bu, Google'ın gizli web'i görmesinin başka bir yoludur. Bu nedenle, kişiye URL'yi paylaşmamasını söylemiş olsanız bile, dolaylı olarak (araç çubuğu sayesinde) olacaktır.

Sanırım başka birçok olasılık bulabiliriz.

~~Bu yüzden robots.txt dosyasına ekleyebilir, ancak noindex, nofollow vb. Gibi ekstra meta da sağlayabilirsiniz.~~

Düzenle:

w3d'nin robots.txt ile ilgili önerisi bana iyi geliyor. Bu yüzden robots.txt dosyasına eklemeyin ve propre meta etiketi sağlayın.

— J0K
kaynak

Onları e-posta ile bağlıyorum. Evet, uygun meta sağlamayı planlıyordum. Yani önerileriniz robotlara eklemek mi değil mi? Teşekkürler

— martjno

Bunu robots.txt dosyasına eklemenizi tavsiye ederim. Ama w3d'nin önerisi fikrimi değiştirdi. Eklemeyin, ancak uygun meta etiketi sağlayın.

— j0k

0

Yukarıdaki yorumlara ek olarak, HTACCESS kimlik doğrulamasını da asgari düzeyde takdir ediyorum - böylece kişilere sayfaları görme hakları süresince bir kullanıcı adı / şifre kombinasyonu verebilirsiniz.

Gizlilik sorunları olan bir şey varsa, uygun bir giriş kontrol komut dosyası düşünmeniz gerekir.

Korumasız bir sayfa (ne kadar gizli olduğunu düşündüğünüz önemli değil), onu vahşi hale getirecektir.

— Andrew
kaynak