XML Site Haritamı rakiplerden nasıl gizlerim ama arama motorlarından nasıl gizlerim?


10

Site haritası XML dosyamı arama motorlarından erişime izin vermek dışında herkesten gizlemek istiyorum.

Bunu yapmanın yolu nedir?

Sitenin içeriğinin derinliğini rakiplerden gizlemek istiyorum.


1
Site ve sayfaları kullanıcı ve şifre ile korunmuyorsa, herhangi bir site onlara göz atabilir, sadece kendi sitenizdeki bağlantıları takip etmeleri gerekir.
PatomaS

Google bot'un IP'sini kontrol edebilir ve başkaları için izin verebilir ve reddedebilirim. Yine de Googlebot'un tam IP listesini alamıyoruz.
AgA

Yanıtlar:


9

İlk adım, izin vermek istediğiniz botların Kullanıcı-Aracısını tespit etmek ve izin vermek istediğiniz bir Kullanıcı-Aracı değilse farklı bir dosya sunmak olacaktır.

Örneğin robots.txt, biri site haritasına referansla ve biri site haritasına referans olmadan iki sürümüne sahip olabilirsiniz , böylece rakipleriniz sitenizin içine bakarlarsa site haritasını bulamazlar robots.txt.

Ardından, site haritası URL'nize yapılan ziyaretleri tespit edebilir ve site haritasını yalnızca UA doğru olduğunda sunabilirsiniz. Aksi halde genel bir 404 sayfası sunuyorsanız, rakipleriniz site haritanızın var olduğunu bile bilmeyebilir.

Bununla birlikte, bu noktaya kadar açıklanan tüm önlemler yalnızca muğlaklık yoluyla güvenliktir. Bir User-Agent kolayca aldatılabilir.

Bu nedenle Google , gerçek GoogleBot'u tespit etmek için şunları yapmanızı önerir :

  1. GoogleBot olduğunu iddia eden IP adresi için ters DNS araması yapın.
  2. Ana bilgisayarın bir alt alan adı olup olmadığını kontrol edin googlebot.com..
  3. Alt etki alanı için normal bir DNS araması gerçekleştirin.
  4. Alt alan adının sitenizi tarayan botun IP adresini gösterip göstermediğini kontrol edin.

Özetlersek:

Akış şeması (site haritasının ne zaman gösterileceği)

Microsoft , tarayıcılarını algılamak için aynı prosedürü kullanmanızı önerir .

Bu hile Yahoo! de.

DuckDuckGo için bu IP adresleri listesini kullanabilirsiniz

Not

DNS arama tabanlı örümcek algılamayı kullanıyorsanız 404 hatası kullanmanıza gerek yoktur.

404 hata sayfasını kullanmanın amacı, site haritanızın var olduğunu gizlemektir. Bununla birlikte, yalnızca User-Agentbaşlıklara dayanmayan daha gelişmiş bir teknik kullanıyorsanız, atlamak mümkün olmamalıdır, böylece 403 Forbiddenburada kullanmak için doğru hata kodu gibi farklı bir hata kodu güvenle kullanabilirsiniz .


6

Sorun, (oldukça haklı olarak) içeriğinizin arama motorları tarafından dizine eklenmesini istiyorsanız, bir site gerçekleştiren herkes: arama motorlarından birinde arama yapmak hangi URL'lerin dizine eklendiğini görebilecektir.

Site haritanızı "gizlemek" istiyorsanız, onu "gizli" adda bir URL'ye sahip olabilirsiniz, bu nedenle onu arayan herkes için açık değildir, ancak bir robots.txt dosyasına bir site haritası eklemenin en iyi yöntem olduğunu görmek diğer kişilerin söylediği gibi, bunu arama motorlarının web yöneticisi araçları profillerinden birine yükleyin ve yükleyin, neden bunu yapmanız gerektiğini görmek zor.


Google Web Yöneticisi Araçları / Arama Konsolu durumunda, yüklemeniz bile gerekmez. Yalnızca bir kez gizli bir site haritası URL'si ekleyebilirsiniz ve kullanmaya devam edecektir.
Devabc

4

Düzenli çözüm, iki site haritası oluşturmaktır. Bunlardan ilki rakiplerinizin yararına, ikincisi tercih ettiğiniz arama motorlarının yararınadır. Askeri açıdan, bu ilk site haritası bir suçtur.

'Feint' temel web sitesi yapınızı, ana sayfanızı, bize ulaşın, hakkımızda ana kategorileri içerir. Gerçek anlaşma gibi görünüyor ve umurumda değil belirsiz arama motorlarında harika çalışacaktır. Ayrıca rakipleriniz için de bir faydası olmayacaktır. Bulabilmeleri için dizine eklenmesine izin verin, sitemap.xml gibi bariz bir ad verin.

Şimdi gerçek site haritanızı kodla oluşturun. Buna 'product-information-sitemap.xml' gibi bir ad verin, böylece mantıklı bir addır, ancak aslında şifrenizden tahmin edilmesi daha kolay değildir.

Site haritası klasörü için apache yapılandırmanızda, bu ikinci site haritasına arama motorları tarafından erişilebilecek ancak dizine eklenmeyecek şekilde bir şey yerleştirilmiştir:

<IfModule mod_rewrite.c>
    <Files product-information-sitemap.xml>
        Header set X-Robots-Tag "noindex"
    </Files>
</IfModule>

Şimdi bunu güncel tutmak için kodu oluşturun, resimler için üçüncü bir site haritası düşünün. 'Feint' oluşturmak için gerektiği gibi aşağı doğru püskürtün. Zaman damgalarına da dikkat edin, Google bunlara dikkat eder ve site haritanız büyükse bu önemlidir.

Şimdi, ürün site haritanızı Google'a düzenli olarak göndermek için bir 'cron' işi oluşturun. Crontab girişinize her hafta gerçek site haritanızı göndermek için böyle bir şey ekleyin:

0 0 * * 0 wget www.google.com/webmasters/tools/ping?sitemap=http%3A%2F%2Fwww.example.com%2Fsitemaps%2Fproduct-information-sitemap.xml

URL'nin URL kodlu olduğunu unutmayın.

Ayrıca, boyut bir sorunsa site haritanızı gzip edebilirsiniz, ancak web sunucunuz etkinleştirdiyseniz bu gzip'leri sunmalıdır.

Robots.txt dosyanızın özel bir şey olması gerekmez, site haritalarınıza girişi engellemediği sürece iyi olmalıdır. Gerçekten kullanıcı aracısı dizeleri veya çok karmaşık bir şey dayalı farklı robots.txt dosyaları göndermeye gerek yoktur. Değerli içeriğinizi ek, reklamı yapılmamış bir dosyaya çıkarın ve bir cron işinde Google'a gönderin (botu beklemek yerine). Basit.


0

Bir sitenin yapısının neden bir rakiple ilgili sorunlara neden olabileceğini anlamıyorum?

Site haritasının amacı sayfaların dizine eklenmesini sağlamaktır, böylece kullanıcılar bunları daha kolay bulabilir, bu da bir noktaya kadar sitenizin nasıl düzenlendiğini açıklamak zorundadır:

  • /news/ haber makalelerinizi içerir
  • /forum/ tüm forum tartışmalarının yapıldığı yer

Daha fazla trafik elde etmek ve bilgi sunmak için bunlar dizine eklenebilir.

Dizine sahip olmasını istemediğiniz klasörler

  • Bir sitenin çalışmasına izin veren PHP sınıfları ve işlevleri
  • Site görüntüleri, CSS, JavaScript klasörleri
  • Yönetim Paneli

Ardından, durum buysa, bunlar site haritanızda olmamalıdır. Ayrıca, bunları endekslemeden hariç tutabilirsiniz.


0

İzin vermek istediğiniz botların IP adreslerine sahipseniz:

<Limit GET POST PUT>
order deny,allow
deny from all
allow from 192.168.1.1 # IP 1
allow from 192.168.1.2 # IP 3
allow from 192.168.1.3 # IP 2
</LIMIT>

Kullanıcı aracısı dizesine dayalı olmasını istiyorsanız:

Order Allow,Deny
allow from env=good_bot_1
allow from env=good_bot_2

Google'ın tam IP adresi listesi, Bing gizlidir. Web siteleri tarafından gizleme riski taşıdığı için bunu dünyaya ifşa etmeyeceklerdir.
AgA

Ve bu yüzden 2. olasılığı ekledim :) İsminde çok daha kolay, ama tam bir cevap vermek istedim
Martijn

0

Denemenin bir yolu: Her zamanki bir tarama oturumunda, Google botları robots.txt dosyasına erişir ve ardından site haritası dosyasına gider. Tüm robots.txt porsiyonları için bir çerez girin ve site haritasına yalnızca çerezli kişiler için erişim izni verin. Google botları çerezleri kabul etmediğinde sorun olacaktır. Bunun tersini yapın. Bir kullanıcı robots.txt dışında bir sayfaya eriştiğinde ve çerez içerenler için site haritasına erişimi engellediğinde bir çerez girin. Ayrıca, site haritanıza karıştırılmış bir ad verin, bu zamanla değişir ve tahmin edilemez hale gelir. Rakipleriniz tarayıcılarında çerezleri etkinleştirdiyse, bir arama motorunun izlediği yolu takip etmedikçe site haritasına erişmeleri son derece zor olacaktır.


0

İhtiyacınızı doğru anladığımı varsayıyorum, bu yüzden cevap cesaretini gösteriyorum.

site haritanıza </html>etiketinizden hemen önce bir resim bağlantısı verin . Saydam 1 piksel gif dosyası kullanın:

<a href="sitemap.xml"><img src="transparent.gif" alt="" height="1" width="1" /></a>

Site haritanızın bağlantısını içeren sayfada, ilgili meta etiketinizi ayarlayın:

<meta name="robots" content="{index or noindex},follow">

tüm sayfayı seçmek için Ctrl+ düğmesine bastığınızda görsel durumu kontrol edin A. 1px bağlantısı görünür, sizin için riskli mi?

Evet derseniz, başka bir seçenek olabilir:

  1. site haritanıza bir bağlantı oluşturun: <a href="sitemap.xml">&nbsp;</a>
  2. yazı tipi rengini arka plan rengiyle aynı değiştirme
  3. CSS tekniklerini kullanarak bu bağlantıyı görüntünün arkasına gizleyin

Bu şekilde, normal olmayan bir kullanıcı bağlantınızı fark etmez. Arama motorları bunun farkında olacak. Ancak, sorunuzun doğal doğasının imkansızlığı içerdiğini lütfen unutmayın.

İmkansızlık diyorum çünkü bir kullanıcı Google'da örneğin bu terimlerle arama yaparsa

* site:www.yoursite.com

tüm dünya bağlantıları tıklamaktan nextyorulmuyorsa tüm bağlantılarınızı görebilir.

Umarım bunlar yardımcı olur.


Bu neden başlangıçta normal olarak XML site haritanıza bağlantı vermediğinizde kullanıcıların XML site haritasını bulmasını / erişmesini engeller?
MrWhite

Kendime aynı Q'yu sordum ama soru sahibinin altında kaldığım şey de bu. Sanırım bu bir şekilde onun gereksinimi. Emin değilim :-)
Andre Chenier
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.