Site haritası XML dosyamı arama motorlarından erişime izin vermek dışında herkesten gizlemek istiyorum.
Bunu yapmanın yolu nedir?
Sitenin içeriğinin derinliğini rakiplerden gizlemek istiyorum.
Site haritası XML dosyamı arama motorlarından erişime izin vermek dışında herkesten gizlemek istiyorum.
Bunu yapmanın yolu nedir?
Sitenin içeriğinin derinliğini rakiplerden gizlemek istiyorum.
Yanıtlar:
İlk adım, izin vermek istediğiniz botların Kullanıcı-Aracısını tespit etmek ve izin vermek istediğiniz bir Kullanıcı-Aracı değilse farklı bir dosya sunmak olacaktır.
Örneğin robots.txt
, biri site haritasına referansla ve biri site haritasına referans olmadan iki sürümüne sahip olabilirsiniz , böylece rakipleriniz sitenizin içine bakarlarsa site haritasını bulamazlar robots.txt
.
Ardından, site haritası URL'nize yapılan ziyaretleri tespit edebilir ve site haritasını yalnızca UA doğru olduğunda sunabilirsiniz. Aksi halde genel bir 404 sayfası sunuyorsanız, rakipleriniz site haritanızın var olduğunu bile bilmeyebilir.
Bununla birlikte, bu noktaya kadar açıklanan tüm önlemler yalnızca muğlaklık yoluyla güvenliktir. Bir User-Agent kolayca aldatılabilir.
Bu nedenle Google , gerçek GoogleBot'u tespit etmek için şunları yapmanızı önerir :
googlebot.com.
.Özetlersek:
Microsoft , tarayıcılarını algılamak için aynı prosedürü kullanmanızı önerir .
Bu hile Yahoo! de.
DuckDuckGo için bu IP adresleri listesini kullanabilirsiniz
DNS arama tabanlı örümcek algılamayı kullanıyorsanız 404 hatası kullanmanıza gerek yoktur.
404 hata sayfasını kullanmanın amacı, site haritanızın var olduğunu gizlemektir. Bununla birlikte, yalnızca User-Agent
başlıklara dayanmayan daha gelişmiş bir teknik kullanıyorsanız, atlamak mümkün olmamalıdır, böylece 403 Forbidden
burada kullanmak için doğru hata kodu gibi farklı bir hata kodu güvenle kullanabilirsiniz .
Sorun, (oldukça haklı olarak) içeriğinizin arama motorları tarafından dizine eklenmesini istiyorsanız, bir site gerçekleştiren herkes: arama motorlarından birinde arama yapmak hangi URL'lerin dizine eklendiğini görebilecektir.
Site haritanızı "gizlemek" istiyorsanız, onu "gizli" adda bir URL'ye sahip olabilirsiniz, bu nedenle onu arayan herkes için açık değildir, ancak bir robots.txt dosyasına bir site haritası eklemenin en iyi yöntem olduğunu görmek diğer kişilerin söylediği gibi, bunu arama motorlarının web yöneticisi araçları profillerinden birine yükleyin ve yükleyin, neden bunu yapmanız gerektiğini görmek zor.
Düzenli çözüm, iki site haritası oluşturmaktır. Bunlardan ilki rakiplerinizin yararına, ikincisi tercih ettiğiniz arama motorlarının yararınadır. Askeri açıdan, bu ilk site haritası bir suçtur.
'Feint' temel web sitesi yapınızı, ana sayfanızı, bize ulaşın, hakkımızda ana kategorileri içerir. Gerçek anlaşma gibi görünüyor ve umurumda değil belirsiz arama motorlarında harika çalışacaktır. Ayrıca rakipleriniz için de bir faydası olmayacaktır. Bulabilmeleri için dizine eklenmesine izin verin, sitemap.xml gibi bariz bir ad verin.
Şimdi gerçek site haritanızı kodla oluşturun. Buna 'product-information-sitemap.xml' gibi bir ad verin, böylece mantıklı bir addır, ancak aslında şifrenizden tahmin edilmesi daha kolay değildir.
Site haritası klasörü için apache yapılandırmanızda, bu ikinci site haritasına arama motorları tarafından erişilebilecek ancak dizine eklenmeyecek şekilde bir şey yerleştirilmiştir:
<IfModule mod_rewrite.c>
<Files product-information-sitemap.xml>
Header set X-Robots-Tag "noindex"
</Files>
</IfModule>
Şimdi bunu güncel tutmak için kodu oluşturun, resimler için üçüncü bir site haritası düşünün. 'Feint' oluşturmak için gerektiği gibi aşağı doğru püskürtün. Zaman damgalarına da dikkat edin, Google bunlara dikkat eder ve site haritanız büyükse bu önemlidir.
Şimdi, ürün site haritanızı Google'a düzenli olarak göndermek için bir 'cron' işi oluşturun. Crontab girişinize her hafta gerçek site haritanızı göndermek için böyle bir şey ekleyin:
0 0 * * 0 wget www.google.com/webmasters/tools/ping?sitemap=http%3A%2F%2Fwww.example.com%2Fsitemaps%2Fproduct-information-sitemap.xml
URL'nin URL kodlu olduğunu unutmayın.
Ayrıca, boyut bir sorunsa site haritanızı gzip edebilirsiniz, ancak web sunucunuz etkinleştirdiyseniz bu gzip'leri sunmalıdır.
Robots.txt dosyanızın özel bir şey olması gerekmez, site haritalarınıza girişi engellemediği sürece iyi olmalıdır. Gerçekten kullanıcı aracısı dizeleri veya çok karmaşık bir şey dayalı farklı robots.txt dosyaları göndermeye gerek yoktur. Değerli içeriğinizi ek, reklamı yapılmamış bir dosyaya çıkarın ve bir cron işinde Google'a gönderin (botu beklemek yerine). Basit.
Bir sitenin yapısının neden bir rakiple ilgili sorunlara neden olabileceğini anlamıyorum?
Site haritasının amacı sayfaların dizine eklenmesini sağlamaktır, böylece kullanıcılar bunları daha kolay bulabilir, bu da bir noktaya kadar sitenizin nasıl düzenlendiğini açıklamak zorundadır:
/news/
haber makalelerinizi içerir/forum/
tüm forum tartışmalarının yapıldığı yerDaha fazla trafik elde etmek ve bilgi sunmak için bunlar dizine eklenebilir.
Dizine sahip olmasını istemediğiniz klasörler
Ardından, durum buysa, bunlar site haritanızda olmamalıdır. Ayrıca, bunları endekslemeden hariç tutabilirsiniz.
İzin vermek istediğiniz botların IP adreslerine sahipseniz:
<Limit GET POST PUT>
order deny,allow
deny from all
allow from 192.168.1.1 # IP 1
allow from 192.168.1.2 # IP 3
allow from 192.168.1.3 # IP 2
</LIMIT>
Kullanıcı aracısı dizesine dayalı olmasını istiyorsanız:
Order Allow,Deny
allow from env=good_bot_1
allow from env=good_bot_2
Denemenin bir yolu: Her zamanki bir tarama oturumunda, Google botları robots.txt dosyasına erişir ve ardından site haritası dosyasına gider. Tüm robots.txt porsiyonları için bir çerez girin ve site haritasına yalnızca çerezli kişiler için erişim izni verin. Google botları çerezleri kabul etmediğinde sorun olacaktır. Bunun tersini yapın. Bir kullanıcı robots.txt dışında bir sayfaya eriştiğinde ve çerez içerenler için site haritasına erişimi engellediğinde bir çerez girin. Ayrıca, site haritanıza karıştırılmış bir ad verin, bu zamanla değişir ve tahmin edilemez hale gelir. Rakipleriniz tarayıcılarında çerezleri etkinleştirdiyse, bir arama motorunun izlediği yolu takip etmedikçe site haritasına erişmeleri son derece zor olacaktır.
İhtiyacınızı doğru anladığımı varsayıyorum, bu yüzden cevap cesaretini gösteriyorum.
site haritanıza </html>
etiketinizden hemen önce bir resim bağlantısı verin . Saydam 1 piksel gif dosyası kullanın:
<a href="sitemap.xml"><img src="transparent.gif" alt="" height="1" width="1" /></a>
Site haritanızın bağlantısını içeren sayfada, ilgili meta etiketinizi ayarlayın:
<meta name="robots" content="{index or noindex},follow">
tüm sayfayı seçmek için Ctrl+ düğmesine bastığınızda görsel durumu kontrol edin A. 1px bağlantısı görünür, sizin için riskli mi?
Evet derseniz, başka bir seçenek olabilir:
<a href="sitemap.xml"> </a>
Bu şekilde, normal olmayan bir kullanıcı bağlantınızı fark etmez. Arama motorları bunun farkında olacak. Ancak, sorunuzun doğal doğasının imkansızlığı içerdiğini lütfen unutmayın.
İmkansızlık diyorum çünkü bir kullanıcı Google'da örneğin bu terimlerle arama yaparsa
* site:www.yoursite.com
tüm dünya bağlantıları tıklamaktan next
yorulmuyorsa tüm bağlantılarınızı görebilir.
Umarım bunlar yardımcı olur.