Site saldırıya uğradı, + ile başlayan tüm URL'leri Google'dan kaldırmanız gerekiyor, robots.txt kullanılsın mı?


15

robots.txtGooglebotların dizine eklemeyi durdurması için bu tür URL'lerin nasıl engelleneceğini lütfen bize bildirir misiniz ?

http://www.example.com/+rt6s4ayv1e/d112587/ia0g64491218q

Web sitem saldırıya uğradı, ancak hacker Google'da 5000 URL'yi dizine ekledi ve şimdi /+yukarıdaki bağlantıdan başlayarak rastgele oluşturulan bağlantılarda 404 hatası alıyorum .

Bu URL'leri Google Web Yöneticisi Araçları'ndan manuel olarak kaldırmanın dışında hızlı bir yol olup olmadığını merak ediyordum?

Bunu işareti robots.txtile başlayan URL'lerle engelleyebilir miyiz +?


2
+URL yolunda özel (artı) bir şey yoktur , sadece diğerleri gibi bir karakterdir.
MrWhite

Apache'yi (.htaccess'te) robots.txt dosyasının robotların erişimini yasakladığı bir dosyaya veya dizine yönlendirebilirsiniz
Mawg, Monica

@Mawg Bunu yapmanın anlamı nedir?
MrWhite

İyi davranmış robotları dışarıda tutmak için?
Mawg, Monica'yı

2
URL'lerle ilgili sorundan bağımsız olarak, güvenliği ihlal edilmiş bir sunucuyla nasıl başa
Jonas Schäfer

Yanıtlar:


30

Web sitem saldırıya uğradı, ancak kurtarıldı ancak bilgisayar korsanı Google'da 5000 URL'yi dizine ekledi ve şimdi 404 hatası alıyorum

Bir 404, robots.txtbu URL'lerin arama motorlarından (ör. Google) düşmesini istiyorsanız , engelleme tercih edilir . Taramayı engellerseniz URL yine de dizine eklenmeye devam edebilir. ( Dizinlemeyi değil , robots.txtöncelikle taramayı engellediğini unutmayın .)

Bu URL'lerin dizininin kaldırılmasını "hızlandırmak" isterseniz, normal "404 Bulunamadı" yerine "410 Gitti" seçeneğini sunabilirsiniz. Kök .htaccessdosyanızda mod_rewrite (Apache) ile aşağıdakine benzer bir şey yapabilirsiniz :

RewriteEngine On
RewriteRule ^\+ - [G]

14

2. soruya cevap vereceğim.

Bu URL'leri google web yöneticisi araçlarından manuel olarak kaldırmak dışında hızlı bir yol olup olmadığını merak ediyordum?

https://developers.google.com/webmasters/hacked/docs/clean_site

Google, Google Search Console (web yöneticisi araçlarının yeni adı) aracılığıyla kaldırmanın en hızlı yöntem olduğunu açıkça belirtmektedir.

Bilgisayar korsanı tamamen yeni, kullanıcı tarafından görülebilir URL'ler oluşturduysa, Search Console'daki URL'leri Kaldır özelliğini kullanarak bu sayfaların Google arama sonuçlarından daha hızlı bir şekilde kaldırılmasını sağlayabilirsiniz. Bu tamamen isteğe bağlı bir adımdır. Sayfaları silip ardından sunucunuzu bir 404 durum kodu döndürecek şekilde yapılandırırsanız, sayfalar doğal olarak zaman içinde Google'ın dizininden çıkar.

Ancak, bunun bazı durumlar için uygun olmadığını da anlıyorlar:

URL Kaldırma'yı kullanma kararı büyük olasılıkla oluşturulan yeni, istenmeyen sayfaların sayısına (URL'leri Kaldır'a dahil etmek için çok fazla sayfa sıkıntılı olabilir) ve bu sayfaların kullanıcılara neden olabileceği olası zararlara bağlı olacaktır. URL ile gönderilen sayfaların kaldırılmasının arama sonuçlarında görünmesini engellemek için, sayfaların ayrıca istenmeyen / kaldırılan URL'ler için 404 Dosya Bulunamadı yanıtı döndürecek şekilde yapılandırıldığından emin olun.

Bu nedenle robots.txt dosyasında bu sayfaları engelleyebilirsiniz - ancak google tarafından açıklanan düzeltici adımlardan hiçbirini atmıyorsunuzdur.


4
User-Agent: *  
Disallow: /+

ne istersen yapmalısın. Robota, a ile başlayan tüm URL'leri istememesini söyleyecektir +.


2

Gerçekten robots.txt kullanmak istiyorsanız, bu soruya basit bir cevap olacaktır. Ayrıca ben robots.txt özellikleri okuyabilirsiniz bir bağlantı dahil.

User-agent: *
Disallow: /+

Robots.txt teknik özellikleri hakkında bilgi edinin

Ancak başka bir alternatif, onları yakalamak ve yeniden Google'a daha iyi bir HTTP kodu döndürmek veya trafiği başka bir sayfaya yönlendirmek için yeniden yazma kuralı (Apache vb. Kullanıyorsanız) .htaccess kullanmak olabilir.


2
*URL yolunun sonundaki (yıldız) işaretine gerek yoktur . En iyi örümcek uyumluluğu için çıkarılmalıdır. robots.txtzaten önek eşleşmesi olduğundan /+*, /+joker karakterleri destekleyen botlarla aynıdır ve joker karakterleri desteklemeyen botlar için /+*hiç eşleşmez.
MrWhite

Haklısın, Googlebot hakkındaki sorusuna dayanarak yazdım. Birden fazla botla daha iyi uyumluluk sağlamak için düzenledim.
davidbl
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.