Arama motoru yanlılığını tespit etmenin bir yolu var mı?

Arama motorları giderek artan bir şekilde bilgi bekçileri olarak kullanılmaktadır, ancak arama motorları tarafından sonuçları sıralamak için kullanılan kriterler kullanıcılara saygısızdır. Kullanıcılar, arama sonucu kalitesi pahasına bir miktar yarar sağlamak için sonuçlarının önyargısız veya tahrif edilmediğinden nasıl emin olabilirler?

Hükümetler rutin olarak arama sağlayıcılarının politik olarak istenmeyen sayılan web sitelerinin sıralamasını kaldırmasını veya azaltmasını talep ediyor. İşletmeler, gelirlerini artırmak için sağlayıcılara diğerlerine göre belirli sonuçları artırmaları için ödeme yapabilir. Güvenlik duvarları, kullanıcılara geri gönderilmeden önce sonuçlarla karışabilir.

Yüzeyde bulunmayan sıralama algoritmalarında zararsız görünen değişiklikler bile, önyargılı gibi görünebilir, aslında bazı ortak özellikleri (gerçek kalite ile ilgisi olmayan) paylaşan web sitelerine zarar verecek şekilde tasarlanabilir.

Belirli bir süre boyunca sonuçları izleme ve bazı "gizli değişken" (belki de siyasi bir bağlılık) web sitesi sıralamasında değişiklik itici bir faktör olup olmadığını değerlendirerek arama motoru yanlılığını tespit etmek mümkün mü?

Sinsi bir sağlayıcı, zaman içinde hedeflenen web sitelerinin (ve belki de kullanıcıların dikkatini dağıtmak için rastgele web sitelerinin) sıralamasını yavaş yavaş düşürebilir. Bir sağlayıcının algılama olmadan ne kadar önyargı sağlayabileceğinin sınırları nelerdir? Veya bu tür parazitleri, istenen sonucu tesadüfen üreten ağırlıklı sıralama kriterlerini ciddiyetle seçerek ("veri gözetleme" yoluyla) her zaman gizlemek mümkündür.

Sıralama ölçütleri herkese açık hale getirilirse bu değişikliklerden herhangi biri değişir mi? Arama motorlarının kullandığı ölçütleri açık kaynaklı yapmamız gerekiyor mu?

Bu bana bir CDO gibi karmaşık bir finansal aracın satıcı tarafından tahrif edilip edilmediğinin tespit edilmesinin en yoğun alt-problem problemini çözmeye eşdeğer olduğunu hatırlatıyor:

http://www.cs.princeton.edu/~rongge/derivative.pdf

Teşekkürler!

ds.algorithms data-mining

— el.
kaynak

bu güzel bir soru, ama sadece bir cstheory ile ilgili soru sormak emin olarak revize ediyorum. En bariz olanı bunu bir referans isteği yapmak ve "daha önce kimse buna baktı mı?" Kimsenin olmadığından eminseniz, "bu resmi olarak nasıl modellenebilir?" iyi bir soru olabilir. Bazıları potansiyel olarak sömürge ile ilgili olmayan çok fazla soru tutarsanız, o zaman "gerçek bir soru" olarak kapalı olabilir.

— Artem Kaznatcheev

Bir sıralama düzenini herkese açık hale getirmenin spam gönderenler tarafından saldırıya açıldığını unutmayın. İlginç bir varyant: "sıralamalar için" ortak anahtar "eşdeğeri var mı?

— Suresh Venkat

@SureshVenkat "bir sıralama şemasını herkese açık hale getirmek, saldırmak için açar" gibi görünüyor.

— Artem Kaznatcheev

hayır, ama bu yüzden sıralama düzenlerinin açık anahtar sürümlerini sordum.

— Suresh Venkat

Arama sürecine katılan taraf olmayanların kötü niyetli kullanıcılar olması gerektiğinden, normal bir çözüm süreci bencil kullanıcılarla oyun olarak modellemektir. Doğru modellenirse, arama motorlarının böyle bir şey yapmasının faydalı olup olmadığını öğrenebiliriz. Sonra böyle bir kurcalamayı önlemek için bir mekanizma tasarlayabiliriz.

— Helyum

Bu çok açık uçlu bir soru, ama konu üzerinde durmak için, burada "adalet" fikrine bir CS teorisi yaklaşımı ve nasıl uygulanacağı.

"Farkındalık yoluyla Adalet" Çalışması, Hardt, Pitassi, Reingold, Zemel http://arxiv.org/abs/1104.3913

— Aaron Roth
kaynak