StackExchange siteleri için bir veri madenciliği paketi bir araya getirmeye çalışıyorum ve özellikle, "en ilginç" soruları belirlemeye çalışırken sıkışmış. Soru puanını kullanmak istiyorum, ancak görüşlerin sayısı nedeniyle önyargıyı kaldırıyorum, ancak buna titizlikle nasıl yaklaşacağımı bilmiyorum.
İdeal dünyada, soruları hesaplayarak sıralayabilirim; burada , oyların toplamı ve , görüntülenme sayısıdır. Ne de olsa soruyu onaylayanların yüzdesini, eksi soruyu küçümseyenlerin yüzdesini ölçecektir. v
Ne yazık ki, oylama şekli çok daha karmaşıktır. Oylar belirli bir düzeye "plato" eğilimi gösterir ve bunun çılgınca popüler soruları büyük ölçüde hafife alma etkisi vardır. Uygulamada, 1 görünüm ve 1 puan içeren bir soru, kesinlikle 10.000 görüşe sahip, ancak 10.000'den az oy alan diğer herhangi bir sorudan daha yüksek puan alacak ve sıralanacaktır.
Şu anda ampirik bir formül olarak , ancak kesin olmak istiyorum. Bu probleme matematiksel titizlikle nasıl yaklaşabilirim?
Bazı yorumları ele almak için sorunu daha iyi bir şekilde çözmeye çalışacağım:
Diyelim ki toplam oy ve görüntülemeyle ilgili bir sorum var . Görüntüleme sayısı , toplam hangi oyu kullanacağını tahmin etmek .n 0 v 1
Bu şekilde için nominal bir değer seçebilir ve tüm soruyu beklenen toplamına göre .v 1
Bahsettiğim etkiyi daha iyi göstermek için SO datadump üzerinde iki sorgu oluşturdum:
Puana göre ortalama görüntüleme
Sonuç:
Ortalama Görüntüleme Sayısı (100 görüntüleme grubu)
Sonuç:
Sonuçlar, daha düz olup olmadığından emin değilim: ( mavi, kırmızı)