StackExchange soruları için “ilginçlik” işlevi

StackExchange siteleri için bir veri madenciliği paketi bir araya getirmeye çalışıyorum ve özellikle, "en ilginç" soruları belirlemeye çalışırken sıkışmış. Soru puanını kullanmak istiyorum, ancak görüşlerin sayısı nedeniyle önyargıyı kaldırıyorum, ancak buna titizlikle nasıl yaklaşacağımı bilmiyorum.

İdeal dünyada, soruları hesaplayarak sıralayabilirim; burada , oyların toplamı ve , görüntülenme sayısıdır. Ne de olsa soruyu onaylayanların yüzdesini, eksi soruyu küçümseyenlerin yüzdesini ölçecektir. $\frac{v}{n}$ $v$ $n$

Ne yazık ki, oylama şekli çok daha karmaşıktır. Oylar belirli bir düzeye "plato" eğilimi gösterir ve bunun çılgınca popüler soruları büyük ölçüde hafife alma etkisi vardır. Uygulamada, 1 görünüm ve 1 puan içeren bir soru, kesinlikle 10.000 görüşe sahip, ancak 10.000'den az oy alan diğer herhangi bir sorudan daha yüksek puan alacak ve sıralanacaktır.

Şu anda ampirik bir formül olarak , ancak kesin olmak istiyorum. Bu probleme matematiksel titizlikle nasıl yaklaşabilirim? $\frac{v}{\log{n}+1}$

Bazı yorumları ele almak için sorunu daha iyi bir şekilde çözmeye çalışacağım:

Diyelim ki toplam oy ve görüntülemeyle ilgili bir sorum var . Görüntüleme sayısı , toplam hangi oyu kullanacağını tahmin etmek . $v_0$ $n_0$ $v_1$ $n_1$

Bu şekilde için nominal bir değer seçebilir ve tüm soruyu beklenen toplamına göre . $n_1$ $v_1$

Bahsettiğim etkiyi daha iyi göstermek için SO datadump üzerinde iki sorgu oluşturdum:

Puana göre ortalama görüntüleme

Sonuç:

Skoru Görüntüleme

Ortalama Görüntüleme Sayısı (100 görüntüleme grubu)

Sonuç:

Görüntüleme Sayısına Göre Puan

Karşılaştırılan iki formül

Sonuçlar, daha düz olup olmadığından emin değilim: ( mavi, kırmızı) $\frac{v}{n}$ $\frac{v}{log{n}+1}$

Formüller

data-mining predictive-models

— Sklivvz
kaynak

Bu kesinlikle ilginç bir soru, ama bence bunu istatistiklerde sormak daha iyi olabilir.

@Theo Aslında haklı olabilirsin. Modların en iyi olduğunu düşünürlerse göç etmeleri için işaretlerim.

Görüşler neden ilginçliğe katkıda bulunmasın ki? (ama daha da kötüsü, neden olumsuz katkıda bulunsunlar?) Daha ilginç şeyler daha sık görülmeye eğilimlidir ... Buradaki temel sorun, ilginç olanın ne anlama geldiği? Genel ilgi soruları mı yoksa daha spesifik bir üst düzey kitleye ilgi duyan sorular mıdır? Birinin bu soruyu "matematiksel titizlikle" yanıtlaması için önce titizlikle sorulması gerekir.

Görüşler sorulara önyargılıdır, çünkü bir soru iyi bir siteye bağlantı verebilir ve tonlarca görüş alabilir - en yüksek puanlı sorulara bakarsanız hepsi yüksek görüşlü sorulardır; ilginç olarak, site kullanıcıları tarafından algılanan daha değerli soruları kastediyorum. Her durumda, soru hala duruyor: kalitenin en iyi tahmincisini elde etmek için görüş ve oyları birleştirmenin doğru yolu nedir?

Matematik insanları iyi sorular sordu. Bu sorunun mantığı dairesel görünüyor: Bir SE sorusunun "kalitesini" ölçmek için bir formül istiyor gibi görünüyor, ancak kullanıcılar tarafından algılanan "değer" gibi işlem dışı eş anlamlılar vermek dışında "kalite" nin ne anlama geldiğini belirtmiyor Sitenin." Hiçbir şey için bir şey alamazsınız!

— whuber

Yanıtlar:

İlginç bir soru, görüş sayısı göz önüne alındığında, nispeten daha fazla oy alan bir soru olarak tanımlanabilir. Bu amaçla, görünümlerde beklenen oy sayısını yansıtan bir taban çizgisi eğrisi oluşturabilirsiniz. Taban çizgisinden çok daha fazla oy alan eğriler özellikle ilginç kabul edildi.

Taban çizgisini oluşturmak için 100 görünüm bölmesi başına ortalama oy sayısını hesaplamak isteyebilirsiniz. Ek olarak, kutu başına standart sapma için sağlam bir ölçüm olarak medyan mutlak sapmayı (MAD) hesaplayabilirsiniz. Sonra, "ilginçlik" şu şekilde hesaplanabilir:

interestingness(votes,views) = (votes-baselineVotes(views))/baselineMAD(views)

— Jonas
kaynak

Bu benim teorim. İki tür soru olduğunu düşünüyorum: çoğunlukla SE içinde kalanlar (genellikle daha az görüşe sahip olanlar) ve dışarıdan bakanlar tarafından başka bir yerden bağlantılı oldukları için (genellikle daha fazla görüşe sahipler).

Çoğunlukla Güneydoğu Asya'da kalan sorular için, oylar ilginç soruların iyi bir ölçüsüdür. Bu oylama noktası.

Bir soru site dışına bağlandığında, oylar anlamını keser. Bazı bağlantı sitelerinde çok az sayıda SE üyesi olabilir, diğerlerinde daha fazlası olabilir. Bu sorular için oy sayısının varyansı muhtemelen yüksektir (eğrinin sağ tarafının çiçek açtığı puanınıza veya görünüm grafiğinize göre). Bu sorular daha fazla görünüme sahip olacak ve görüşler ilginç soruların daha iyi bir göstergesi olabilir. Ya da daha büyük bir topluluğun daha ilginç bulduğu sorular. Bu durumda birçok değişken vardır ve bence bu vakaları ayırt etmek için daha fazla bilgi bulmaya çalışmak yararlı olacaktır. SE, yönlendirme bilgilerini duyuruyor mu?

— rm999
kaynak

SE, yönlendirme bilgilerini duyuruyor mu? Ben sadece upvotes, yorumlar, vb yerine yazıların izleme desen bilmek istiyorum

— d_a_c321