“Yazık yükseliş” sorunumuz mu var?


51

Biliyorum, konu dışı gibi gelebilir ama beni duyun.

Yığın Taşması'nda ve burada yayınlara oy veriyoruz, bunların hepsi tablo halinde saklanıyor.

Örneğin:

gönderen kimliği seçmen kimliği oy türü
------- -------- --------- --------
10 1 2 2000-1-1 10:00:01 
11 3 3 2000-1-1 10:00:01 
10 5 2 2000-1-1 10:00:01 

... ve bunun gibi. Oylama tipi 2 bir oy, oylama tipi 3 ise bir oy. Bu verinin anonim bir sürümünü http://data.stackexchange.com adresinde sorgulayabilirsiniz.

Bir gönderinin -1 veya daha düşük puanlara ulaşması durumunda, puan kazanmanın daha muhtemel olduğu algısı vardır. Bu basitçe onaylama yanlılığı olabilir veya aslında köklü olabilir.

Bu hipotezi onaylamak veya reddetmek için bu verileri nasıl analiz ederdik? Bu önyargının etkisini nasıl ölçebiliriz?


1
sorgudan bir örnek alabilir miyiz? Herkes SQL cümleleri yazmak konusunda iyi bir bilgili değildir. Örnek verilere sahip olmak, insanları onunla oynamaya teşvik edebilir. Soru için +1.
mpiktas

@Jeff oyları yalnızca veri dökümünden kısmi bilgi alabilmenizi anonimleştirir, burada hızlı bir örnek olmakla birlikte tüm geçişleri içerir ancak data.stackexchange.com/stackoverflow/q/101738 tam anonimleştirilmiş veriler genel veri dökümünde bulunur
Sam Safran

Neden sadece artıyor? Her bir değerin etrafında yukarı veya aşağı oy kullanma olasılığı ne kadar kesin olabilir?
Bob Durrant

@Bob, kesinlikle katılıyorum katılıyorum
Sam Saffron

1
Farklı türden tartışmaların, merhametli oyların ve diğer “sosyal” biçimlerin önüne geçmek için, başka tür sitelerin oyları şaşırtdığını (yani, göstermeden önce gürültü ekleyerek) ve bazen kısa bir süre için tamamen yukarı ve aşağı oy kullandığını gördüm. oylama unsurları.
Glen_b

Yanıtlar:


32

Çok aşamalı bir model veya Markov zinciri kullanabilirsiniz (R'deki msm paketi bunlara uymanın bir yoludur). Daha sonra -1'den 0'a geçiş olasılığının 0'dan 1'e, 1'den 2'ye vb. Büyük olup olmadığını görmek için bakabilirsiniz. Ortalama olup olmadığını görmek için diğerlerine kıyasla ortalamada -1'e bakabilirsiniz. .


3
+1 harika referans. Msm paketi hakkında İstatistiksel Yazılım Dergisi'nde bir makale var . Model, bu tür görevler için ideal olarak uygun görünüyor.
mpiktas

3
Markov zincir modeli fikri iyi bir fikir gibi gözüküyor, fakat -1’deki ortalama süre tüm hikayeyi vermiyor. Olası (ve makul - kötü sorular düşünün) birinin -1'de başka bir yerden daha fazla oy kullanma olasılığı daha düşük.
Bob Durrant

Sanırım ilk önce yapmak isteyebilecek olan, oy-yörüngelerini kümelemek - yani (neredeyse) yalnızca yukarı / aşağı oylananlar (çok popüler / çok kötü sorular) ve daha çekişmeli olanlar. Ardından üç sınıfta Markov zincirlerini yapabilirsiniz.
Jonas

13

Bir deney yapmak. Her gün belirli bir zamanda yeni yayınların yarısını rastgele düşürün.


5
Serin, biz bu durumda, yüksek temsilcisi kullanıcılarla başlatmak için "eleştirmen" rozetleri önemli bir artış ve daha iyi :-) yeni kullanıcılar için motivasyon muhtemelen bir azalma gözlemlemek gerekir (denemeyi ağırlık verme riski taşıyan!)
chl

14
Aslında bundan daha iyisini yapabiliriz ... AB testini kullanarak, sitede oylanan -1 oylama sorusunun yarısını 0 ve yarısını -1 olarak gösterebilir ve gruplardan birinin olasılıklı olup olmadığını görebiliriz. upvoted! Dahice.
Sam Saffron

4
Deneme fikri, direklerin kalitesini kontrol eder, ancak (1) düşürülenler deneye katılmak için önceden karar vermelidir ve (2) kısa bir süre sonra, düşürmeler kaldırılmalıdır.
zbicyclist

2
+1 (ve buradaki tüm yorumlara +1): onayları ile etkilenebilecek ve yürütülebilecek tüm kullanıcılara önceden iletilen kontrollü bir geri dönüşümlü deneme, bu bilgiyi edinmenin en güçlü yollarından biridir.
whuber

13

Cevabımın özeti. Markov zincir modellemeyi severim ama "geçici" yönü özlüyor. Diğer yandan zamansal yöne odaklanmak (örneğin ortalama süreSadece geçiş olasılığını tahmin ettiğiniz ve belirli bir durumda harcanan zamanı ölçtüğünüz durumdan bir ara. Umarım bu yardım.1

(VDi)i1(Si)i1

Yt=Yt+Yt

Yt+=i=01VDit,Si=1 and Yt=i=01VDit,Si=1

ϵ

λtϵ=limdt01dtP(Yt+dtϵYtϵ=1|Ft)
ϵ+Ft
Ft=σ(Yt+,Yt,VD1,,VDYt++Yt,S1,,SYt++Yt)

ancak sorunuzun satırları boyunca, bence Bu, için deterministik bir dizinin olduğu anlamına gelir öyle ki .

P(Yt+dtϵYtϵ=1|Ft)=P(Yt+dtϵYtϵ=1|Yt)
ϵ=+,(μiϵ)iZλtϵ=μYtϵ

Bu formalizmin içinde, sorunuzu şu şekilde yeniden sorgulayabilirsiniz: "muhtemelen " olabilir (veya en azından verilen eşik).μ1+μ0+>0

Bu varsayım altında, üzerinde [ ] ile [homojen bir markov işlemi] [3] olduğunu, tarafından verilen jeneratör ile göstermek kolaydır.YtZQ

i,jZQi,i+1=μi+Qi,i1=μiQii=1(μi++μi)Qij=0 if |ij|>1

Soruyu cevaplamak (istatistiksel problem için azami olasılık tahminini önermek yoluyla) Bu reformdan, problemin çözülmesi tahmin edilerek ve değerleri test edilerek yapılır. Genellik kaybı olmadan indeksini düzeltip unutalım . Tahmini (ve ) gözlemlenmesi uppon yapılabiliri μ + μ -(μi+)iμ+μ

T j(T1,η1),,(Tp,ηp) uzunlukları olan ve olarak geçirilen süre (yani birbirini izleyen zaman ve) olduğunu soru upvoted ise, bu downvoted ve eğer bu gözlem son durum ise.TjjthpiYt=iηj+110

Eğer gözlem son durumuyla davayı unutursanız, Mentionned çiftler bağlı olan bir dağıtımdan iid ve o kadar dağıtılır: Exp bir üstel dağılımı ve rastgele var olan ( olup + veya 1) maksimum fark eden bağlı olarak değişebilir. Ardından, aşağıdaki basit lemayı kullanabilirsiniz (kanıtı basittir):μi+μi(min(Exp(μi+),Exp(μi)),η)η

Lemma Eğer ve , ve . X+Exp(μ+)XExp(μ)T=min(X+,X)Exp(μ++μ)P(X+1<X)=μ+μ++μ

Bu , nın yoğunluğunun şu şekilde verildiği anlamına gelir : burada için bir üstel rasgele değişkenin yoğunluk işlevidir parametresiyle . Bu ifadeden, ve maksimum olasılık tahmincisini türetmek kolaydır :f(t,ϵ)(T,η)

f(t,ϵ)=gμ++μ(1(ϵ=+1)μ++1(ϵ=1)μμ++μ)
gaa>0aμ+μ

(μ^+,μ^)=argminln(μ+μ+)((μ+μ+)i=1pTi+p)pln(μ)p+ln(μ+)
buradave.p=|i:δi=1|p+=|i:δi=+1|

Daha gelişmiş yaklaşımlar için yorumlar

Ne zaman acount durumlarda içine almak istiyorsanız son gözlenen durumdur (kesinlikle zeki birisi içinde gidince çünkü biraz Biti reasonning değiştirmek zorunda, bu son puan ... genellikle). Karşılık gelen sansür nispeten klasik ...i1

Muhtemel başka bir yaklaşım da olabilir

  • Zamanla azalan bir yoğunluğa sahip olmak
  • Son oylamadan bu yana harcanan zamanla azalan bir yoğunluğa sahip olmak (bunu tercih ederim. Bu durumda, yoğunluğun nasıl azaldığını modellemenin klasik bir yolu vardır ...
  • Sen varsaymak isteyebilirsiniz sorunsuz fonksiyonudurμi+i
  • .... başka fikirler önerebilirsin!
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.