Son zamanlarda itibarın upvotes üzerindeki etkilerini analiz ettim ( blog yazısına bakın ) ve daha sonra muhtemelen daha aydınlatıcı (veya daha uygun) analiz ve grafikler hakkında birkaç sorum vardı.
Bu yüzden birkaç soru (ve özellikle herhangi birine cevap vermekten ve diğerlerini görmezden gelmekten çekinmeyin):
Enkarnasyondaki akımında, posta numarasını ortalamak istemedim. Sanırım bunun yaptığı şey, sayı sayımının alt ucuna doğru daha fazla yayın olduğu için dağılım grafiğinde negatif bir korelasyonun yanlış bir görünümünü vermek (bunun Jon Skeet panelinde, sadece ölümlü kullanıcılarda olmadığını görüyorsunuz) panel). Posta numarasını ortalamamak uygun değil mi?
Grafiklerden, skorun oldukça doğru çarpık olduğu açıktır (ve ortalama merkezleme bunu değiştirmedi). Bir regresyon çizgisini takarken, Huber-White kum hatalarını (
rlm
MASS R paketinde ) kullanarak hem doğrusal modelleri hem de bir modeli sığdırıyorum ve eğim tahminlerinde herhangi bir fark yaratmadı. Sağlam regresyon yerine verilere bir dönüşüm düşünmeliydim? Herhangi bir dönüşümün 0 ve negatif puan olasılığını hesaba katması gerekeceğini unutmayın. Yoksa sayım verileri için OLS yerine başka bir model mi kullanmalıydım?Son iki grafiğin genel olarak geliştirilebileceğine (ve geliştirilmiş modelleme stratejileriyle ilişkili olduğuna) inanıyorum. Benim görüşüme göre, itibar etkileri gerçek bir poster tarihinde oldukça erken gerçekleşir şüpheli olurdu (eğer doğruysa, bunlar yeniden düşünülebilir "bazı mükemmel cevaplar verdiniz, bu yüzden şimdi tüm "toplam puanla itibar" etkileri yerine "yayınlar". Fazla çizmeyi hesaba katarak bunun doğru olup olmadığını göstermek için nasıl bir grafik oluşturabilirim? Bunu göstermenin iyi bir yolunun, formun bir modeline uymak olabileceğini düşündüm;
burada bir (mevcut scatterplots olduğu gibi), olduğu ve örneğin sonrası numaraları keyfi bir dizi (temsil eden kukla değişkenler eşit sonrası sayı ise , eşit ise posta numarası vb.). ve sırasıyla büyük kesişme ve hata terimidir. Daha sonra, sadece bir poster geçmişinde itibar etkilerinin erken ortaya çıkıp çıkmadığını (veya grafiksel olarak görüntüleyerek) belirlemek için tahmini eğimlerini inceleyeceğim . Bu makul (ve uygun) bir yaklaşım mı?X 1 Z 1 ⋯ Z k Z 1 Z 2 β 0 ϵ γscore - (mean score per user)
post number
1
1 through 25
1
26 through 50
Bazı tür parametrik olmayan düzleme çizgisinin bu gibi saçılma noktalarına (loess veya spline gibi) uyması popüler gibi görünüyor, ancak spline ile yaptığım deneyler aydınlatıcı bir şey ortaya koymadı (poster tarihinde erken postive etkisi kanıtları hafif ve tempartentaldi dahil ettiğim spline sayısına). Etkilerin erken gerçekleştiği yönünde bir hipotezim olduğundan, yukarıdaki modelleme yaklaşımım spline'dan daha makul mi?
Ayrıca, tüm bu verileri taradığım halde, incelemek için hala çok sayıda başka topluluk var (ve süper kullanıcı ve sunucu hatası gibi benzerlerinden büyük örnekler var), bu nedenle gelecekte önermek oldukça makul. herhangi bir ilişkiyi incelemek için bir tutma örneği kullandığım analiz.