İtibarın oylamaya etkileri konusundaki analizimi nasıl geliştirebilirim?


15

Son zamanlarda itibarın upvotes üzerindeki etkilerini analiz ettim ( blog yazısına bakın ) ve daha sonra muhtemelen daha aydınlatıcı (veya daha uygun) analiz ve grafikler hakkında birkaç sorum vardı.

Bu yüzden birkaç soru (ve özellikle herhangi birine cevap vermekten ve diğerlerini görmezden gelmekten çekinmeyin):

  1. Enkarnasyondaki akımında, posta numarasını ortalamak istemedim. Sanırım bunun yaptığı şey, sayı sayımının alt ucuna doğru daha fazla yayın olduğu için dağılım grafiğinde negatif bir korelasyonun yanlış bir görünümünü vermek (bunun Jon Skeet panelinde, sadece ölümlü kullanıcılarda olmadığını görüyorsunuz) panel). Posta numarasını ortalamamak uygun değil mi?

  2. Grafiklerden, skorun oldukça doğru çarpık olduğu açıktır (ve ortalama merkezleme bunu değiştirmedi). Bir regresyon çizgisini takarken, Huber-White kum hatalarını ( rlmMASS R paketinde ) kullanarak hem doğrusal modelleri hem de bir modeli sığdırıyorum ve eğim tahminlerinde herhangi bir fark yaratmadı. Sağlam regresyon yerine verilere bir dönüşüm düşünmeliydim? Herhangi bir dönüşümün 0 ve negatif puan olasılığını hesaba katması gerekeceğini unutmayın. Yoksa sayım verileri için OLS yerine başka bir model mi kullanmalıydım?

  3. Son iki grafiğin genel olarak geliştirilebileceğine (ve geliştirilmiş modelleme stratejileriyle ilişkili olduğuna) inanıyorum. Benim görüşüme göre, itibar etkileri gerçek bir poster tarihinde oldukça erken gerçekleşir şüpheli olurdu (eğer doğruysa, bunlar yeniden düşünülebilir "bazı mükemmel cevaplar verdiniz, bu yüzden şimdi tüm "toplam puanla itibar" etkileri yerine "yayınlar". Fazla çizmeyi hesaba katarak bunun doğru olup olmadığını göstermek için nasıl bir grafik oluşturabilirim? Bunu göstermenin iyi bir yolunun, formun bir modeline uymak olabileceğini düşündüm;

Y=β0+β1(X1)+α1(Z1)+α2(Z2)αk(Zk)+γ1(Z1X1)γk(ZkX1)+ϵ

burada bir (mevcut scatterplots olduğu gibi), olduğu ve örneğin sonrası numaraları keyfi bir dizi (temsil eden kukla değişkenler eşit sonrası sayı ise , eşit ise posta numarası vb.). ve sırasıyla büyük kesişme ve hata terimidir. Daha sonra, sadece bir poster geçmişinde itibar etkilerinin erken ortaya çıkıp çıkmadığını (veya grafiksel olarak görüntüleyerek) belirlemek için tahmini eğimlerini inceleyeceğim . Bu makul (ve uygun) bir yaklaşım mı?X 1 Z 1Z k Z 1 Z 2 β 0 ϵ γYscore - (mean score per user)X1post numberZ1ZkZ111 through 25Z2126 through 50β0ϵγ

Bazı tür parametrik olmayan düzleme çizgisinin bu gibi saçılma noktalarına (loess veya spline gibi) uyması popüler gibi görünüyor, ancak spline ile yaptığım deneyler aydınlatıcı bir şey ortaya koymadı (poster tarihinde erken postive etkisi kanıtları hafif ve tempartentaldi dahil ettiğim spline sayısına). Etkilerin erken gerçekleştiği yönünde bir hipotezim olduğundan, yukarıdaki modelleme yaklaşımım spline'dan daha makul mi?

Ayrıca, tüm bu verileri taradığım halde, incelemek için hala çok sayıda başka topluluk var (ve süper kullanıcı ve sunucu hatası gibi benzerlerinden büyük örnekler var), bu nedenle gelecekte önermek oldukça makul. herhangi bir ilişkiyi incelemek için bir tutma örneği kullandığım analiz.


Şu anda ilk sorumla ilgili bazı notlar aldım ve onlar burada bulunabilir . Şu anda bunu kendi sorumun cevabı olarak mı yoksa ayrı bir soru mu açacağımdan emin değilim (bu büyük ölçüde veri görselleştirmeye odaklandığı için). Ancak burada veya sohbet odasında google dokümanı hakkında yorum yapmaktan çekinmeyin .
Andy W

Yanıtlar:


14

Bu cesur bir denemedir, ancak yalnızca bu verilerle , "itibarın upvotes üzerindeki etkisi" ile ilgili araştırma sorunuzu cevaplamak zor veya imkansız olacaktır . Sorun, listelediğim diğer fenomenlerin etkilerini, nasıl ele alınabileceğine dair kısa göstergelerle ayırmaktır.

  • Öğrenme etkileri . İtibar arttıkça deneyim artar; deneyim arttıkça, bir kişinin daha iyi sorular ve cevaplar göndermesini bekleriz; kalitesi arttıkça, posta başına daha fazla oy bekliyoruz. Muhtemelen, bir analizde bununla başa çıkmanın bir yolu, birden fazla SE sitesinde aktif olan kişileri tanımlamak olacaktır . Herhangi bir sitede itibarları, deneyimlerinin miktarından daha yavaş artacak ve böylece itibar ve öğrenme etkilerini birbirinden ayırmak için bir tutamaç sağlayacaktır.

  • Bağlamda geçici değişiklikler. Bunlar sayısız, ancak bariz olanlar şunları içerir:

    • Genel bir artış eğilimi, mevsimsel eğilimler (genellikle akademik döngülerle ilişkilendirilir) ve aykırı değerler (belirli konulara bağlantılar gibi dış tanıtımdan kaynaklanan) dahil olmak üzere, zaman içinde seçmen sayısındaki değişiklikler . Herhangi bir analiz, herhangi bir birey için itibardaki eğilimleri değerlendirirken bunu hesaba katmalıdır .

    • Bir topluluğun zaman içindeki değişimleri . Topluluklar ve nasıl etkileştikleri, geliştikleri ve geliştikleri. Zaman içinde az ya da çok oy kullanma eğiliminde olabilirler. Herhangi bir analiz, bu etkiyi değerlendirmeli ve etkisiz hale getirmelidir .

    • Zamanın kendisi. Zaman geçtikçe, daha önceki yayınlar aranmaya devam eder ve oy toplamaya devam eder. Bu nedenle, caeteris paribus , eski yazılar yeni olanlardan daha fazla oy üretmelidir. (Bu güçlü bir etkidir: aylık itibar ligleri üzerinde sürekli olarak yüksek olan bazı insanlar tüm yıl boyunca bu siteyi ziyaret etmemiştir!) Bu, herhangi bir gerçek pozitif itibar etkisini maskeleyecek veya tersine çevirecektir. Herhangi bir analizin sitede her gönderinin mevcut olduğu süreyi hesaba katması gerekir .

  • Konu popülerliği. Bazı etiketler (ör. ) diğerlerinden çok daha popülerdir. Bu nedenle, bir kişinin cevapladığı soru türlerindeki değişiklikler, itibar etkisi gibi geçici değişikliklerle karıştırılabilir. Bu nedenle, herhangi bir analizin cevaplanan soruların doğasını hesaba katması gerekir.

  • Görünümler [düzenleme olarak eklendi]. Sorular, çeşitli nedenlerle (filtreler, bağlantılar vb.) Farklı sayıda kişi tarafından incelenir. Yanıtlarla alınan oyların sayısının görüş sayısıyla ilgili olması mümkündür, ancak görüşlerin sayısı arttıkça bir oranın azalması beklenir. (Soruyla gerçekten ilgilenen kaç kişinin ham sayıyı değil, aslında onu görüntülemesi meselesidir. Benim - anekdot - deneyimim, birçok soruda aldığım upvotların kabaca yarısının ilk 5-15'e gelmesi Her ne kadar en sonunda sorular yüzlerce kez incelense de.) Bu nedenle, herhangi bir analizin görüntüleme sayısını hesaba katması gerekir, ancak muhtemelen doğrusal bir şekilde değil.

  • Ölçüm zorlukları. "İtibar" farklı faaliyetler için alınan oyların toplamıdır: başlangıç ​​itibarı, cevaplar, sorular, soruları onaylama, etiket wiki'lerini düzenleme, küçülme ve indirilme (azalan değer sırasına göre). Bu bileşenler farklı şeyleri değerlendirdiğinden ve hepsi topluluk seçmenlerinin kontrolü altında olmadığından, analiz için ayrılmalıdır . Bir "itibar etkisi" muhtemelen cevaplar ve belki de sorular üzerinde upvotes ile ilişkilidir, ancak diğer itibar kaynaklarını etkilememelidir. Başlangıç ​​itibarı kesinlikle çıkarılmalıdır (ancak belki de bir miktar deneyim için vekil olarak kullanılabilir).

  • Gizli faktörler. Ölçülmesi imkansız olan birçok başka karıştırıcı faktör olabilir. Örneğin, forumlara katılımda çeşitli "tükenmişlik" biçimleri vardır. İnsanlar ilk birkaç hafta, ay veya yılların coşkusundan sonra ne yaparlar? Bazı olasılıklar nadir, olağandışı veya zor sorulara odaklanmak; sadece cevaplanmamış sorulara cevap verilmesi; daha az ama daha kaliteli cevaplar vermek; Bunların bazıları bir itibar etkisini maskeleyebilirken, diğerleri yanlışlıkla biriyle karıştırılabilir. Bu faktörler için bir vekil, bireyin katılım oranlarındaki değişiklikler olabilir : o kişinin gönderilerinin doğasındaki değişiklikleri işaret edebilirler.

  • Alt topluluk olgusu. İstatistiklere, çok aktif SE sayfalarında bile sert bir bakış, nispeten az sayıda insanın cevaplama ve oylamaların çoğunu yaptığını göstermektedir. İki veya üç kişi kadar küçük bir klik, itibarın büyümesi üzerinde derin bir etkiye sahip olabilir. İki kişilik bir klik, sitenin yerleşik monitörleri tarafından algılanacaktır (ve bu sitede böyle bir grup var), ancak daha büyük klikler muhtemelen olmayacaktır. (Resmi çarpışmadan bahsetmiyorum: insanlar farkında olmadan bile bu tür kliklerin üyesi olabilirler.) Görünen bir itibar etkisini bu görünmez, tespit edilmemiş, gayri resmi kliklerin faaliyetlerinden nasıl ayırabiliriz? Ayrıntılı oylama verileri teşhis amaçlı kullanılabilir, ancak bu verilere erişebileceğimize inanmıyorum.

  • Sınırlı veri. Bir itibar etkisini tespit etmek için, muhtemelen onlarca ila yüzlerce gönderi (en azından) olan kişilere odaklanmanız gerekecektir. Bu, mevcut nüfusu 50'den az kişiye düşürüyor. Tüm varyasyon ve karışıklık olasılığı ile, gerçekten çok güçlü olmadıkça önemli etkileri ortaya çıkarmak için çok küçüktür. Tedavi, veri kümesini diğer SE sitelerinden gelen kayıtlarla artırmaktır .

Tüm bu komplikasyonlar göz önüne alındığında, blog makalesindeki keşif grafiklerinin göze batan belirgin olmadığı sürece herhangi bir şeyi ortaya çıkarma şansının az olduğu açık olmalıdır. Bize hiçbir şey sıçramıyor: beklendiği gibi veriler dağınık ve karmaşık. Arsalarda veya sunulan analizde iyileştirmeler önermek için zamanından önce: artımlı değişiklikler ve ek analizler, bu temel sorunlar giderilene kadar yardımcı olmaz .


Cevap için teşekkürler. Eleştirinin genişliği göz önüne alındığında, yorumlardaki tüm önerileri uygun bir şekilde ele alamayacağım (başka bir mekan düşünmek zorunda kalacağım, belki sadece başka bir google belgesi yayınlayacağım). Ama şimdi söyleyeceğim, cevap vermenin imkansız olduğunu düşünmüyorum (herkes bu gibi gözlemsel verilerle her şeyi cevaplayabildiği ölçüde). En azından, olası karışıklıkların sınırlamaları göz önüne alındığında, itibar etkilerinin mevcut kanıtlarla tutarlı olup olmadığını görebiliriz.
Andy W

Ben karıştırıcı yüzden bile bu, önemli ve yaygın olduğunu düşünüyorum @Andy görünüyor ün etkisi gibi orada, o bir obje olabilir: Eğer bu sorunları ele sürece herhangi bir geçerli bir sonuç çıkarmak mümkün olmayacaktır. Tabii yanlış olabilirim, ama ispat yükü senin üzerindedir.
whuber

"Eğer bir itibar etkisi var gibi görünüyorsa" anahtar ifade (gördüğüm gibi). Sunulan karışıklıkların çoğu, posterlerin saygınlığı / posta numarası / geçmişi ile belirsiz bir şekilde ilişkili olacaktır veya teorik olarak posterlerin geçmişlerinde daha sonra cevaplara ilişkin puanlarını artırması beklenebilir. İtibar etkilerine dair bir kanıt bulamazsam, potansiyel karışıklıkların çoğu yokluğunu açıklamak için kullanılamaz.
Andy W

@Andy Ama en az biri yapabilir ve bu yeterli. Bunlar gizli faktörleri, öznenin popülerliğini ve bağlamdaki zamansal değişiklikleri içerir. Analizde tüm bunları açıkça ele almazsanız , sonuçlarınız şüpheli olacaktır. Kayıtlara bir bakış, konunun popülerliğinin ve zamansal değişikliklerin çok büyük olduğunu gösteriyor; Potansiyel etkileri, itibar etkilerinin büyüklük derecesine kadar olmasını beklediğimiz şeyleri batar.
whuber

2
@cardinal, resmi bir tanım olmasa bile, az sayıda insanın oy verme şekilleri üzerinde kayda değer bir etkisi olması mümkün olacaktır (bu bağlamda whuber'ın bahsettiği şey varsayılır). Jon Skeet'in ortalama gönderisi sadece 5 şeyden oluşuyordu. Birdenbire bir kişi tüm cevaplarını yükseltmeye karar verirse, düşük ortalama puan göz önüne alındığında bu oldukça önemli bir etkiye sahip olabilir.
Andy W

5

YtZtYt=a0+a1Yt1+a2Zt1+ϵtZt=b0+b1Yt1+b2Zt1+δta2ZYZYtΔYt=YtYt1YtFχ2T1T1/2YtZta0a1a2

1. nokta: elle sabit efektler yapıyorsanız, hem tepki değişkenini hem de açıklayıcı değişkenleri ortalamanız gerekirdi. Panel veri regresyon paketi bunu sizin için yapardı, ancak şeylere bakmanın resmi ekonometrik yolu "birleştirilmiş" regresyonu "toplanmış" regresyondan çıkarmaktır (bakınız Wooldridge'in kara kitabı ; ikinci baskıyı kontrol etmedim, ancak genellikle ilk baskıyı ekonometrik panel verilerinin en iyi ders kitabı türü açıklaması olarak görüyorum).

2. noktanızda: elbette Eicker / White standart hataları puan tahminlerinizi etkilemez; eğer yaparlarsa, bu yanlış bir uygulama anlamına gelir! Zaman serileri bağlamında, daha uygun bir tahminci Newey ve West'ten (1987) kaynaklanmaktadır . Dönüşümleri denemek yardımcı olabilir. Ben şahsen Box-Cox dönüşümünün büyük bir hayranıyım, ancak yaptığınız analiz bağlamında, bunu temiz bir şekilde yapmak zordur. İlk olarak, şekil parametresinin üstünde bir shift parametresine ihtiyacınız olacaktır ve shift parametrelerinin bu gibi modellerde tanımlanması çok zordur. İkincisi, muhtemelen farklı insanlar ve / veya farklı mesajlar için farklı kaydırma / şekil parametrelerine ve / veya ... (tüm cehennem gevşiyor) gerekir. Sayım verileri de bir seçenektir, ancak ortalama modelleme bağlamında bir Poisson regresyonu, günlük dönüşümü kadar iyidir, ancak hantal bir varyans = ortalama varsayımı da getirir.

PS Muhtemelen bunu "boyuna veri" ve "zaman serileri" ile etiketleyebilirsiniz.


Yanıtınız ve birkaç yorum / soru için teşekkür ederiz. Bu verilerde en azından daha açık bir zaman serisi yaklaşımı araştırmam gerektiğine katılıyorum (artıklarda otokorelasyon kanıtı olup olmadığını kontrol etmedim bile). Bu verilerin zaman serisi modellemesinde birkaç sorun daha var (t nedir? Ve skorun kendisi dinamiktir ve posta numarası başına sabit değildir), ayrıca Z_t'yi tahmin eden bir regresyona gerek yoktur, Z_t'nin ne olduğunu mükemmel bir şekilde biliyorum bir fonksiyonudur!
Andy W

Ayrıca ben durağan olmayan puanı şüpheliyim, ne olduğunu düşündürüyor?
Andy W

En azından, muhtemelen heteroskedastiktir: Bazı yayınlar ilginçtir, çok sayıda hit ve çok sayıda oy alırken, diğerleri küçük açıklamalar veya RTFM- "Bu bağlantıyı oku" soru / cevap türüdür. Kendi başına teknik olarak durağan değildir. Elbette durağanlık test edilebilir bir varsayımdır, ancak böyle çılgın verilerle, muhtemelen analiz yöntemlerinde aşırı muhafazakar olmanın çok güvenli bir tarafında olmak istersiniz (veya bahsettiğim gibi, sonuçların tuhaf).
StasK

Son yorumdan biraz kafam karıştı. Bir yanıtın puanını etkileyen eksojen faktörler diziyi heteroskedastik hale getirir (puanın varyansının posta numarasıyla büyüdüğünü / küçüldüğünü varsayıyorum?) Ve bu soru ile ilgili ne anlama geliyor?
Andy W

Tüm zaman noktalarındaki marjinal dağılımlar aynı ise bir zaman serisi sabittir. Yani aynı ortama sahip olsanız bile, değişen bir varyans serisi durağan hale getirecektir. Buna bir örnek, 2000'lerin başında Nobel ödülü verilen (G) ARCH modelleri. Ancak bu verilerde, ortalamada da bazı değişiklikler beklerdim. Web sitesinin kitlesi büyürse, o zaman verilen bir cevap kalitesi için, muhtemelen daha fazla oy görürsünüz, bu da puanların hem ortalamasını hem de varyansını artıracaktır.
StasK

3

Arsalarda yapılan diğer bazı değişiklikler:

  1. Önceki sayına göre cevap skoru için kantil bantlar. (Grafik 1 ve 3)
  2. Skeet'in diğerlerine karşı yoğunluk grafikleri, # no'lu tabaka ile sınıflandırılmıştır (Grafik 3)
  3. Rakip yazı sayısı ile katmanlaşmayı düşünün
  4. Zamana göre tabakalaşma (soru sorulduktan uzun süre sonra puan kazanmaya devam edilebilir)

Bunu modellemek daha zor olacak. Poisson regresyonunu düşünebilirsiniz. Açıkçası, iyi araziler geliştirmek, içgörüleri ve becerileri geliştirmek için çok daha iyi bir yöntemdir. Verileri daha iyi anladıktan sonra modellemeye başlayın.


(+1) Gönderinin bir süre oturmasına izin verdikten sonra, noktaların yoğunluğunu görselleştirmenin, noktaları kendileri görselleştirmeye çalışmaktan çok daha iyi bir çözüm gibi göründüğünü fark ettim. posta #"). Ayrıca, tahmin edilen kantilleri çizmenin iyi bir fikir gibi olduğunu düşünüyorum, ancak 1. ve 2. bölüm için büyük olasılıkla büyük bulutta olacak. Yine bu bağlamda "zamana göre tabakalaşma" nın ne anlama geldiğini bilmiyorum, Brad yazı'nın blog yazısı hakkındaki yorumu ve bu konudaki cevabım.
Andy W

Ayrıca, rakip gönderilerin gözlemlenen ilişkilerle ilgisi olduğundan şüphe duyuyorum. Yüksek itibara sahip insanların tarihlerinin başlarında daha rekabetçi cevaplar veren konulara mı gönderildiğini düşünüyor musunuz? Diğer ortak değişkenleri dahil etme konusundaki önerileriniz, modellemekten kaçınmak ve arazilere odaklanmak için öneriyle çelişiyor gibi görünüyor.
Andy W

Rakip yazıların ardındaki fikir doğada keşifçidir. Cevap verme motivasyonunun bununla bir ilgisi yoktur. Modelleme ile ilgili olarak, kendiliğinden modellemeye karşı olduğumdan değil, verileri daha iyi anlayana kadar bunu yapmaya henüz hazır değilsiniz. Verileri anlamıyorsanız, modelleri anlamazsınız.
Yineleyici

Post # ile katmanlaştırarak, gönderileri depolamanızı öneririm. 0-100 direkler, 101-200, vb. Gibi bir aralık ölçeğinde olabilir. çok fazla yayını var, onu akran grubuyla karşılaştırmak en iyisidir, ancak onu tam olarak aynı mesaj sayısına sahip olan akran grubuyla karşılaştırmak zordur - verilerin birleştirilmesi yardımcı olabilir.
Yineleyici

Btw, tabakalaşma için kullanabilirsiniz coplot().
Yineleyici

1

Whoa orada. (Ve bunu iyi bir şekilde ifade ediyorum ;-)) Modellerle daha ileri gitmeden önce verilerle neler olup bittiğini ele almanız gerekiyor.

Bu grafiğin ortasında çok tuhaf bir eğri için bir açıklama görmüyorum: http://stats.blogoverflow.com/files/2011/07/Rep_Correlated_With_Upvotes.png

Böyle bir eğri görmek, bu noktalar hakkında çok garip bir şey olduğunu düşündürüyor - birbirlerinden bağımsız olmadıklarını ve bunun yerine aynı kaynağın gözlemlerini yansıttığını gösteriyor.

(Küçük not: "Korelasyon ..." grafiğini yazmak yanıltıcıdır.)


5
23

Bu eğri, itibarın upvotes ile nasıl ilişkili olduğunun doğası ile açıklanabilir ve muhtemelen bir cevap gönderen ve bu tek cevaptan tüm saygınlığı kazanan insanlardır (gerekirse bu durumun neden olası olduğu hakkında daha fazla ayrıntıya girebilirim) . Eğer şimdiki itibarı en güncel posttan itibarı planlamış olsaydım, bu çoğunlukla bununla ilgilenirdi (ayrıca bu gözlemlerin sonraki analizle hiçbir ilgisi yoktur). Korelasyonun yanıltıcı olduğu üzerinde durmak ister misiniz?
Andy W

@whuber, 10 ^ 3'ün altında bir şeyin sadece gürültü olduğunu söyleyeceğimi sanmıyorum. İtibarın olmadığı zamanlarda kesinlikle bir itibar etkileri teorisi uygulanmalıdır. Ben de parseller için önerilen herhangi bir iyileştirme hoş geldiniz (hiçbir parselde çok fazla bilgi yok!)
Andy W

Teşekkürler. Başlık için korelasyonun hesaplanması yoktur. Bu, itibar karşısında marjinal puanın bir dağılım grafiğidir. Siz ve @whuber'ın belirttiği gibi, bu gerçekten marjinal bir puan değil: Rep (t-1) ile deltaRep (veya Rep (t) - Rep (t-1)) olmalıdır.
Iterator

1
@Iterator, son ifade için doğru (upvote başına 10 puan), ancak yine de diğer ifade ile çizdiğim şeylerin kafası karışık olabilir. Y ekseni itibar değildir, ancak en son gönderi için yukarı oyların sayısıdır (bu, Rep(t) - Rep(t-1)kullanıcıların başka yerlerden itibar kazanabilmesi için gerekli değildir ), X ekseni geçerli itibardır (bu postadan kazanılan itibar dahil). X ekseni değiştirilmesini önerdiğim şeydir (Y ekseninde çizilen söz konusu cevaptan elde edilen upvotes çıkarılır).
Andy W
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.