Joel Spolsky'nin “Snark Avcılığı” geçerli bir istatistiksel içerik analizi midir?


25

Son zamanlarda topluluk bültenlerini okuyorsanız , StackExchange ağının CEO'su Joel Spolsky'nin resmi StackExchange blogunda yayınlanan bir yazı olan The Snark The Hunting'u gördünüz . Dış kaynaklı bir bakış açısıyla "dostluğunu" değerlendirmek için bir SE yorumu örneği üzerinde yapılan istatistiksel bir analizden bahseder. Yorumlar StackOverflow'tan rastgele örneklendi ve içerik analistleri, şirketleri uygun ücretler için küçük ve kısa görevler yapan işçilere bağlayan bir iş pazarı olan Amazon'un Mechanical Turk topluluğunun üyeleriydi .

Çok uzun zaman önce, siyaset biliminde yüksek lisans öğrencisiydim ve aldığım derslerden biri İstatistiksel İçerik Analizi idi . Sınıfın nihai projesi, aslında tüm amacı, New York Times'ın savaş raporlamasının ayrıntılı bir analizini yapmaktı , Amerikalıların savaşlar sırasında haberlerin kapsamı hakkında yaptıkları varsayımların doğru olup olmadığını test etmek oldu (spoiler: kanıtlar, bunun bir öneri olduğunu gösteriyor). değil). Proje büyük ve oldukça eğlenceliydi, ancak bugüne kadarki en acı verici bölüm tam bir analiz yapmadan önce meydana gelen “eğitim ve güvenilirlik test aşaması” idi. İki amacı vardı (ayrıntılı bir açıklama için bağlantılı metnin 9. sayfasına ve içerik analizi istatistik literatüründeki kodlayıcılar arası güvenilirlik standartlarına referanslar):

  1. Tüm kodlayıcıların, yani içeriğin okuyucularının aynı nitel tanımlarda eğitildiğini onaylayın. Joel'in analizinde bu, herkesin projenin "dostça" ve "dostça" olarak nasıl tanımladığını tam olarak bilmesi anlamına geliyordu.

  2. Tüm kodlayıcıların bu kuralları güvenilir bir şekilde yorumladığını, yani örneğimizi örneklediğimizi, alt kümeyi analiz ettiğimizi ve sonra da nitel değerlendirmelerdeki ikili ilişkilerimizin istatistiksel olarak oldukça benzer olduğunu kanıtladığımızı doğrulayın.

Güvenilirlik testi zarar verdi çünkü üç ya da dört kez yapmak zorunda kaldık. -1- kilitlenene ve -2- yeterince yüksek çift korelasyon gösterene kadar, tam analiz için elde ettiğimiz sonuçlar şüpheli idi. Geçerli veya geçersiz gösterilemediler. En önemlisi, son örneklemeden önce pilot güvenilirlik testlerini yapmak zorunda kaldık.

Sorum şu: Joel'in istatistiksel analizi pilot güvenilirlik testinden yoksundu ve "dostluğun" operasyonel tanımlarını oluşturmadı. Son veriler, sonuçlarının istatistiksel geçerliliği hakkında bir şeyler söyleyebilecek kadar güvenilir miydi?

Bir bakış açısı için, bu primer kodlayıcı güvenilirliği ve tutarlı operasyonel tanımların değeri üzerine düşünün. Aynı kaynaktan daha derinden, pilot güvenilirlik testlerini okuyabilirsiniz (listedeki 5. madde).

Andy W.'nin cevabındaki önerisine göre, R'deki bu komut serisini kullanarak burada bulunan veri setinde çeşitli güvenilirlik istatistiklerini hesaplamaya çalışıyorum (yeni istatistikleri hesaplarken güncellenir).

Tanımlayıcı istatistikler burada

Yüzde anlaşması (tolerans = 0 ile): 0,0143

Yüzde anlaşması (tolerans = 1 ile): 11,8

Krippendorff's alfa: 0.1529467

Ayrıca başka bir soruda bu veriler için bir madde-cevap modelini denedim.


1
Bu kodlama verilerini kamuya açık şekilde yayınladı, böylece istenirse kodlayıcıların kendi güvenilirliğini değerlendirebilirdi.
Andy W

3
Re: # 1 - yorumlar eğer bir egzersiz çok olmadığını belirtmek gerekir edildi yorumlar olsaydı dost ya da değil, ama daha bir egzersiz üzerinde algılanan dost olarak ya da değil bir dış kullanıcıya.
Rachel

3
@Rachel Bunun doğru olduğunu sanmıyorum. Eğer yabancıların SO hakkındaki yorumları nasıl algıladıklarını ölçüyorlarsa, 20 kişiden daha büyük bir örnekleme ihtiyaç duyacaklardı.
Christopher

2
Dışarıdan gelenlerin yorumları nasıl algıladığı ile ilgili bir şeyler sonuçlandırmak ve yorumların kendileri hakkında bir şeyler sonuçlandırmak arasındaki fark budur. İlk durumda, çok daha büyük bir insan örneğine ihtiyacınız olacaktı ve sonuç “Yabancılar SO yorumlarının% 2.3'ünün dostça olmadığını düşünüyor” şeklinde sonuçlanacaktı. İkincisi, "SO yorumlarının% 2,3'ü dostça değil". Bunlar farklı sonuçlar ve bence ikincisinin yapması mümkün olmayabilir, çünkü kodlayıcıların yorumları güvenilirlik testi olmadan benzer şekilde değerlendirdiğini gösteremiyoruz.
Christopher

2
@Christopher Samimiyeti olsa da çok öznel. Kime sorduğunuza bağlı olarak, aynı yorum hem arkadaşça hem de arkadaşça olarak görülebilir. Bu nedenle, bakış açısını kendinizle aynı görüşe sahip olan biri yerine çok sayıda rastgele kullanıcıdan elde etmenin daha önemli olduğunu düşünüyorum.
Rachel

Yanıtlar:


6

Yüzde anlaşması (tolerans = 0 ile): 0,0143

Yüzde anlaşması (tolerans = 1 ile): 11,8

Krippendorff's alfa: 0.1529467

Bu anlaşma önlemleri, neredeyse hiçbir kategorik anlaşma olmadığını belirtir - her kodlayıcı, yorumları "dostça" veya "dostça" olarak değerlendirmek için kendi içsel kesme noktasına sahiptir.

Üç kategorinin sıralandığını varsayarsak, yani: Düşmanca <Nötr <Dostça, sınıf içi korelasyonu başka bir anlaşma ölçüsü olarak da hesaplayabiliriz. 1000 yorumdan oluşan rasgele bir örneklemde, ICC (2,1) .28 ve ICC (2, k) .88 vardır. Bu, eğer 20 puanlayıcıdan sadece birini alırsanız, sonuçların çok güvenilmez olacağı anlamına gelir (.28), eğer ortalama 20 puanlayıcı alırsanız, sonuçlar güvenilirdir (.88). Üç rastgele puanlayıcının farklı kombinasyonlarını alarak, ortalama güvenilirlik hala düşük olduğu düşünülen .50 ile .60 arasındadır.

İki kodlayıcı arasındaki ortalama iki değişkenli korelasyon da oldukça düşüktür .34'tür.

Eğer bu anlaşma önlemleri kodlayıcıların kalite ölçüsü olarak görülüyorsa (aslında iyi bir anlaşma göstermeli), cevap: iyi kodlayıcı değiller ve daha iyi eğitilmiş olmaları. Bu "rastgele kişiler arasında kendiliğinden yapılan anlaşmanın ne kadar iyi olduğu" bir ölçü olarak görülüyorsa, cevap ayrıca: Çok yüksek değil. Bir kıyaslama olarak, fiziksel çekicilik dereceleri için ortalama korelasyon .47 - .71 civarındadır [1]

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., & Smoot, M. (2000). Maxims veya güzellik mitleri? Bir meta-analitik ve teorik inceleme. Psikolojik Bülten, 126, 390-423. DOI: 10,1037 / 0033-2909.126.3.390


7

Skorların güvenilirliği, Klasik Test Teorisi açısından sıklıkla yorumlanmaktadır . Burada gerçek bir puan vardır X, ancak herhangi bir sonuçta gözlemlediğiniz şey sadece gerçek puan değil, aynı zamanda bazı hatalarla dolu olan gerçek puandır (örn. Observed = X + error). Teorik olarak, aynı temel testin birden fazla gözlenen ölçütünü alarak (bu testlerin hatalarının dağılımı hakkında bazı varsayımlar yaparak) kişi gözlemlenmemiş gerçek puanı ölçebilir.

Burada, bu çerçevede, gözlenen birden fazla önleminizin aynı temel testi ölçtüğünü varsaymanız gerektiğini unutmayın. Test maddelerinin zayıf güvenilirliği daha sonra sıklıkla gözlenen önlemlerin aynı temel testi ölçmediğinin kanıtı olarak alınır. Bu, sadece alanın bir konvansiyonudur, ancak kendi başına zayıf güvenilirlik, öğelerin aynı yapıyı ölçmediğini kanıtlamaz (herhangi bir istatistiksel anlamda). Bu nedenle, birçok güvenilen önlem alarak, çok güvenilmez testlerle bile, gerçek bir puanın güvenilir bir ölçümünün ortaya çıkabileceği söylenebilir.

Ayrıca, klasik test teorisinin bu tür testleri yorumlamanın tek yolu olmadığına da değinilmekte ve çoğu üniversite öğrencisi gizli değişkenler ve madde-cevap teorisi kavramının her zaman klasik test teorisinden daha uygun olduğunu iddia edecektir .


Klasik test teorisinde de benzer bir örtük varsayım, insanların güvenilirliğin çok yüksek olduğunu söylediği zamandır. Belirli kalem (ler) in bazı altta yatan testi ölçüp ölçmemesinin geçerliliği hakkında hiçbir şey söylemez, ancak güvenilirlik çok yüksek olduğunda araştırmacılar testler arasındaki hataların bağımsız olmadığını kanıtlar.

İçeri girmemeniz ve güvenilirlikleri kendiniz hesaplamanız için neden bu kadar zor olduğunuzdan emin değilim. Neden kimse bunu yapmıyor ve daha sonra bu ilave bilgiler ışığında analizi yorumluyor?


Öncelikle, iyi bir sebepten dolayı artık istatistik yapan bir lisans öğrencisi olmadığımı belirtmeme izin verin: bu tamamen benim biçimim değildi. Metodolojiyi yanlış anlıyor olabilirim. Aynı şekilde, siz ve ben farklı güvenirlik ölçütleri hakkında konuştuğumuzu düşünüyorum ya da en azından son analizin geçerliliği ile ilgili hususlar uygulanmadan önce kodlayıcılar arası güvenilirliği ölçmeyi öneren bir araştırma var. Bu konuyu web’de bulduğum bir kaynağı içerecek şekilde düzenledim; bu konuda konuyla ilgili çok daha fazla araştırma yapılmasına işaret ediyor.
Christopher

Farklı bir bağlam (bazı sürekli sonuçlar yerine iki boyutlu test öğelerinin güvenilirliği), ancak mantık fonksiyonel olarak aynı. Bu yüzden neden belirli bir güvenilirlik ölçütünden bahsetmedim (birçoğu var). Alıntılarınız hiçbir şey ifade etmiyor before the final analysis, bu yüzden bu fikrin nereden geldiğinden emin değilim.
Andy W

Ah ha. Haklısın, bu tam bir gereklilik değil. Gönderdiğim bağlantıyı daha fazla okuduğumda, bu pilot testlerinin metodolojik en iyi uygulama olarak kabul edildiği görülüyor (içinde pilot testi arayın).
Christopher

Sorumu yeni bilgilere uyacak şekilde değiştirdim. Hatamı düzelten yardımın için teşekkür ederim.
Christopher

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.