Son zamanlarda topluluk bültenlerini okuyorsanız , StackExchange ağının CEO'su Joel Spolsky'nin resmi StackExchange blogunda yayınlanan bir yazı olan The Snark The Hunting'u gördünüz . Dış kaynaklı bir bakış açısıyla "dostluğunu" değerlendirmek için bir SE yorumu örneği üzerinde yapılan istatistiksel bir analizden bahseder. Yorumlar StackOverflow'tan rastgele örneklendi ve içerik analistleri, şirketleri uygun ücretler için küçük ve kısa görevler yapan işçilere bağlayan bir iş pazarı olan Amazon'un Mechanical Turk topluluğunun üyeleriydi .
Çok uzun zaman önce, siyaset biliminde yüksek lisans öğrencisiydim ve aldığım derslerden biri İstatistiksel İçerik Analizi idi . Sınıfın nihai projesi, aslında tüm amacı, New York Times'ın savaş raporlamasının ayrıntılı bir analizini yapmaktı , Amerikalıların savaşlar sırasında haberlerin kapsamı hakkında yaptıkları varsayımların doğru olup olmadığını test etmek oldu (spoiler: kanıtlar, bunun bir öneri olduğunu gösteriyor). değil). Proje büyük ve oldukça eğlenceliydi, ancak bugüne kadarki en acı verici bölüm tam bir analiz yapmadan önce meydana gelen “eğitim ve güvenilirlik test aşaması” idi. İki amacı vardı (ayrıntılı bir açıklama için bağlantılı metnin 9. sayfasına ve içerik analizi istatistik literatüründeki kodlayıcılar arası güvenilirlik standartlarına referanslar):
Tüm kodlayıcıların, yani içeriğin okuyucularının aynı nitel tanımlarda eğitildiğini onaylayın. Joel'in analizinde bu, herkesin projenin "dostça" ve "dostça" olarak nasıl tanımladığını tam olarak bilmesi anlamına geliyordu.
Tüm kodlayıcıların bu kuralları güvenilir bir şekilde yorumladığını, yani örneğimizi örneklediğimizi, alt kümeyi analiz ettiğimizi ve sonra da nitel değerlendirmelerdeki ikili ilişkilerimizin istatistiksel olarak oldukça benzer olduğunu kanıtladığımızı doğrulayın.
Güvenilirlik testi zarar verdi çünkü üç ya da dört kez yapmak zorunda kaldık. -1- kilitlenene ve -2- yeterince yüksek çift korelasyon gösterene kadar, tam analiz için elde ettiğimiz sonuçlar şüpheli idi. Geçerli veya geçersiz gösterilemediler. En önemlisi, son örneklemeden önce pilot güvenilirlik testlerini yapmak zorunda kaldık.
Sorum şu: Joel'in istatistiksel analizi pilot güvenilirlik testinden yoksundu ve "dostluğun" operasyonel tanımlarını oluşturmadı. Son veriler, sonuçlarının istatistiksel geçerliliği hakkında bir şeyler söyleyebilecek kadar güvenilir miydi?
Bir bakış açısı için, bu primer kodlayıcı güvenilirliği ve tutarlı operasyonel tanımların değeri üzerine düşünün. Aynı kaynaktan daha derinden, pilot güvenilirlik testlerini okuyabilirsiniz (listedeki 5. madde).
Andy W.'nin cevabındaki önerisine göre, R'deki bu komut serisini kullanarak burada bulunan veri setinde çeşitli güvenilirlik istatistiklerini hesaplamaya çalışıyorum (yeni istatistikleri hesaplarken güncellenir).
Tanımlayıcı istatistikler burada
Yüzde anlaşması (tolerans = 0 ile): 0,0143
Yüzde anlaşması (tolerans = 1 ile): 11,8
Krippendorff's alfa: 0.1529467
Ayrıca başka bir soruda bu veriler için bir madde-cevap modelini denedim.