Amazon'un “ortalama puanı” yanıltıcı mıdır?


49

Doğru anlarsam, 1-5 arası kitap derecelendirme Likert puanlarıdır. Yani, benim için bir 3 mutlaka bir başkası için bir 3 olmayabilir. Sıralı bir ölçek IMO. Kişi gerçekten sıralı skalaları ortalamamalı, ancak kesinlikle mod, ortanca ve yüzdelik harfleri alabilir.

Bu yüzden hiç 'Tamam' olduğunu kuralları esnetmeye nüfusun büyük bir kısmı anlar beri araçları yukarıdaki istatistiklere göre? Her ne kadar araştırma topluluğu Likert ölçeğine dayalı verilerin ortalamalarını alarak kuvvetli bir şekilde azarlamasına rağmen, bunu kitlelerle (pratik olarak konuşarak) yapmak iyi midir? Bu durumda ortalamayı almak, başlamak için bile yanıltıcı mıdır?

Amazon gibi bir şirketin temel istatistiklerle uğraşması pek mümkün görünmüyor, ama değilse o zaman burada ne eksikim? Sıra ölçeğinin ortalamanın alınmasını haklı çıkarmak için sıraya uygun bir yaklaşım olduğunu iddia edebilir miyiz? Hangi gerekçeyle?


3
Eğer sizin için 3, bir başkası için 3 ile aynı değilse, o zaman bir skalanız bile yoktur: karşılaştırılamaz ölçümler koleksiyonunuz var ve bunları özetlemek için yapabileceğiniz çok az anlamlı şey var. Ne bir ölçek ordinal yapar (a) değerleri olmasıdır olabilir karşılaştırılabilir, bu nedenle 3 ve benim 3 aynı anlama ama (b) değerlerinin sayısal farklar, onların işaretleri dışında anlamsızdır (diyelim) iki 3'ün, bir o kadar Şekil 4 ve 2 veya 5 ve 1 , herhangi bir sıraya göre yerleştirilebilir, ancak sayısal olarak her bir derecelendirme çifti aynı ortalama ve ortancaya sahiptir.
whuber

1
@whuber - ama 2 kişinin 1-9 ölçeğinde aynı görüşü sayılarla paylaşmayabileceği doğru değil mi? Benim için bir 6, önceden tanımlanmış bir ölçeğe sahip olmadıkça , bir başkası için 6 olmayabilir.
PhD

1
Son zamanlarda bir yorum okudum amazon "Ben mükemmel ürün hata olamaz. Ben hiçbir şey 5 yıldız vermezdim, bu yüzden 4 ödüllendirdi" dedi. Eğer bu, ortalığı çarpıtmazsa, bunu bilmiyordum
Matt Wilko

2
@ Wilko Sizce ölçek farklılıklarından değil fikir farklılıklarından bahsediyorsunuz. Bir cetvel çok dikkatli bir şekilde kalibre edilse bile, (örneğin) jimnastik veya artistik patinaj için skorlar veya nehirlerdeki hızlılık derecesini ölçmek için uluslararası bir ölçek ve hatta uzmanlar bu ölçeği kullanmak için eğitilmiş olsalar bile, yine de farklılıklar olacaktır. Bu, genellikle ölçeğin öznel olduğuna dair kanıt olarak yorumlanmaz: hakimler arasındaki varyasyon olarak yorumlanır.
whuber

1
Üzgünüz, bu gerçekten bir cevap değil, ama ne yazık ki "yorum" işlevini bulamadım. Son zamanlarda, müşteri incelemelerinin ana unsurları üzerine yüksek lisans tezimi yazmaya başladım. Aşağıdaki koşullar göz önüne alındığında, Amazon'un 5 yıldızlı derecelendirme sisteminin öneminden de şüphe etmeye başladım. - Sayısı güvensiz değerlendirme - Etkileri derecelendirme önyargı ve J-Eğrileri ( buildingreputation.com/writings/2009
derPio

Yanıtlar:


42

5 puanlı notun merkezi eğilimini özetlemek için ortalamanın kullanılmasının faydaları

@Gung'dan bahsettiğim gibi, beş aşamalı bir öğenin ortalamasını merkezi eğilim indeksi olarak almanın çok iyi nedenleri olduğunu düşünüyorum. Bu nedenleri burada çoktan sıraladım .

Kelimeleri ifade etmek:

  1. ortalama hesaplamak kolaydır
  2. Ortalama sezgisel ve iyi anlaşılmış
  3. Ortalama tek bir sayıdır
  4. Diğer endeksler çoğu zaman nesnelerin benzer sıralamasını verir.

Amazon için neden ortalama iyidir

Amazon'un ortalamayı bildirmedeki hedeflerini düşünün. Hedefliyor olabilirler

  • bir öğe için sezgisel ve anlaşılır bir derecelendirme sağlamak
  • derecelendirme sisteminin kullanıcı tarafından kabul edilmesini sağlamak
  • insanların derecelendirmenin ne anlama geldiğini anlamalarını sağlamak ve satın alma kararlarını bildirmek için uygun şekilde kullanabilmelerini sağlamak

Amazon, bir çeşit yuvarlanmış ortalama, her derecelendirme seçeneği için sıklık sayımı ve örnekleme boyutu (örneğin, derecelendirme sayısı) sağlar. Bu bilgilerin büyük olasılıkla çoğu insan için hem maddeyle ilgili genel düşünceyi hem de böyle bir reytinge olan güvenini takdir etmesi yeterlidir (yani 20 puana sahip bir 4.5, 2 puana sahip bir 4.5'ten daha doğru olma olasılığı daha yüksektir; 10 5 yıldızlı derecelendirme ve yorum yapmayan bir 1 yıldızlı derecelendirme hala iyi bir öğe olabilir).

Ortalamayı demokratik bir seçenek olarak bile görebilirsiniz. Pek çok seçime, iki puanlık bir ölçekte hangi adayın en yüksek ortalamayı aldığına karar verildi. Benzer şekilde, incelemeyi gönderen her bir kişinin oy kullandığı argümanını alırsanız, ortalamayı her birinin oy hakkını eşit olarak ağırlıklandıran bir form olarak görebilirsiniz.

Ölçekteki farklılıklar gerçekten bir sorun mu?

Psikolojik literatürde bilinen çeşitli değerlendirme önyargıları vardır (inceleme için bkz. Saal ve diğerleri 1980), örneğin merkezi eğilim önyargısı, esneklik önyargısı, katılık önyargısı. Ayrıca, bazı puanlayıcılar daha keyfi olacak ve bazıları daha güvenilir olacaktır. Hatta bazıları sistematik olarak sahte pozitif veya sahte negatif yorumlar vermekten yalan söyleyebilir. Bu, bir öğe için gerçek ortalama derecelendirmesini hesaplamaya çalışırken çeşitli hata biçimleri yaratacaktır.

Ancak, eğer popülasyonun rastgele bir örneğini alırsanız, bu tür önyargılar ortadan kalkar ve yeterli sayıda örnekleyici ile, hala gerçek ortalamayı elde edersiniz.

Tabii ki, Amazon'da rastgele bir örnek almıyorsunuz ve bir öğe için aldığınız belirli puanlayıcıların daha esnek veya katı olmaları için sistematik olarak önyargılı olma riski vardır. Bununla birlikte, Amazon kullanıcılarının, gönderilen derecelendirmelerin hatalı bir örneklemden geldiğini takdir edeceğini düşünüyorum. Ayrıca, makul bir örneklem büyüklüğünde, çoğu durumda, yanıt yanlılığı farklılıklarının çoğunun ortadan kalkmaya başlayacağının muhtemel olduğunu düşünüyorum.

Ortalamanın ötesinde olası gelişmeler

Derecenin doğruluğunu arttırmak için, genel ortalamanın genel kavramına meydan okumam, ancak bunun yerine bir öğe için gerçek nüfus ortalama derecelendirmesini tahmin etmenin başka yolları olduğunu düşünüyorum (yani, elde edilecek ortalama derecelendirme) Maddeyi derecelendirmek için sorulan büyük temsili bir örneklem idi).

  • Güvenilirliklerine göre ağırlık puanlayıcıları
  • Ortalama derecelendirmeyi, tüm öğeler için ortalama derecelendirmenin ağırlıklı bir toplamı olarak tahmin eden ve derecelendirme sayısı arttıkça, belirli maddenin ortalama ağırlığını artıran bir Bayesian derecelendirme sistemi kullanın.
  • Öğeler arasındaki genel derecelendirme eğilimine göre puanlayıcı bilgilerini ayarlayın (örneğin, genellikle 3s veren birinden bir 5, genellikle 4s veren birinden daha değerli olacaktır).

Bu nedenle, derecelendirmedeki doğruluk Amazon'un ana hedefi ise, madde başına düşen puan sayısını artırmaya ve yukarıdaki stratejilerin bazılarını benimsemeye çalışılması gerektiğini düşünüyorum. Bu tür yaklaşımlar, “en iyileri” sıralaması oluştururken özellikle uygun olabilir. Ancak, sayfadaki mütevazi not için, örneklemin basitlik ve şeffaflık hedeflerine daha iyi uyması iyi olabilir.

Referanslar

  • Saal, FE, Downey, RG ve Lahey, MA (1980). Derecelendirmelerin derecelendirilmesi: Derecelendirme verilerinin psikometrik kalitesinin değerlendirilmesi. Psikolojik Bülten, 88, 413.

1
+1. Bence bu önceki cevabınızı çok güzel bir şekilde aşıyor / uzatıyor. Özellikle, son cümlemde neyi elde etmeye çalıştığımı daha açık bir şekilde anlatan 'neden ortalamanın Amazon için iyi olduğunu' bölümünü sevdim. 'Farklı ölçek kullanımları' da oldukça anlayışlı; Eğer iyi bir tane biliyorsanız, bu literatürün gözden geçirilmesine yapılan bir alıntıyı takdir ediyorum. Yine de, son bölümün 2 nolu gerginlikte olduğuna dikkat edin.
gung - Reinstate Monica

2
Teşekkürler. Derecelendirme yanlılığı literatürüne bir referans ekledim ve sonunda iki bakış açısını uzlaştırmaya çalışan bir şey ekledim.
Jeromy Anglim

2
+1 @JeromyAnglim - sorunun çeşitli yönlerine ışık tutan kapsamlı bir bakış açısı. Kudos!
Doktora

+1, harika cevap. Yine de bir cümleyi biraz yanıltıcı buldum. “Ancak, eğer popülasyonun rastgele bir örneğini alırsanız, bu tür önyargılar iptal edilir ve yeterli sayıda puanlayıcıyla, hala gerçek ortalamayı elde edersiniz” demiştir. Nüfustan rasgele bir örnek almış olsanız bile, bunun tüm önyargılara uygulandığını sanmıyorum.
Michael Bishop,

1
@MichaelBishop Teşekkürler, dilimin orada biraz özensiz olduğunu kabul ediyorum. Sanırım "gerçek ortalama" ile neyin kastedildiğine bağlı. Nüfusun faktörü varsa, bunun düzeltilmemiş popülasyon ortalamasını varsayımsal bir "gerçek ortalama" dan uzağa doğru nasıl önleyebileceğini görebiliyorum. Tüm maddelere uygulanan bireylerin sistematik önyargılarının, sonuç ortalamasına göre tarafsız sıralı sıralama düzenini mümkün kılmak için iptal edeceğini düşünüyordum.
Jeromy Anglim

15

Burada biraz teknik olmak gerekirse, bu derecelendirmeler aslında bir Likert ölçeği değildir ; Onlar sadece sıralı derecelendirmeler. Şimdi, bunu söyledikten sonra, amacın esasen doğru. Ancak, genellikle bu konuda çok fazla şey yapıldığını düşünüyorum. Unutulmaması gereken bir nokta, tipik olarak, bir dizi sıradan öğenin ortalamasının yaklaşık aralık olabileceği ve dolayısıyla çok sayıda derecelendirme olduğunda ortalamanın daha makul bir temsil haline geldiği anlaşılmaktadır . Bu yanıtı @JeromyAnglim tarafından mükemmel buldum (gerçekten, soru ve oradaki tüm cevaplayıcılar okumaya değer). Daha teorik bir tedavi için, buraya bakın. Farklı bir notta, Amazon'u severim, ancak özellikle temel site tasarımı açısından onlardan istatistiksel bir sofistike beklemek için bir neden görmüyorum - nokta, istatistik profesörlerini etkilememek için tüketiciler tarafından kullanılabilirliktir.


2
Amazon, çevrimiçi reklamcılık ve web sitesi kullanımı için deneysel tasarım alanında (internet) teknoloji endüstrisinde liderlerden biri olmuştur. Sen aslında emin olabilirsiniz vardır onların istatistiksel yaklaşımlar oldukça sofistike. :-) Amacınız iyi bir konu. Daha küçük bir adım atmak için, Amazon'un "daha sofistike" bir şey yapıp yapmadığını ve birisinin basit bir ortalama kullanarak onları kontrol edip etmediğini, bazı öğelerin ortalamalarından "yüksek" ve diğerlerinin "düşük" olarak sıralandığını, telaşa yol açıp Amazon'dan ayrılmak, ürünlerle ilgili "gizli önyargılarını" açıklamaya çalışmak için mi?
kardinal

1
Netflix gibi diğer hizmetler, yalnızca "özet" verilerini sağlayarak bu sorunu önler. :)
kardinal

@ cardinal, bu çok ilginç, Amazon hakkında bunu bilmiyordum.
gung - Reinstate Monica

15

Herkesin bu konuda iyi fikirleri var. Gerçekten daha fazlasını ekleyebileceğimi sanmıyorum. Ancak, ben yayınlayacağız bu :


7
Sanırım çizgi roman bazı insanların bir öğenin kalitesinin zayıf hakimleri olduğunu ve bu gibi birçok insanın ortalamasını alarak kötü bir ortalama aldığınızı vurguluyor. Genelde kalabalıkların bilgeliği, ortalamaların, insanların en azından makul bir kısmının bir miktar bilgisi olduğu durumlarda oldukça iyi performans gösterdiğini ortaya koymaktadır. Derecelendirmeleri güvenilirlikle ağırlıklandırmak aynı zamanda sorunları aşmak için bir strateji olabilir.
Jeromy Anglim

1
Diğer seçenek ise, derecelendirmenizi diğer kullanıcıların reytingleriyle karşılaştırarak Netflix stil tavsiyelerini kullanmak ve ardından sizin gibi benzer seçeneklere sahip kullanıcılar tarafından sunulan reytinglerin ortalamalarını kullanmaktır.
rahul

1
@ rahul Bu iyi bir nokta. Cevabımda, zaman zaman hatanın yapısı olsa bile, derecelendirmelerin büyük ölçüde gerçek puan + hata olduğunu kabul ediyorum. Ancak, kişisel tercihin kalite tanımının bir parçası olduğu alanlar söz konusu olduğunda, bu her zaman pek mantıklı gelmiyor.
Jeromy Anglim

Bu hoşuma gitti ve bu yüzden (tüketici olarak) yorumları okumaya çalışıyorum ve sadece yıldız sayısına bakmıyorum. Ama bu durumda medyan, mod ve yüzdelik daha "sofistike" yöntemlerinin hepsi vermek ironik olduğunu düşünmüş kötü ;-) ortalamasına göre sonuç
Darren Cook

3

Tecrübelerime göre, derecelendirme ölçeği verilerinin ortalaması, derecelendirme ölçeği ile ilişkilendirmeye çalıştığımız gerçek dünya ölçümleri düzeyiyle en yakından ilişkilidir. Birçok doğrusal ilişki bulduk ve bu nedenle ortalama, verileri özetlemenin en iyi yollarından biri. Jeromy'nin belirttiği gibi, bir derecelendirme ölçeğinin merkezi eğilimini analiz etmenin çoğu yolu çoğu zaman benzer sonuçlar (sıra emirleri, vb.) Verecektir.

Ayrıca, Amazon'un muhtemelen bir yönüyle bilimsel geçerliliği ile ilgilenenlerin hepsi olmadığını düşünüyorum. Amazon'un hedefi, sonuçta, insanların Amazon.com'da daha fazla alışveriş yapmalarını sağlamak ve incelemelerin başarıya ulaşmalarına yardımcı olmak, muhtemelen bir numaralı özetin ne kullanıldığı ile değişmeyecek. İyi ürünler ödüllendirilecek, gerçekten kötü ürünler cezalandırılacak ve sinir alıcıları artıları ve eksileri daha ayrıntılı olarak inceleme şansına sahip olacaklar.


2

Amazon derecelendirmeleri, sistemi oynayan şirketler nedeniyle yanıltıcıdır. Müşterilere 5 yıldız incelemeleri karşılığında indirim ve ücretsiz ürünler teklif edildiğinde, derecelendirme numarasının ne olduğu veya ne anlama geldiğinin "istatistikleri" tartışılmaz hale gelir.


1
Bu tür şeylerin ne sıklıkla gerçekleştiği hakkında bir bilginiz var mı?
Michael Bishop,

1

İyi bir noktaya değindin. Sıralı sayıların ortalamasını almak biraz yanıltıcıdır. Çeşitli sıralamaların herhangi bir özeti öznel 3'ümün 4'e eşit olabileceği gerçeğinden muzdarip olabilir. Bu nedenle farklı bireysel puanları birleştirmek muhtemelen en büyük sorundur. 3 ve 4'ün ortalamalarını 3.5 olarak yorumlamak neredeyse hiç de tehlikeli değildir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.