Polarize kullanıcı görüşleri nasıl algılanır (yüksek ve düşük yıldız derecelendirmeleri)


15

Kullanıcıların bir ürün veya öğe için tercihlerini ifade edebilecekleri bir yıldız derecelendirme sistemim varsa, oylar oldukça "bölünmüşse" istatistiksel olarak nasıl tespit edebilirim? Yani, belirli bir ürün için ortalama 5 üzerinden 3 olsa bile, bunun sadece verileri kullanarak bir fikir birliği 3'e karşı 1-5 bölünmüş olup olmadığını nasıl tespit edebilirim (grafik yöntem yok)


3
Standart Sapma kullanmanın nesi yanlış?
Spork


1
"Bimodal dağılımı" tespit etmeye mi çalışıyorsunuz? Bkz stats.stackexchange.com/q/5960/29552
Ben Voigt

1
Siyaset biliminde, siyasal kutuplaşmanın ölçülmesi ile ilgili "kutuplaşma" ile kastedilen çeşitli farklı yolları inceleyen bir literatür vardır. Polarizasyonu tanımlamanın 4 farklı basit yolunu ayrıntılı olarak tartışan güzel bir makale aşağıdadır (bkz. S. 692-699): educ.jmu.edu/~brysonbp/pubs/PBJ.pdf
Jake Westfall

Yanıtlar:


12

Bir polarizasyon indeksi oluşturulabilir; tam olarak nasıl tanımlandığı, neyin daha polarize olduğunu (yani, özellikle kenar durumlarda, daha fazla veya daha az polarize ile ne demek istediğinizi) bağlıdır:

Örneğin, ortalama '4' ise, '3' ve '5' arasında 50-50'lik bir bölünme daha fazla mı yoksa% 25 '1' ve% 75 '5' ten daha az polarize mi?

Her neyse, ne demek istediğinizin bu tür özel bir tanımının yokluğunda, varyansa dayalı bir önlem öneririm:

Belirli bir ortalama verildiğinde, olası en polarize bölünmeyi varyansı en üst düzeye çıkaran bölme olarak tanımlayın *.

* (% 25 '1' ve% 75 '5' 'in 50-50' 3 ve '5' bölünmesinden çok daha polarize olduğunu söyleyen NB ; eğer sezginize uymuyorsa, varyans kullanmayın)

Dolayısıyla bu polarizasyon indeksi, gözlemlenen varyanstaki olası en büyük varyansın ( gözlemlenen ortalama ile ) oranıdır .

Ortalama puanı ( m = ˉ x ) olarak adlandırın.mm=x¯

Maksimum varyans p = m - 1 oranı olduğunda oluşur olan5ve1-polan1; bunun(m-1)(5-m)nvaryansı vardır p=m1451p1 .(m1)(5m)nn1

Bu yüzden sadece örnek varyansını alın ve ( m - 1 ) ( 5 - m ) n değerine bölün. ; bu0(mükemmel uyum) ve1(tamamen polarize)arasında bir sayı verir.(m1)(5m)nn101

Ortalama puanın 4 olduğu bir çok durumda, bu aşağıdakileri verecektir:

enter image description here


Bunun yerine, bunları aynı ortalama ile mümkün olan en büyük varyansa göre hesaplamayı değil , bunun yerine herhangi bir ortalama derecelendirme için mümkün olan en büyük varyansın yüzdesi olarak hesaplamayı tercih edebilirsiniz . Bunun yerine ve yine 0 (mükemmel uyum) ve1(uçlarda 50-50 oranında polarize edilmiş) arasında bir değer verir. Bu, yukarıdaki diyagramla aynı göreceliğe sahip olacaktır, ancak tüm değerler 3/4 kadar büyük olacaktır (yani soldan sağa, yukarıdan aşağıya 0,% 16,5,% 25,% 25, ​​50) % ve% 75).4nn11

Bu ikisinden biri mükemmel bir şekilde geçerli bir seçimdir - böyle bir endeksi oluşturmanın başka herhangi bir alternatif yolu gibi.


Ama sonra m = 1olsun 1 - 1 = 0ve 0 / 0. Bunu nasıl düzeltirsiniz?
Francesco

@Franceso İyi bir nokta. Tüm ya da m = 5 , ilk form için formül tanımlanmamış. Ancak, çeşitli varsayımlar altında sınır 1 gibi görünüyor, ki bu muhtemelen kullanacağım şeydi. Birisi bu son durum için 1 veya 0 olarak tanımlamak isterse, benim için makul görünebilir. m=1m=5
Glen_b-Monica

8

"Grafik yöntem yok" büyük bir engeldir, ama ... işte birkaç tuhaf fikir. Her ikisi de derecelendirmeleri sürekli olarak ele alıyor, bu da kavramsal bir zayıflık ve muhtemelen tek değil ...

Basıklık

  • {1,1,1,5,5,5} = 1'in basıklığı 1–5 derecelendirme kombinasyonu olan daha düşük basıklık elde edemezsiniz.
  • {1,2,3,4,5} = 1,7'nin basıklığı. Düşük, daha uç değerler anlamına gelir; daha yüksek, daha orta demektir.
  • Dağıtım kabaca simetrik değilse bu işe yaramaz. Aşağıda göstereceğim.

Negatif binom regresyonu

RatingFrequency1312153749537
FrequencyRating+RatingRating

FWIW, burada oynadığım kodu:

x=rbinom(99,4,c(.1,.9))+1;y=sample(0:4,99,replace=T)+1 #Some polarized & uniform rating data
table(x);table(y)                                                         #Frequencies
require(moments);kurtosis(x);kurtosis(y)                                  #Kurtosis

Y=data.frame(n=as.numeric(table(y)),rating=as.numeric(levels(factor(y)))) #Data frame setup
X=data.frame(n=as.numeric(table(x)),rating=as.numeric(levels(factor(x)))) #Data frame setup
require(MASS);summary(glm.nb(n~rating+sqrt(rating),X))  #Negative binomial of polarized data
summary(glm.nb(n~rating+sqrt(rating),Y))                #Negative binomial of uniform data

Bir arsaya atmaya direnemiyorum ...

require(ggplot2);ggplot(X,aes(x=rating,y=n))+geom_point()+stat_smooth(formula=y~x+I(sqrt(x)),method='glm',family='poisson')

Rating



Düzenleme: Sadece kenar çubuğunda reklamı yapılan bu soruyu gördüm: ve tıkladığımda, Sıcak Ağ Soruları'nda, bazen olduğu gibi , kendi kendine geri bağlandığını gördüm ,

bu yüzden bunun daha genel olarak faydalı bir şekilde tekrar ziyaret etmeyi hak edebileceğini düşündüm. The Mountain Three Wolf Moon Short Sleeve Tee için Amazon müşteri incelemelerinde yöntemlerimi denemeye karar verdim :

Rating12345Frequency20854891982273


βRating=19.1

σFrequencyThe Mountain Three Wolf Moon Short Sleeve Tee Ratings2=1.31
x=rep(5:1,c(2273,198,89,54,208))var(x)/(4*length(x)/(length(x)-1))


Polarizasyon endeksinin ilk versiyonu için yaklaşık 0.77'dir (yani ortalama derecelendirme göz önüne alındığında en polarize olana göre), ancak evet, dediğin gibi, ikinci versiyon için 0.33 (mümkün olan en polarize göre).
Glen_b

@Glen_b: Ortalama, karşılaştırılması gereken çeşitli derecelendirme grupları arasında sabit olmadığında daha az uygun değil mi? Yoksa cevabını yanlış mı anladım?
Nick Stauner

Amaç ne olduğuna bağlı. "Polarize görüşlerin nasıl tespit edileceği" başlığına bakılırsa, ilkine doğru eğilirim ( ortalama derecelendirme göz önüne alındığında, bu konuda görüş ne kadar kutuplaşmış? ). Amaç gerçekten farklı derecelendirme kümelerini karşılaştırmak olsaydı, önerdiğiniz gibi ikinci yaklaşımla çalışmak daha mantıklı olabilir. Bu yüzden ikisini de yaptım. Benim yorumum hiçbir şekilde eleştiri olarak düşünülmemişti; Bahsettiğin için gurur duydum.
Glen_b-Monica

@Glen_b: Anlaşıldı :) TBH, negatif binomiyal regresyon modelleme yaklaşımının daha iyi olduğunu öne sürüyorum, ancak itiraf etmedim. En gerçek polarize derecelendirme kümelerinin eşit olarak polarize edilmeyeceğini hissediyorum, bu yüzden asimetriye karşı sağlamlığın gelecekteki okuyucular için önemli olacağını düşünüyorum.
Nick Stauner

5

(13)2+(33)2+(33)2+(53)24=1
(13)2+(13)2+(53)2+(53)24=2

2

Şimdiden verilen akıllı cevaplara değerli bir şey ekleyebileceğimden şüpheliyim. Özellikle, @ Glen_b'in gözlemlenen varyansın, gözlemlenen ortalama altında mümkün olan maksimum varyansa nispeten yakın olduğunu değerlendirmek için iyi fikri. Kendi künt ve doğrudan omuz teklifimden, bunun yerine, bazı merkezlerden sapmalara değil, doğrudan veri noktaları arasındaki mesafelere dayanan bazı güçlü dağılım ölçüsü hakkında.

dii Hodges-Lehmann merkezi olabilir ).

Rating scale                   Distances      Mean     Median    Hodges-Lehmann
1  2  3  4  5

Frequency distributions:

1     2     1                 0 2 2 2 2 4      2          2          2

2           2                 0 0 4 4 4 4      2.7        4          2

1        2  1                 0 1 1 3 3 4      2          2          2

1  1  1     1                 1 1 2 2 3 4      2.2        2          2

1  1     1  1                 1 1 2 3 3 4      2.3        2.5        2.5

1           3                 0 0 0 4 4 4      2          2          2

N


Çift kare mesafelerin ortalaması varyansla ilgilidir.
Glen_b

0

3 yıldızlı derecelendirme 5 ve 4 ortalamasından daha küçük ve 1 ve 2 ortalamasından daha küçükse:

if (number_of_ratings > 6)      // kind of meaningless unless there's enough ratings
{
    if ( ((rating(5)+rating(4))*0.5 > rating(3)) &&
         ((rating(1)+rating(2))*0.5 > rating(3))
       )    
    {
        // Opinion divided
    }
    else
    {
        // Opinion not divided
    }
}
else
{
    // Hard to tell yet if opinion is divided
}

Başımın üstünde bunun işe yaramayacağı bir durum düşünemiyorum. Yukarıdaki örneği kullanarak: The Mountain Üç Kurt Ay Kısa Kollu Tee için Amazon müşteri yorumları :

R,birtbenng12345Frequency20854891982273

Bu durumda:

R,birtbenngbirverbirge(1,2)3birverbirge(4,5)Frequency131891235

Bu testi geçecek ve bölünmüş görüş olarak kabul edilecektir.


1
çok sayıda 2s ve 4s ve nispeten az sayıda başka derecelendirme olsaydı ne olurdu ? Gerçekte bunun olduğunu hayal etmek zor, ama kişi bunu kutuplaşmış olarak adlandırmak ister mi?
Nick Stauner

Come to think of it, one could more easily find cases with lots of 1s and 5s, very few 2s and 4s, and a moderate amount of 3s. For instance,
Rating12345Frequency25515525
That's pretty polarized, no? Yet your method would produce the same result for this as for a uniform distribution of 15 of each rating.
Nick Stauner

0

I think what you are looking for is standard deviation:

σ=i=0n(xiμ)2nwhere σ is standard deviation, n is the number of data points,x represents all of the data points, andμ is the mean.

I don't know what programming language this is, but here's a java method that will give you standard deviation:

public static double standardDeviation(double[] data) {
            //find the mean
    double sum = 0;
    for(double x:data) {
        sum+=x;
    }
    double mean = sum/data.length;

            //find standard deviation
    Double sd;
    sd=0.0;
    for(double x:data) {
        sd+=Math.pow((x-mean),2);
    }
    sd=sd/data.length;
    sd=Math.sqrt(sd);

    return sd;
}
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.