Ağırlıklı bir korelasyon gibi bir şey mi?

Akan en popüler müzik sanatçıları hakkında, bölgeye göre yaklaşık 200 kongre bölgesine bölünmüş ilginç verilerim var. Bir kişiyi müzikal tercihleri hakkında sorgulamanın mümkün olup olmadığını görmek ve "Demokrat gibi dinliyor" ya da "Cumhuriyetçi gibi dinliyor" diye karar vermek istiyorum. (Doğal olarak bu hafif yürekli, ancak verilerde gerçek bir entropi var!)

Yaklaşık 100 sanatçıyla ilgili verilerim ve son üç seçim döngüsü boyunca her bir bölgedeki Cumhuriyetçiler ve Demokratlar için ortalama yüzde oylarım var. Bu yüzden her sanatçının üzerinde, hangilerinin en çok dinlendiğini görmek için bir korelasyon yürüttüm - Demokratlar için bir oy payı fonksiyonu olarak. Bu korelasyonlar herhangi bir sanatçı için yaklaşık -0.3 ila 0.3 arasındadır, ortada çok az tahmin gücü olan veya hiç olmayan gücü vardır.

İki sorum var: Birincisi, bölge başına toplam akış sayısı büyük ölçüde değişiyor. Şu anda, ilçe başına Beyonce'ye ait tüm akarsuların yüzdesini Demokratlar için kullanılan oyların yüzdesi ile ilişkilendiriyorum. Ancak bir bölgedeki toplam akış milyonlarca, diğeri ise düşük 100.000'lerde olabilir. Bunu açıklamak için korelasyonu bir şekilde ağırlıklandırmam gerekir mi?

İkincisi, bu korelasyonları kullanıcının politikasıyla ilgili birleşik bir tahminde nasıl birleştireceğimizi merak ediyorum. Diyelim ki en yüksek mutlak korelasyon değerlerine sahip (pozitif ve negatif), her yönde on tane olan ve bir kullanıcıyı her bir sanatçıyı ne kadar sevdiğine dair ankete katıyorum. Bu yüzden her sanatçı için yukarı veya aşağı oy kullanıyorum ve 20 değerin tümü için siyasetle olan ilişkim var. Bu korelasyonları tek bir tahminde birleştirmenin standart bir yolu var mı? (NYTimes'ın 25 soru için bölgesel olasılıkları bir ısı haritasına birleştirdiği ünlü lehçe sınavı gibi bir şey düşünüyorum . Ama bu durumda Demokrat ya da Cumhuriyetçi müziğin zevkinin ne olduğu konusunda tek bir değere ihtiyacım var.

Teşekkür ederim!

— Chris Wilson
kaynak

Ağırlıklı Pearson korelasyon formülü web , StackOverflow ve Wikipedia'da kolayca bulunabilir ve psych veya ağırlıklar gibi çeşitli R paketlerinde ve Python'un istatistik modelleri paketinde uygulanabilir. Düzenli korelasyon gibi hesaplanır ancak ağırlıklı ortalamalar kullanılarak ,

m_{X} = \frac{\sum_{i} w_{i} x_{i}}{\sum_{i} w_{i}}, m_{Y} = \frac{\sum_{i} w_{i} y_{i}}{\sum_{i} w_{i}}

$m_X = \frac{\sum_i w_i x_i}{\sum_i w_i}, ~~~~ m_Y = \frac{\sum_i w_i y_i}{\sum_i w_i}$

ağırlıklı varyanslar ,

s_{X} = \frac{\sum_{i} w_{i} (x_{i} - m_{X})^{2}}{\sum_{i} w_{i}}, s_{Y} = \frac{\sum_{i} w_{i} (y_{i} - m_{Y})^{2}}{\sum_{i} w_{i}}

$s_X = \frac{\sum_i w_i (x_i - m_X)^2}{ \sum_i w_i}, ~~~~ s_Y = \frac{\sum_i w_i (y_i - m_Y)^2}{ \sum_i w_i}$

ve ağırlıklı kovaryans

s_{X Y} = \frac{\sum_{i} w_{i} (x_{i} - m_{X}) (y_{i} - m_{Y})}{\sum_{i} w_{i}}

$s_{XY} = \frac{\sum_i w_i (x_i - m_X)(y_i - m_Y)}{ \sum_i w_i}$

tüm bunlara sahip olursanız, ağırlıklı korelasyonu kolayca hesaplayabilirsiniz

ρ_{X Y} = \frac{s_{X Y}}{\sqrt{s_{X} s_{Y}}}

$\rho_{XY} = \frac{s_{XY}}{\sqrt{s_X s_Y}}$

İkinci sorunuzla ilgili olarak, anladığım kadarıyla, politik yönelim ile yirmi sanatçı ve kullanıcı tercihi hakkındaki ikili cevaplar arasındaki ilişki hakkında verileriniz olur ve bunun bir tür toplam ölçüsünü almak istersiniz.

$z$

\bar{ρ} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (ρ_{j})}{K})

$\bar\rho = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(\rho_j)}{K} \right)$

Temel olarak korelasyon katsayılarının teğetlerini almak uç değerleri "düzleştirir" (aşağıya bakınız), bu yüzden nihai tahmin üzerinde daha az etkiye sahiptir ve dağılımlarını normale yakın hale getirir. Bu prosedür Bushman ve Wang (1995) ve Corey, Dunlap ve Burke (1998) tarafından da tarif edilmiştir.

$r = \mathrm{cor}(X,Y)$ $-r = \mathrm{cor}(-X,Y) = \mathrm{cor}(X,-Y)$

$r_j$ $j$ $x_{ij}$ $i$ $j$ $x_{ij} = 1$ $x_{ij} = -1$

{\bar{r}}_{i} = \tanh^{- 1} (\frac{\sum_{j = 1}^{K} \tanh (r_{j} x_{i j})}{K})

$\bar r_i = \tanh^{-1} \left(\frac{\sum_{j=1}^K \tanh(r_j x_{ij})}{K} \right)$

$-1$ $1$

Fakat...

Tüm bunların temelde çoklu regresyon sorunu olan bir şey için aşırıya kaçma olduğunu düşünmüyor musunuz? Bunun yerine, ağırlıkların alt örneklerin boyutlarına dayandığı tüm ağırlıklandırma ve ortalama, ağırlıklı çoklu regresyon (ikili tercihi veya her iki yönde derece kapalı tercihini tahmin ederseniz doğrusal veya lojistik) kullanabilirsiniz. Her sanatçı için müzikal tercihi belirleyici olarak kullanırsınız. Sonunda, tahmin yapmak için kullanıcının tercihini kullanacaksınız. Bu yaklaşım daha basit ve istatistiksel olarak daha zariftir. Aynı zamanda göreli $A$ $B$

Bushman, BJ ve Wang, MC (1995). Nüfus korelasyon katsayıları için bir tahmin ve bir güven aralığı elde etmek amacıyla örnek korelasyon katsayıları ve oylamalarını birleştirme prosedürü sayılır. Psikolojik Bülten, 117 (3), 530.

Corey, DM, Dunlap, WP ve Burke, MJ (1998). Ortalama Korelasyonlar: Birleşik Pearson rs ve Fisher z Dönüşümlerinde Beklenen Değerler ve Yanlılık, Genel Psikoloji Dergisi, 125 (3), 245-261.

— Tim
kaynak

Teşekkür ederim! Bu çok yardımcı olur. Bugün daha sonra kullanılabilir olduğunda ödül kazanacak.

— Chris Wilson

x_{i}

$x_i$

y_{i}

$y_i$

@Kagaratsch Hiç böyle bir formül görmedim. Bu güzel bir soru olarak nitelendirilir.

— Tim