Nominal (dikotomatik olmayan) nominal değişken ile sayısal (aralık) veya sıralı değişken arasındaki korelasyon katsayısı


13

Sorunumun cevabını bulmaya çalışırken bu sitedeki tüm sayfaları zaten okudum ama kimse bana doğru olan gibi görünmüyor ...

Öncelikle size birlikte çalıştığım veri türlerini açıklıyorum ...

300 kullanıcının her biri için bir tane olmak üzere çeşitli şehir adlarına sahip bir dizi vektörüm olduğunu varsayalım. Ayrıca her kullanıcının anketine veya her kullanıcı için sürekli bir değere yanıt veren başka bir dizi vektörü var.

Nominal ve sayısal / sürekli veya sıralı değişkenler arasındaki bu iki değişken arasındaki korelasyonu hesaplayan bir korelasyon katsayısı olup olmadığını bilmek istiyorum.

İnternette arama yaptım ve bazı sayfalarda beklenmedik durum katsayısını veya Cramer'in V veya Lambda katsayısını veya Eta'yı kullanmanızı öneririm. Bu önlemin her biri için, nominal değişken ve aralık veya sayısal değişkene sahip olduğumuz bu tür veriler için uygulanabileceğini söyleyin. Mesele şu ki, arama ve arama, her birini anlamaya çalışmak, bazen yazılır veya iki değerli nominal değişkeniniz varsa bunları kullanmak için makul oldukları örnekleri izler, Cramer's V hariç, diğer zaman için herhangi bir gereklilik yazılmaz veri türü. Diğer birçok sayfa bunun yerine regresyon uygulamak için doğru olduğunu söylüyor, bu doğru, ama sadece bu tür veriler için pearson / spearman gibi bir katsayı olup olmadığını bilmek istiyorum.

Ben de bunun şehirler sıralanabilir olmadığı için Spearman Korelasyon katsayısını kullanmanın uygun olmadığını düşünüyorum.

Ayrıca Cramer'sV ve Eta işlevini kendim inşa ettim (Matlab ile çalışıyorum) ama Eta için katsayının istatistiksel olarak önemli olup olmadığını görmek için herhangi bir p değeri hakkında konuşmuyorlar ...

MatlabWorks sitesinde eta ^ 2 hesapladığını söyleyen güzel bir araç kutusu da var, ancak ihtiyaç duyduğu girdi türü anlaşılabilir değil.

Burada benimki gibi bir test yapan biri var mı? Kullandığım veri türünü anlamak için daha fazla ayrıntıya ihtiyacınız varsa, bana sormanız yeterli, size daha iyi açıklamaya çalışacağım.


1
Cramérs V iki nominal değer içindir. Regresyon hakkında kötü olan nedir? Sayısal değişkeni yanıt olarak alın ve nominal değere getirin (mankenleri kullanarak). Bak ve ilgili küresel F-testi. R,2
Michael M

Regresyon ile yanlış bir şey yok, ama zaten bu ölçüye sahip olduğumuzdan, bir korelasyon katsayısı ile çift kontrol gibi başka bir şekilde kontrol etmek istiyoruz .... cevap için teşekkürler
cristis

"Sayısal / sıralı" değişkeniniz hakkında özel bir şey söylemediniz. Sizi sıradan göstermenize ne sebep oluyor? Sayısal?
ttnphns

ordinal beacuse Bir anket testinden gelen bir değişkenim var, bu yüzden aralığı -4,4'tür, bunu aralık olarak da düşünebilirsiniz, ancak bu tür anket değişkeni çoğunlukla sıralı olarak kabul edilir ve diğerleri sayısaldır, spesifik olarak sürekli özellikler çıkarıldı.
cristis

Yanıtlar:


18

Nominal ve Aralık

Nominal ve arasında en klasik "ilişki" ölçü aralığı değişkeni ( "sayısal") 'dir Eta olarak da adlandırılan korelasyon oranı ve = bu R-kare p-değeri ile (tek yönlü ANOVA köküne eşit ANOVA). Eta, korelasyon gibi simetrik bir ilişki ölçüsü olarak görülebilir, çünkü ANOVA'nın Eta'sı (nominal olarak bağımsız, sayısal olarak bağımlı), Pillai'nin çok değişkenli regresyon izine (sayısal olarak bağımsız, kukla değişkenlerle karşılık gelen) eşittir. bağımlı olarak nominal).

Daha ince bir ölçü sınıf içi korelasyon katsayısıdır ( ICC ). Eta, sayısal değişkene göre sadece gruplar arasındaki (nominal değişken tarafından tanımlanan) farkı kavrarken, ICC aynı zamanda gruplar içindeki sayısal değerler arasındaki koordinasyonu veya uyumu da ölçer; başka bir deyişle, Eta istatistik düzeyinde (grup ortalamaları ve grup varyansları) çalışırken, ICC (özellikle orijinal tarafsız "eşleştirme" ICC versiyonu) değerler düzeyinde kalır.

Nominal ve Ordinal

Nominal ve sıralı değişken arasındaki "korelasyon" ölçüsü hakkındaki soru daha az belirgindir. Zorluğun nedeni sıralı ölçeğin doğası gereği aralık veya nominal ölçeklerden daha "mistik" veya "bükülmüş" olmasıdır. Özel olarak sıralı veriler için istatistiksel analizlerin şu ana kadar nispeten zayıf bir şekilde formüle edilmesine şaşmamak gerekir.

Bir yolu, sıralı verileri dönüştürmek için olabilir saflarına sonra hesaplamak Eta rütbeleri aralık veri sanki. Böyle bir Eta'nın p değeri = Kruskal-Wallis analizinin değeri. Bu yaklaşım, Spearman rho'nun iki sıralı değişkeni ilişkilendirmek için neden kullanıldığının gerekçeleri nedeniyle gerekli görünmektedir. Bu mantık "ölçek üzerindeki aralık genişliklerini bilmediğinizde, olası tekdüzeliği doğrusallaştırarak Gordian düğümünü kesin: veriyi derecelendirin."

Başka bir yaklaşım (muhtemelen daha titiz ve esnek) DV olarak ordinal değişken ve IV olarak nominal değişkenle ordinal lojistik regresyon kullanmak olacaktır . Karekökü Nagelkerke en (Regresyon p-değeri) ile sahte R-kare size bir korelasyon ölçüsüdür. Ordinal regresyonda çeşitli bağlantı fonksiyonları ile deney yapabileceğinizi unutmayın. Ancak bu ilişki simetrik değildir: nominalin bağımsız olduğu varsayılır.

Yine başka bir yaklaşım , sıralı verilerin aralıklı bir döneme dönüştürülmesini bulmak olabilir - sondan önceki paragrafın sıralaması yerine - sizin için R'yi (yani Eta ) maksimuma çıkarabilir . Bu kategorik regresyon (= optimal ölçeklendirme ile doğrusal regresyon).

Yine başka bir yaklaşım, CHAID gibi sınıflandırma ağacının sıra değişkenini yordayıcı olarak uygulamaktır. Bu prosedür , nominal öngörünün kategorileri arasında ayrım yapmayan bitişik sıralı kategorileri bir araya getirecektir (dolayısıyla bir öncekine zıt yaklaşımdır). Daha sonra sanki nominal ile nominal değişkenleri ilişkilendiriyormuşsunuz gibi Ki kare tabanlı ilişkilendirme önlemlerine (Cramer's V gibi) güvenebilirsiniz.

Ve @Michael yorumunda bir yol daha öneriyor - Freeman's Theta adı verilen özel bir katsayı .

Şimdiye kadar şu fırsatlara ulaştık: (1) Sıralama, sonra Eta'yı hesaplama; (2) Ordinal regresyon kullanın; (3) Kategorik regresyon kullanın (sıralı değişkenin aralığa "optimal olarak" dönüştürülmesi); (4) Sınıflandırma ağacını kullanın (sıralı kategori sayısını azaltarak "en uygun şekilde"); (5) Freeman's Theta'yı kullanın.


3
PS Jeromy Anglim'in
ttnphns 18:13

2
θ

2
@Michael teşekkürler, burada bir makale buldum " Freeman'ın
ttnphns

1
Freeman'ın teta ve istatistiği içeren bir R paketi hakkında daha fazla bilgi için, bu Çapraz Doğrulanmış soruya bakın .
Sal Mangiafico

@ttnphns Üzgünüz, lütfen bu soruya cevap verebilir misiniz: stats.stackexchange.com/questions/363543/… Çok teşekkürler.
ebrahimi

0

Yanıt şehir üzerinde gruplama değişkeni olarak tek yönlü bir anova yapın. FpFpSSbetweencbentbenes/SStÖtbirlR,2R,

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.