Ayrımsal analizde kategorik bağımsız değişkeni kullanabilir miyiz?

15

Diskriminant analizinde, bağımlı değişken kategoriktir, ancak doğrusal diskriminant analizinde bağımsız değişken olarak bazı sürekli değişkenlerle birlikte kategorik bir değişken (örn. Konut durumu: kırsal, kentsel) kullanabilir miyim?

— kuwoli
kaynak

Benzer soru

— ttnphns

14

Ayrımcı analiz çok değişkenli bir normal dağılım olduğunu varsayar, çünkü genellikle yordayıcı olarak gördüğümüz şey gerçekten çok değişkenli bir bağımlı değişkendir ve gruplama değişkeni bir yordayıcı olarak kabul edilir. Bu, istediğiniz anlamda yordayıcı olarak değerlendirilecek kategorik değişkenlerin iyi ele alınmadığı anlamına gelir. Bu, ben de dahil olmak üzere birçok kişinin ayrımcı analizin lojistik regresyon tarafından eskimiş olduğunu düşünmesinin bir nedenidir. Lojistik regresyon, modelin sol veya sağ tarafında herhangi bir dağıtım varsayımı yapmaz. Lojistik regresyon doğrudan bir olasılık modelidir ve sonuçları ayrımcı analizlerde olduğu gibi olasılıklara dönüştürmek için Bayes kuralını kullanması gerekmez.

— Frank Harrell
kaynak

Cevabınız için teşekkür ederim Bay Frank Harrell. Aslında aynı değişken setini kullanarak diskriminat analizi ve lojistik regresyon (logit modeli) sonuçlarını karşılaştırmak istiyorum. Bu nedenle, ayrımcı analizde kategorik değişkenleri bağımsız değişken olarak kullanmak zorunda kalırsam, herhangi bir yolu var mı?

— kuwoli

6

Kısa cevap evet değil.

Bir ön not. Ayrımcı işlevler üreten değişkenlerin kendi başlarına "bağımsız" veya "bağımlı" olarak adlandırılıp adlandırılmayacağını söylemek güçtür. LDA temel olarak Kanonik korelasyon analizi için özel bir durumdur ve bu nedenle çift yönlüdür. MANOVA (sınıf değişkeni bağımsız faktör olarak) veya sınıf ikiye ayrıldığında sınıfın bağımlı değişken olarak doğrusal regresyonu olarak görülebilir . Bu nedenle LDA'ya lojistik gibi tek yönlü gerilemelere karşı her zaman karşı çıkmak pek yasal değildir .

LDA, değişkenlerin ("bağımsız" olarak adlandırılanlar) çok değişkenli normal dağılımdan geldiğini varsayar; Bu varsayım, (1) LDA'nın sınıflandırma aşaması ve (2) ekstraksiyon aşamasında üretilen ayrımcıların öneminin test edilmesi için önemlidir. Ayrımcıların kendisinin çıkarılması varsayım gerektirmez.

Bununla birlikte, LDA bazen ikili verilerde bunu yapmak için bir garanti olarak görülen varsayımın ihlaline karşı oldukça sağlamdır . Aslında, bazı insanlar bunu yapar. Her iki kümenin ikili veya hatta kukla ikili değişkenlerden oluştuğu kanonik korelasyonlar (LDA'nın spesifik bir durum olduğu) yapılabilir. Bir kez daha, gizli işlevlerin çıkarılmasında bir sorun yoktur; p-değerleri veya sınıflandırma nesneleri çağrıldığında bu tür uygulamalarla ilgili sorunlar ortaya çıkabilir.

İkili / sıralı değişkenlerden tetraforik / polikrik korelasyonlar hesaplanabilir ve LDA'ya gönderilebilir (program veri yerine korelasyon matrislerini girmeye izin veriyorsa); ancak daha sonra vaka düzeyinde ayrımcı puanların hesaplanması sorunlu olacaktır.

Daha esnek bir yaklaşım, kategorik (sıralı, nominal) değişkenleri optimum ölçeklendirme / niceleme yoluyla sürekli hale getirmek olacaktır . Doğrusal olmayan kanonik korelasyon analizi (OVERALS). Bunu, iki taraf arasındaki (sınıf değişkeni ve kategorik “öngörücüler”) kanonik korelasyonları en üst düzeye çıkarmak görevi altına alacaktır. Daha sonra LDA'yı dönüştürülmüş değişkenlerle deneyebilirsiniz.

(Çok terimli veya ikili) lojistik regresyon, LDA'ya başka bir alternatif olabilir.

— ttnphns
kaynak

Bu sadece duruma yönelik bir model (lojistik regresyon) kullanmaktan çok daha önemlidir. Ayrımcı analiz, bazılarının düşündüğü kadar sağlam değildir. Tek bir kategorik öngörücü ile göstermek, ikili olasılıkların da oluşturduğu posterior olasılıkların çok doğru olmadığını gösterir (örneğin, bir deneğin cinsiyeti verilen bir olayın olasılığını tahmin etmek).

— Frank Harrell