İstatistiki bir modelde bir girdi (öngörücü) olarak kullanmak amacıyla birçok kategoriyi bir kaçına çökertmek (veya birleştirmek) için hangi teknikler mevcuttur?
Üniversite öğrencisi büyük (bir lisans öğrencisi tarafından seçilen disiplin) gibi bir değişken düşünün . Sırasız ve kategoriktir, ancak potansiyel olarak onlarca farklı seviyeye sahip olabilir. Diyelim ki regresyon modelinde majör belirleyici olarak kullanmak istiyorum.
Bu seviyeleri modelleme için olduğu gibi kullanmak, her türlü soruna yol açar çünkü çok fazla var. Bunları kullanmak için çok fazla istatistiksel hassasiyet atılır ve sonuçların yorumlanması zordur. Belirli ana dallarla nadiren ilgileniyoruz - ana dalların geniş kategorileriyle (altgruplarla) ilgilenme ihtimalimiz çok daha fazla. Ancak, seviyelerin nasıl bu kadar üst düzey kategorilere, hatta kaç tane üst seviye kategoriye ayrılacağı her zaman net değildir.
Tipik veriler için, faktör analizi, matris faktoringi veya ayrık bir latent modelleme tekniği kullanmaktan mutlu olurum. Ancak ana dallar birbirinden ayrı kategorilerdir, bu yüzden kovaryanslarını her şey için kullanmakta tereddüt ediyorum.
Dahası, ana kategorileri kendi başlarına umursamıyorum. Regresyon sonucumla uyumlu , daha üst düzey kategoriler üretmeyi önemsiyorum . İkili sonuç durumunda, bu bana ayrımcı performansı en üst seviyeye çıkarmak için daha üst düzey kategoriler oluşturmak için doğrusal ayrımcı analizi (LDA) gibi bir şey önerir. Ancak LDA sınırlı bir tekniktir ve bana taranan kirli veriler gibi geliyor. Dahası, herhangi bir sürekli çözümün yorumlanması zor olacaktır.
Bu arada, çoklu yazışma analizi (MCA) gibi kovaryanslara dayanan bir şey, bu örnekte, birbirini dışlayan kukla değişkenler arasındaki doğal bağımlılık nedeniyle şüpheli görünüyor - birden fazla kategorik değişkenleri çalışmak için daha uygun Aynı değişken
düzenleme : açık olmak gerekirse , bu daraltıcı kategorilerle ilgilidir (onları seçmeden) ve kategoriler prediktörler veya bağımsız değişkenlerdir. Gördüğünüzde, bu problem “hepsini düzenlemek ve Tanrı'nın bunları düzenlemesine izin vermek” için uygun bir zaman gibi görünüyor. Bu soruyu gördüğüme sevindim, birçok insan için ilginç!