Sıralı veya nominal verilerde kategorileri birleştirme / azaltma yöntemleri?

14

Nominal veya sıralı verilerdeki kategori sayısını azaltmak için bir yöntem bulmakta zorlanıyorum.

Örneğin, bir dizi nominal ve sıralı faktöre sahip bir veri kümesi üzerinde bir regresyon modeli oluşturmak istediğimi varsayalım. Bu adımla ilgili hiçbir sorunum olmasa da, genellikle nominal bir özelliğin eğitim setinde gözlemsiz olduğu, ancak daha sonra doğrulama veri kümesinde bulunduğu durumlarla karşılaşıyorum. Bu, modelin (şimdiye kadar) görülmemiş vakalarla sunulduğu zaman doğal olarak hataya yol açar. Kategorileri birleştirmek istediğim başka bir durum, sadece az sayıda gözlem içeren çok fazla kategori olduğunda.

Yani sorularım:

Birçok nominal (ve sıralı) kategoriyi temsil ettikleri önceki gerçek dünya arka plan bilgilerine dayanarak birleştirmenin en iyi yol olabileceğini fark etsem de, sistematik yöntemler ( Rtercihen paketler) var mı?
Kesme eşikleri vb. İle ilgili hangi yönergeleri ve önerileri önerirsiniz?
Edebiyatta en popüler çözümler nelerdir?
Küçük nominal kategorileri yeni bir "DİĞER" kategorisiyle birleştirmekten başka stratejiler var mı?

Ayrıca başka önerileriniz varsa lütfen çekinmeyin.

r categorical-data dimensionality-reduction many-categories

— Figaro
kaynak

İlgili soruya bir göz atın: stats.stackexchange.com/questions/227125/…

— kjetil b halvorsen

11

Bu ikinci sorunuza bir cevaptır.

Bu tür kararlara doğru yaklaşımın büyük ölçüde disiplin normları ve çalışmanızın hedef kitlesinin beklentileri ile belirleneceğinden şüpheleniyorum . Bir sosyal bilimci olarak, genellikle anket (veya anket benzeri) verilerle çalışıyorum ve sıralı ölçekleri veya kategorik değişkenleri çökerttiğimde her zaman önemli ve veriye dayalı mantıkları dengelemeye çalışıyorum. Başka bir deyişle, hangi madde kombinasyonlarının madde açısından "birlikte asıldığını" ve öğeleri daraltmadan önce yanıtların dağılımını dikkate almak için elimden geleni yapacağım.

Aşağıda, beş noktalı bir sıklık ölçeği içeren belirli (sıralı) bir anket sorusunun yeni bir örneği verilmiştir:

Topluluğunuzdaki bir kulüp veya organizasyonun toplantılarına ne sıklıkla katılıyorsunuz?

Asla

Yılda birkaç kez

Ayda bir

Ayda birkaç kez

Haftada bir veya daha fazla

Şu anda elimde veri mevcut değil, ancak sonuçlar ölçeğin "asla" sonuna doğru eğilmişti. Sonuç olarak, ortak yazarım ve ben yanıtları iki gruba ayırmayı seçtik: "Ayda bir veya daha fazla" ve "Ayda birden az". Ortaya çıkan (ikili) değişken daha eşit olarak dağıtılmış ve pratik açıdan anlamlı bir ayrım yansıtmıştır: birçok kulüp ve kuruluş ayda bir kereden fazla toplanmadığından, toplantılara katılan kişilerin en azından genellikle daha az sıklıkta (ya da hiç) katılmayanlar “aktif” üyelerdir.

Deneyimlerime göre, bu kararlar en az bilim kadar sanattır. Bununla birlikte, genellikle herhangi bir modele uymadan önce bunu yapmaya çalışıyorum, çünkü veri madenciliği ve son derece bilimsel olmayan (eğlenceli zamanlar) olarak başka bir şeyin (negatif) görüldüğü bir disiplinde çalışıyorum.

Bunu göz önünde bulundurarak, bu çalışma için ne tür bir kitleniz olduğunu biraz daha söyleyebilirseniz yardımcı olabilir. Belirli bir araştırma topluluğu arasında "normal" davranış için neyin geçtiğini açıklığa kavuşturabildikleri için, alanınızdaki birkaç önemli metodoloji ders kitabını gözden geçirmek de sizin yararınıza olacaktır.

— ashaw
kaynak

5

Ashaw'ın tartıştığı yaklaşım türleri nispeten daha sistematik bir metodolojiye yol açabilir. Ama aynı zamanda sistematik olarak algoritmik demek istediğinizi düşünüyorum. Burada veri madenciliği araçları bir boşluğu doldurabilir. Birincisi, SPSS'nin Karar Ağacı modülünde yerleşik ki-kare otomatik etkileşim algılama (CHAID) prosedürü var; kullanıcı tarafından belirlenen kurallara göre, sonuç değişkeni (sürekli veya nominal olsun) üzerinde benzer değerler gösterdiklerinde tahmin değişkenlerinin sıralı veya nominal kategorilerini daraltabilir. Bu kurallar, daraltılan grupların boyutuna veya daraltma yoluyla oluşturulan gruplara veya p-İlgili istatistiksel testlerin değerleri. Bazı sınıflandırma ve regresyon ağacı (CART) programlarının aynı şeyleri yapabileceğine inanıyorum. Diğer katılımcılar, sinir ağı tarafından gerçekleştirilen benzer işlevler veya çeşitli veri madenciliği paketleri aracılığıyla sağlanan diğer uygulamalar hakkında konuşabilmelidir.

— rolando2
kaynak

Büyük nokta, @rolando - orijinal yazı eğitim ve doğrulama veri kümelerini ifade ettiğinden, cevabınızın aslında @Figaro için daha kullanışlı olabileceğinden şüpheleniyorum.

— ashaw

Değerli girdiniz için ikinize de teşekkür ederiz. @ rolando2 belirsiz ifadelerim hakkında, algoritmik hedeflediğim yön oldu.

— Figaro