Özellik fazlalığı nasıl ölçülür?


10

Bir sınıflandırma problemini çözmek için kullandığım üç özelliğim var. Başlangıçta, bu özellikler boole değerleri üretti, bu yüzden pozitif ve negatif sınıflandırma kümelerinin ne kadar örtüştüğüne bakarak artıklıklarını değerlendirebilirim. Şimdi bunun yerine gerçek değerler (skorlar) üretmek için özellikleri genişlettim ve artıklıklarını tekrar analiz etmek istiyorum, ancak bunu nasıl yapacağım konusunda tam bir kayıptayım. Birisi bana bu konuda nasıl bir işaretçi veya fikir verebilir?

Bu sorunun çok belirsiz olduğunu biliyorum, çünkü çok güçlü bir istatistik kavrayışım yok. Benim için bir cevabınız yoksa, belki de kendimi daha iyi anlamama yardımcı olabilecek bazı sorularınız var.

Düzenleme: Şu anda bu konuda Wikipedia'ya göz atıyorum, istediğim bir korelasyon katsayısı olduğunu hissediyorum, ama hala bu doğru bir yaklaşım olup olmadığını ve birçok mevcut katsayılardan hangisinin uygun olduğundan emin değilim.

Düzenleme 2: Boole durumunda, her özellik için ilk önce doğru olduğu örnek kümesini oluşturdum. Daha sonra, iki özellik arasındaki korelasyon, bu setlerin birleşmesinin boyutu üzerindeki bu setlerin kesişme boyutudur. Bu değer 1 ise, bunlar tamamen gereksizdir, çünkü her zaman aynıdır. Eğer 0 ise, asla aynı değildirler.


boolean durumunda yedekliliği nasıl tanımlayacağınıza ve sürekli durumda ne tür sonuçlar beklediğinize
dair bir

@mpiktas: Yorumunuza yanıt olarak sorumu düzenle.
Björn Pollex

Yanıtlar:


4

Bu özellik seçme problemi gibi görünüyor, eğer durum buysa, tüm özellik alt kümeleri ve sınıflandırma çıktısı arasındaki karşılıklı bilgileri hesaplamak istediğinizi düşünüyorum . Karşılıklı en yüksek bilgiye sahip alt küme, kaydın sonuçta sınıflandırılmasıyla ilgili en 'bilgiyi' içeren özellikler kümesi olacaktır.

Yalnızca 3 özelliğiniz varsa, olası tüm alt kümeleri makul bir sürede hesaplayabilirsiniz, özellik kümeniz büyürse buna yaklaşmanız gerekir (genellikle açgözlü bir yaklaşım kullanarak: her adımda en yüksek MI değerine sahip olun ).


2
(+1) için karşılıklı bilgi. Ek açıklama: a) Karşılıklı bilgi için özel bir durum olarak Bilgi Kazancı öneririm. b) Otomatik özellik seçimi sadece gereksiz olanı değil, aynı zamanda sınıf ayrımcılığını olumsuz etkileyen tüm özellikleri de ortadan kaldıracaktır.
steffen

Teşekkürler! Bu çok umut verici geliyor, içine bakacağım.
Björn Pollex
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.