Matlab'daki karşılıklı bilgileri kullanarak özellik seçimi

10

Karşılıklı bilgi fikrini bu ders notlarında (sayfa 5) açıklandığı gibi özellik seçimine uygulamaya çalışıyorum .

Platformum Matlab. Ampirik verilerden karşılıklı bilgi hesaplarken bulduğum bir problem, sayının her zaman yukarıya doğru eğimli olmasıdır. Matlab Central'da MI değerini hesaplamak için yaklaşık 3 ~ 4 farklı dosya buldum ve bağımsız rastgele değişkenlerle beslendiğimde hepsi büyük sayılar (> 0.4 gibi) veriyor.

Ben bir uzman değilim, ama sorun şu ki, MI'yı hesaplamak için sadece eklem ve marjinal yoğunlukları kullanırsanız, MI, tanım gereği pozitif olduğu için süreçte yanlılık ortaya çıkar. Karşılıklı bilgilerin doğru bir şekilde nasıl tahmin edileceği konusunda pratik tavsiyesi olan var mı?

İlgili bir soru, pratikte insanlar özellikleri seçmek için MI'yı gerçekten nasıl kullanıyor? MI, teorik olarak sınırsız olduğu için bir eşik değeri nasıl ortaya çıkacağı benim için belli değil. Ya da insanlar özellikleri MI'ya göre sıralıyor ve en iyi k özelliklerini mi alıyor?

— entropi
kaynak

Kimse bu konuyla ilgilenmiyor mu?

Buna henüz bir cevabınız var mı?

— entropi

Ne yazık ki hayır. Aynı sorunu yaşıyor musunuz?

3

Bu sınırlı örnekleme yanlılığı problemidir .

Yoğunlukların küçük örnek tahminleri gürültülüdür ve bu varyasyon, tahmin edilen bilgi değerini artıran değişkenler arasında sahte korelasyonlara neden olur.

$(R-1)(S-1) / 2N\ln2$ $2N\ln(2)I$ $\chi^2$ $(R-1)(S-1)$

Matlab'da bu teknikleri uygulayan bazı paketler infotoolbox ve Spike Train Analysis Toolkit'dir .

Sürekli vaka için, en yakın komşu mesafelerine dayanan tahminciler sorunu azaltır.

— thrope
kaynak

1

KL-ıraksama kullandım ve uygun örnek büyüklükleri ile dağılımların eşit olasılığa sahip olduğu lokuslar için 0 değerlerini aldım.

MI'nızı KL-diverjans açısından yeniden ifade etmenizi öneririm.

— EngrStudent
kaynak

1

Giriş değişkeni (özellik) seçimi için Kısmi Karşılıklı Bilgi algoritması kullanmalısınız. MI kavramlarına ve olasılık yoğunluk tahminine dayanır. Örneğin:

Çekirdek tabanlı PMI : (+) durma kriterlerine sahiptir (Akaike Information Criteria) (-) daha yüksek karmaşıklık
kNN tabanlı PMI : (-) durma kriterine sahip değildir (+) daha düşük karmaşıklık

PMI'yi, karmaşıklığı arttırdıkça ve diğer sorunları ortaya çıkardıkça sinir ağı girişlerinin sayısını azaltmak için kullandım. Yapay Sinir Ağları için Giriş Değişkeni Seçim Yöntemlerinin İncelenmesi bölümünde Giriş Değişkeni Seçimi (IVS) algoritmalarına tam bir genel bakış bulabilirsiniz . SVS ve diğerleri için IVS kullanabilirsiniz. İşleri kısaltmak için PMI kullanın.

— user2034223
kaynak