Histogramlarla karşılıklı bilgileri (MI) tahmin etmek için en iyi sayıda kutu yoktur. En iyi yol, mümkünse çapraz doğrulama ile seçmek veya bir başparmak kuralına güvenmektir. Bu nedenle, histogramlara dayanmayan diğer MI tahmincileri önerilmiştir.
Kutuların sayısı toplam veri noktası sayısına ( bağlı olacaktır . İki değişken arasındaki ortak dağılım için tahmin hatalarını önlemek için çok fazla bölmeden kaçınmaya çalışmalısınız. İki değişken arasındaki ilişkiyi yakalayabilmek için çok az sayıda bölmeden de kaçınmalısınız. Her ikisi için eşit genişlikli bölmelere sahip bir 2D histogram oluşturduğu ve kişisel olarak seçeceğim göz önüne alındığında :
Bu durumda, eşit olarak dağıtılmış iki rasgele değişken için ortalama olarak en az puanınız olacaktır. histogramdaki her hücre:
nnp.histogram2d(x, y, D)
D
x
y
D = ⌊n / 5---√⌋
5nDXDY≥ 5 ⇒nD2≥ 5 ⇒D2≤ n / 5 ⇒ D = ⌊n / 5---√⌋
Bu, önerilen bölümleme yaklaşımını simüle eden olası bir seçenektir
(Cellucci, 2005) . İkinci yaklaşım genellikle genetik ağları çıkarmak için
MI'yı tahmin etmek için kullanılır: örneğin
MIDER'de .
Çok sayıda veri noktanız ve eksik değerleriniz yoksa, en iyi sayıda kutuyu bulma konusunda fazla endişelenmemelisiniz; örneğin . Aksi takdirde, sonlu numuneler için MI değerini düzeltmeyi düşünebilirsiniz. (Steuer ve ark., 2002) genetik ağ çıkarsama görevi için MI için bazı düzeltmeleri tartışmaktadır.nn = 100 , 000
Histogram için kutu sayısını tahmin etmek eski bir sorundur. Lauritz Dieckman'ın MI için çöp kutusu sayısını tahmin etme konusundaki bu konuşmayla ilgilenebilirsiniz . Bu konuşma Mike X Cohen'in nöral zaman serileri hakkındaki kitabındaki bir bölüme dayanıyor .
ve bağımsız olarak seçebilir ve 1D histogramlarındaki kutu sayısını tahmin etmek için kullanılan temel kuralı kullanabilirsiniz.DXDY
Freedman-Diaconis 'kuralı (dağıtım konusunda varsayım yok):
Burada , 75-kantil ile 25-kantil arasındaki farktır. SE ile ilgili bu soruya bakın .
DX= ⌈maksimum X- dk X2 ⋅ IQR ⋅n- 1 / 3⌉
IQR
Scott'ın kuralı (normallik varsayımı):
; burada standart sapmadır için .
DX= ⌈maksimum X- dk X3.5 ⋅sX⋅n- 1 / 3⌉
sXX
Sturges kuralı (kutu sayısını küçümseyebilir ancak büyük için iyi olabilir ):
n
DX= ⌈ 1 +günlük2n ⌉
Histogramlarla MI'yı doğru bir şekilde tahmin etmek zordur. Daha sonra farklı bir tahminci seçebilirsiniz:
- Kraskov'un parametre seçimine biraz daha az duyarlı olan NN tahmincisi: veya en yakın komşu genellikle varsayılan olarak kullanılır. Makale: (Kraskov, 2003)kk = 4k = 6
- Çekirdeklerle MI Tahmini (Moon, 1995) .
MI değerini tahmin etmek için birçok paket vardır:
- Python için Parametrik Olmayan Entropi Tahmini Araç Kutusu. site .
- Java'da bilgi dinamikleri araç takımı ancak Python için de kullanılabilir. site .
- Matlab'da ITE araç kutusu. site .