Sınıflandırma ve regresyon ağaçlarını inceliyorum ve ayrık konum için alınacak önlemlerden biri GINI puanı.
Şimdi iki dağıtım arasında aynı verinin olabilirlik oranının günlüğü sıfır olduğunda en iyi bölünme konumunu belirlemeye alışkınım, yani üyelik olasılığının eşit olması muhtemel.
Sezgim, GINI'nin matematiksel bir bilgi teorisinde iyi bir temele sahip olması gerektiğini (Shannon) bir tür bağlantı olması gerektiğini söylüyor, ancak ilişkiyi kendim türetecek kadar iyi anlamıyorum.
Sorular:
- GINI safsızlık skorunun bölünme önlemi olarak "ilk prensipler" türevi nedir?
- GINI skoru, olasılık oranı ya da diğer bilgi teorik temelleri ile nasıl ilişkilidir (Shannon Entropy, pdf ve cross entropy, bunların bir parçasıdır)?
Referanslar:
- Ağırlıklı Gini Kriteri nasıl tanımlanır?
- Sınıflandırma ve regresyon ağaçlarının arkasındaki matematik
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(eklendi) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
Shannon'un entropisi şöyle tanımlanır:
Bunu çok değişkenli duruma genişletiyoruz:
Koşullu Entropi şu şekilde tanımlanır:
Olasılık oranının günlüğü, ani değişiklik tespiti için kullanılır ve bunlar kullanılarak elde edilir. (Önümde türetme yok.)
GINI Kirlilik:
- GINI kirliliğinin genel şekli
Düşünceler:
- Bölünme, bir kirlilik ölçüsünde yapılır. Yüksek "saflık" muhtemelen düşük entropi ile aynıdır. Yaklaşım entropi minimizasyonu ile ilgilidir.
- Varsayılan temel dağılımın tek tip veya muhtemelen el sallayarak Gaussian olması muhtemeldir. Muhtemelen dağıtımların bir karışımını yapıyorlar.
- Shewhart grafik türetme burada geçerli olabilir mi merak ediyorum?
- GINI Impurity, 2 deneme ve bir başarı ile binom dağılımı için olasılık yoğunluğu fonksiyonunun ayrılmaz bir parçası gibi gözüküyor.
(ek)
- Form aynı zamanda bir Hipergeometrik dağılım için bir konjugat olan bir Beta-binom dağılımı ile de tutarlıdır. Hipergeometrik testler sıklıkla, bir numunede hangi numunelerin altında veya altında olduğunu belirlemek için kullanılır. Fisher'ın kesin testiyle de bir ilişki var, her neyse (kendime dikkat edin, bu konuda daha fazla bilgi edinin).
Düzenleme: Dijital mantık ve / veya rb ağaçları ile çok iyi çalışan bir GINI formu olduğundan şüpheleniyorum. Bunu bu sonbaharda bir sınıf projesinde keşfetmeyi umuyorum.