GINI skoru ile log-olabilirlik oranı arasındaki ilişki nedir?


21

Sınıflandırma ve regresyon ağaçlarını inceliyorum ve ayrık konum için alınacak önlemlerden biri GINI puanı.

Şimdi iki dağıtım arasında aynı verinin olabilirlik oranının günlüğü sıfır olduğunda en iyi bölünme konumunu belirlemeye alışkınım, yani üyelik olasılığının eşit olması muhtemel.

Sezgim, GINI'nin matematiksel bir bilgi teorisinde iyi bir temele sahip olması gerektiğini (Shannon) bir tür bağlantı olması gerektiğini söylüyor, ancak ilişkiyi kendim türetecek kadar iyi anlamıyorum.

Sorular:

  • GINI safsızlık skorunun bölünme önlemi olarak "ilk prensipler" türevi nedir?
  • GINI skoru, olasılık oranı ya da diğer bilgi teorik temelleri ile nasıl ilişkilidir (Shannon Entropy, pdf ve cross entropy, bunların bir parçasıdır)?

Referanslar:

Shannon'un entropisi şöyle tanımlanır:

'H(x)=ΣbenP(xben)günlükbP(xben)

Bunu çok değişkenli duruma genişletiyoruz:

'H(X,Y)=ΣxΣyP(x,y)günlükbP(x,y)

Koşullu Entropi şu şekilde tanımlanır:

'H(X|Y)=Σyp(x,y)günlükbp(x)p(x,y)veya,'H(X|Y)='H(X,Y)-'H(Y)

Olasılık oranının günlüğü, ani değişiklik tespiti için kullanılır ve bunlar kullanılarak elde edilir. (Önümde türetme yok.)

GINI Kirlilik:

  • GINI kirliliğinin genel şekli ben=Σben=1mfben(1-fben)

Düşünceler:

  • Bölünme, bir kirlilik ölçüsünde yapılır. Yüksek "saflık" muhtemelen düşük entropi ile aynıdır. Yaklaşım entropi minimizasyonu ile ilgilidir.
  • Varsayılan temel dağılımın tek tip veya muhtemelen el sallayarak Gaussian olması muhtemeldir. Muhtemelen dağıtımların bir karışımını yapıyorlar.
  • Shewhart grafik türetme burada geçerli olabilir mi merak ediyorum?
  • GINI Impurity, 2 deneme ve bir başarı ile binom dağılımı için olasılık yoğunluğu fonksiyonunun ayrılmaz bir parçası gibi gözüküyor. P(x=k)=(21)p(1-p)

(ek)

  • Form aynı zamanda bir Hipergeometrik dağılım için bir konjugat olan bir Beta-binom dağılımı ile de tutarlıdır. Hipergeometrik testler sıklıkla, bir numunede hangi numunelerin altında veya altında olduğunu belirlemek için kullanılır. Fisher'ın kesin testiyle de bir ilişki var, her neyse (kendime dikkat edin, bu konuda daha fazla bilgi edinin).

Düzenleme: Dijital mantık ve / veya rb ağaçları ile çok iyi çalışan bir GINI formu olduğundan şüpheleniyorum. Bunu bu sonbaharda bir sınıf projesinde keşfetmeyi umuyorum.


1
Kendi soruma cevap vermem sorun olur mu?
EngrStudent - Monica,

1
Hayır, hiç de değil. Makul bir cevap olduğunu düşündüğünüz bir şey yaptıysanız, ateş edin.
gung - Monica 'ya geri dönün

@EngrStudent. Eğer referanslar bölümünde sağlayan iyi bir soru ama ilk bağlantı CART kullanılan Gini ölçüsü ile ilgisi yoktur Gini katsayısı ilgilidir
Antoine

Gini endeksi ile ilgili olarak sadece basit bir yorum gönderdim: stats.stackexchange.com/questions/308885/…
Picaud Vincent 24:17

Yanıtlar:


11

Burada kullandığımla aynı gösterimi kullanacağım: Sınıflandırma ve regresyon ağaçlarının arkasındaki matematik

Gini Kazancı ve Bilgi Kazancı ( ) hem kirlilik bazlı bölme kriterleridir. Tek fark kirlilik fonksiyonunda I :benG,ben

  1. Gini:G,bennben(E)=1-Σj=1cpj2
  2. Entropi:'H(E)=-Σj=1cpjgünlükpj

β

'Hβ(E)=1β-1(1-Σj=1cpjβ)

Giniβ=2'Hβ1

G,

G,-statistic=2|E|benG,

Topluluğa bağlı olarak (istatistik / veri madenciliği) insanlar bir ölçüyü veya diğerini tercih eder ( Burada ilgili soru ). Karar ağacı indüksiyon sürecinde hemen hemen aynı olabilirler. Günlük olasılığı, çok sayıda sınıf olsa bile, dengeli bölümlere daha yüksek puanlar verebilir [Teknik Not: Kritik Kriterlerin Bazı Özellikleri. Breiman 1996].

Gini Gain daha iyi olabilir çünkü logaritmaları yoktur ve rasgele bölünmüş varsayım altında beklenen değeri ve varyansı için kapalı formu bulabilirsiniz [Alin Dobra, Johannes Gehrke: Sınıflandırma Ağacı Yapımında Önyargı Düzeltme. ICML 2001: 90-97]. Bilgi Kazanımı için kolay değildir (Eğer ilgileniyorsanız, buraya bakınız ).


1

İyi soru. Ne yazık ki henüz yorum yapmak veya yorum yapmak için yeterli bir itibarım yok, bu yüzden bunun yerine cevap!

Oran testine pek aşina değilim, ancak iki (veya daha fazla) farklılıktan kaynaklanan verilerin olasılığını karşılaştırmak için kullanılan bir formalizm olduğu dikkatimi çekti dağılımdan vurguluyor, Gini katsayısı ise tek bir dağılımın özet istatistiği.

Gini katsayısını (IMO) düşünmenin faydalı bir yolu Lorenz eğrisinin altındaki alandır. (cdf ile ilgili).

Entropi için OP'de verilen tanımı kullanarak Shannon'ın entropisini Gini ile eşitlemek mümkün olabilir:

'H=ΣbenP(xben)günlükbP(xben)

ve Gini tanımı:

G,=1-1μΣbenP(xben)(Sben-1+Sben)

Sben=Σj=1benP(xben)xbenxben ).

Yine de kolay bir iş gibi görünmüyor!


Aynı verilerde bir log olabilirlik oranı kullanılır. Dağılımlardan biri diğerinin aynısı olabilir, ancak bazı kriterlerin doğru olduğu durumlarda parametreleri verilere uyarlanmıştır. Örneğin, parametreleri sağlıklı üretim süreci varyasyonunu tanımlayan bir dağıtım (zorunlu olarak Gaussian değil) ve mevcut üretim süreci değerlerine uygun olan bir dağıtımınız olabilir ve her ikisinin de geçerli üretim süreci değerleri üzerinde çalışarak log olasılığı oranını gösteren bir eşik değeriyle karşılaştırabilirsiniz. gezi imkanı. İdeal ile karşılaştırılmak için gerçek olabilir.
EngrStudent - Monica'yı
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.