Gini katsayısı vs Gini katışıklığı - karar ağaçları


25

Sorun, karar ağaçlarının oluşturulmasına işaret ediyor. Wikipedia'ya göre ' Gini katsayısı ' ' Gini katışıklığı ' ile karıştırılmamalıdır . Bununla birlikte, karar ağacı oluştururken her iki önlem de kullanılabilir - bunlar öğeler grubunu bölerken seçimlerimizi destekleyebilir.

1) 'Gini kirliliği' - standart bir karar ağacı yarma metriğidir (yukarıdaki bağlantıya bakınız);

2) 'Gini katsayısı' - Her bölme AUC kriterine göre değerlendirilebilir. Her bölme senaryosu için bir ROC eğrisi oluşturabilir ve AUC metrik değerini hesaplayabiliriz. Wikipedia'ya göre AUC = (GiniCoeff + 1) / 2;

Soru şudur: Bu iki önlem de aynı mı? Bir yandan, Gini katsayısının Gini safsızlığı ile karıştırılmaması gerektiği konusunda bilgilendirildim. Öte yandan, bu önlemlerin her ikisi de aynı şeyi yapmakta kullanılabilir - karar ağacının kalitesini değerlendirmek.


Yanıtlar:


28

Hayır, adlarına rağmen eşdeğer değil hatta benzerler.

  • Gini kirliliği , çok sınıflı bir sınıflandırma bağlamında uygulanan bir yanlış sınıflandırma ölçüsüdür.
  • Gini katsayısı ikili sınıflandırma için geçerlidir ve bir şekilde pozitif sınıfta olma olasılığına göre örnekleri sıralayan bir sınıflandırıcı gerektirir.

Her ikisi de bazı durumlarda uygulanabilir, ancak bunlar farklı şeyler için farklı önlemlerdir. Safsızlık karar ağaçlarında yaygın olarak kullanılan şeydir .


7

Sırasıyla ünite 1 ve ünite 3'ün serveti olan iki kişi A ve B ile Veri örneğini aldım. Gini Vikipedi uyarınca kirlilik = 1 - [(1/4) ^ 2 + (3/4) ^ 2] = 3/8

Wikipedia'ya göre Gini katsayısı aşağıdaki grafikte kırmızı ve mavi çizgi arasındaki alanın mavi çizgi altındaki toplam alana oranı olacaktır.

görüntü tanımını buraya girin

Kırmızı çizginin altındaki alan 1/2 + 1 + 3/2 = 3

Mavi çizginin altındaki toplam alan = 4

Gini katsayısı = 3/4

Açıkçası, iki sayı farklı. Orantılı olup olmadığını veya kesin bir ilişki olup olmadığını görmek için daha fazla vakayı kontrol edeceğim ve cevabı düzenleyeceğim.

Düzenleme: Diğer kombinasyonları da kontrol ettim, oran sabit değil. Aşağıda, denediğim birkaç kombinasyonun listesi var. görüntü tanımını buraya girin


Ne bir açıklama!
Outlier

0

Sanırım ikisi de aynı konsepti temsil ediyor.

Sınıflandırma ağaçlarında, Gini Dizini bir veri bölümünün safsızlığını hesaplamak için kullanılır. Öyleyse, her biri eşit olasılık içeren 4 sınıftan oluşan veri bölümü D'yi kabul edin. Sonra Gini Endeksi (Gini Kirliliği) şöyle olacaktır: Gini (D) = 1 - (0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2 + 0.25 ^ 2)

CART'da ikili bölmeler yaparız. Böylece gini endeksi, elde edilen bölümlerin ağırlıklı toplamı olarak hesaplanacak ve en küçük gini endeksi olan bölünmeyi seçiyoruz.

Dolayısıyla, Gini Safsızlığının (Gini Endeksi) kullanımı ikili durumlar ile sınırlı değildir.

Gini Safsızlığı için bir başka terim, normal olarak gelir dağılımının bir ölçüsü olarak kullanılan Gini Katsayısıdır.


3
Gini katsayısı Gini kirliliği değildir. Sorunun içindeki bağlantıları gör
Sean Owen

2
Wikipedia ist her zaman güvenilir bir bilgi kaynağı değil :-)
Pasmod Turing

2
Emin. Git başka bir yere bak: mathworld.wolfram.com/GiniCoefficient.html Gini katsayısı = Gini kirliliğini düşündüren nedir?
Sean Owen


1
Sanırım karar ağaçları hakkında konuşuyoruz. Demek makine öğrenimi alanındayız! Lütfen soruyu daha dikkatli okuyun
Pasmod Turing
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.