Mikro ortalamalı veya makro ortalamalı değerlendirme ölçütlerine dayanarak karar vermeli miyim?

Aynı veri kümesine sahip farklı ikili sınıflandırma algoritmaları üzerinde 10 kat çapraz doğrulama yaptım ve hem Mikro hem de Makro ortalamaları aldım. Bunun çok etiketli bir sınıflandırma sorunu olduğu belirtilmelidir.

Benim durumumda, gerçek negatifler ve gerçek pozitifler eşit ağırlıklı. Bu, gerçek negatifleri doğru tahmin etmek, doğru pozitifleri doğru tahmin etmek kadar eşit derecede önemlidir.

Mikro ortalamalı ölçümler, makro ortalamalı ölçümlerden daha düşüktür. İşte bir Sinir Ağı ve Destek Vektör Makinesi sonuçları:

resim açıklamasını buraya girin

Ayrıca başka bir algoritma ile aynı veri kümesinde yüzde bölme testi yaptım. Sonuçlar:

resim açıklamasını buraya girin

Yüzde bölünmüş testi makro ortalamalı sonuçlarla karşılaştırmayı tercih ederim, ama bu adil mi? Makro pozitif sonuçların önyargılı olduğuna inanmıyorum, çünkü gerçek pozitifler ve gerçek negatifler eşit ağırlıktadır, ancak daha sonra, bunun elmalarla portakalları karşılaştırmakla aynı olup olmadığını merak ediyorum?

GÜNCELLEME

Yorumlara dayanarak mikro ve makro ortalamaların nasıl hesaplandığını göstereceğim.

Tahmin etmek istediğim 144 etiketim (özellik veya niteliklerle aynı) var. Her etiket için Hassasiyet, Geri Çağırma ve F-Ölçü hesaplanır.

---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
   ?   |    ?   |    ?   |   ?    | .. |     ?
---------------------------------------------------

Gerçek pozitifler (tp), gerçek negatifler (tn), yanlış pozitifler (fp) ve yanlış negatifler (fn) esas alınarak hesaplanan ikili değerlendirme ölçüsü B (tp, tn, fp, fn) dikkate alındığında. Belirli bir ölçünün makro ve mikro ortalamaları aşağıdaki gibi hesaplanabilir:

resim açıklamasını buraya girin

Bu formülleri kullanarak mikro ve makro ortalamalarını aşağıdaki gibi hesaplayabiliriz:

resim açıklamasını buraya girin

Böylece, mikro ortalamalı ölçümler tüm tp, fp ve fn'yi (her etiket için) ekler, daha sonra yeni bir ikili değerlendirme yapılır. Makro ortalamalı ölçümler, tüm ölçümleri ekler (Hassasiyet, Geri Çağırma veya F-Ölçüm) ve daha çok ortalamaya benzeyen etiket sayısına bölün.

Şimdi soru hangisini kullanacak?

machine-learning cross-validation

— KENCI
kaynak

Hangisini kullanacağınızı sorduğunuzda amaçlanan kullanım nedir? İki yöntem arasında seçim yapmak, sonuçları özetlemek veya başka bir şey mi?

— Sean Easter

Amaçlanan kullanım hangi modelin en üstün olduğunu bulmak ve ne kadar iyi performans gösterdiğini anlatmaktır. Mikro ölçümlerin Forman, George ve Martin Scholz'a göre daha üstün olduğunu öğrendim. "Elma-elma çapraz doğrulama çalışmalarında: sınıflandırıcı performans ölçümü tuzaklar." ACM SIGKDD Keşifler Bülteni 12.1 (2010): 49-57.

— Kenci

@Kenci, bunu kendi sorunuza cevap olarak göndermeniz ve doğru yanıt olarak onaylamanız gerektiğine inanıyorum. Referans için teşekkürler!

— fnl

FYI Micro - Ağırlıklı F1 Skoru

— Franck Dernoncourt

Tüm etiketlerin aşağı yukarı aynı boyutta olduğunu düşünüyorsanız (kabaca aynı sayıda örneğe sahip), herhangi birini kullanın.

Diğerlerinden daha fazla örneği olan etiketler olduğunu ve metriğinizi en kalabalık olanlara doğru yönlendirmek istiyorsanız , mikro medya kullanın .

Diğerlerinden daha fazla örneği olan etiketler olduğunu düşünüyorsanız ve metriğinizi en az nüfuslu olanlara doğru yöneltmek istiyorsanız (veya en azından en çok nüfuslu olanlara yönelmek istemiyorsanız), macromedia kullanın .

Eğer micromedia sonucu önemli ölçüde düşük Macromedia olandan ise, bu küçük etiketler muhtemelen doğru sınıflandırılır oysa sen, en kalabalık etiketler bazı brüt hatalı sınıflandırmayı var demektir. Eğer Macromedia sonucu micromedia olandan önemli ölçüde daha düşük olduğunu, bu büyük olanlar muhtemelen doğru sınıflandırılır oysa senin küçük etiketler kötü, sınıflandırılır demektir.

Ne yapacağınızdan emin değilseniz, hem mikro hem de makro ortalama karşılaştırmaları yapmaya devam edin :)

Bu konuda iyi bir makale.

— felipeduque
kaynak