Büyük karışıklık matrislerini okumayı nasıl kolaylaştırabilirim?

Geçenlerde 369 sınıflı bir veri kümesi ( link ) yayınladım . Sınıflandırma görevinin ne kadar zor olduğuna dair bir fikir edinmek için üzerinde birkaç deney yaptım. Genellikle, yapılan hata türünü görmek için karışıklık matrisleri varsa sevdim. Ancak, $369 \times 369$ matris pratik değildir.

Büyük karışıklık matrisleri hakkında önemli bilgiler vermenin bir yolu var mı? Örneğin, genellikle çok ilginç olmayan bir sürü 0 vardır. Sınıfları, tam karışıklık matrisinin bir parçası olan birden fazla matrisin gösterilmesine izin vermek için sıfır olmayan girişlerin çoğu diyagonal etrafında olacak şekilde sıralamak mümkün müdür?

İşte büyük bir karışıklık matrisi örneği .

Vahşi Doğadan Örnekler

EMNIST'in Şekil 6'sı hoş görünüyor:

Birçok vakanın nerede olduğunu görmek kolaydır. Ancak, bunlar sadece $26$ sınıflar. Sayfanın tamamı tek bir sütun yerine kullanılmışsa, bu muhtemelen 3 kat fazla olabilir, ancak bu yine de yalnızca $3 \cdot 26 = 78$ sınıflar. 369 HASY veya 1000 ImageNet sınıfına bile yakın değil.

Ayrıca bakınız

CS.stackexchange'teki benzer sorum

visualization confusion-matrix

— Martin Thoma
kaynak

Sana acıyorum ;-) Her biri için bire karşı karışıklık matrislerini deneyebilirsiniz. Onlara bakıldığında, davranışın tipik olmadığı görünüm veya sınıflar ve sadece üzerlerinde tam bir karışıklık matrisi kullanın.

— DaL

Neden sadece her kategori için modelin doğruluğunu rapor etmiyoruz. Matrisin tamamını gerçekten görmek isteyen var mı?

— Darrin Thomas

@DarrinThomas Sadece bir raporda bildirmekle ilgili değil. Aynı zamanda hataları kendim analiz etmektir.

— Martin Thoma

Öncelikle değerleri satır bazında normalleştirebilir ve daha sonra bir ısı haritası olarak çizebilirsiniz. Ayrıca, sınıfı sınıfsal doğruluk derecesine göre sıralayabilirsiniz (diyagonalde normalleştirilmiş değer). Sanırım bu okunabilirliği büyük ölçüde artıracak.

— Nikolas Rieble

Muhtemelen bunu matematikte sormalıyım. SE / stackoverflow tekrar. Satırları / sütunları değerin çoğunu çapraz yakın olacak şekilde yeniden sipariş algoritmalar olduğundan eminim.

— Martin Thoma

Yanıtlar:

Yüksek lisans tezimde tanımladığım (sayfa 48ff) ve Confusion Matrix Ordering (CMO) olarak adlandırılan bir tekniği uygulayabilirsiniz :

Sütunları / satırları, çoğu hatanın köşegen boyunca olacağı şekilde sıralayın.
Karışıklık matrisini, tek bloklar kolayca yazdırılabilecek / görüntülenebilecek ve birden fazla veri noktası olduğu için bazı blokları kaldırabileceğiniz şekilde birden fazla bloğa bölün.

Güzel yan etki: Bu yöntem de benzer sınıfları otomatik olarak bir araya getirir. Yüksek lisans tezimin 5.12.

Karışıklık matrisi sırasını aşağıdakilerle uygulayabilirsiniz: clana

— Martin Thoma
kaynak

Bir uygulama için github.com/MartinThoma/clana adresine bakın

— Martin Thoma

Sütunları ve satırları yeniden sıralamak yerine, verileri görselleştirmek için başka bir yol bulmaya çalışmanızı öneririm.

İşte olası bir alternatif öneri. Sınıfları, örneğin, her kümenin içinde ~ 20 sınıfın bulunduğu, kümeleri, benzer sınıfları aynı kümeye bir araya getiren bir tür kümeleme algoritması kullanarak kümeleyebilirsiniz (örneğin, iki sınıf birbiriyle sık sık karıştırılırsa, aynı kümede olma olasılıkları daha yüksek olmalıdır). Daha sonra, küme başına bir satır / sütun ile iri taneli bir karışıklık matrisi gösterebilirsiniz; ... 'daki hücre $(i,j)$ kümedeki bir sınıfın bir örneğinin ne sıklıkta olduğunu gösterir $i$ kümede bir sınıfa sahip olması bekleniyor $j$ . Ayrıca, ~ 20 ince taneli karışıklık matrisine sahip olabilirsiniz: her küme için, her kümedeki ~ 20 sınıf için sınıfların karışıklık matrisini gösterebilirsiniz. Elbette, bunu hiyerarşik kümeleme kullanarak da genişletebilir ve çoklu ayrıntılarda karışıklık matrislerine sahip olabilirsiniz.

Başka olası görselleştirme stratejileri de olabilir.

Genel bir felsefi nokta olarak: hedeflerinizi açıklığa kavuşturmak da faydalı olabilir (görselleştirmeden çıkmak istedikleriniz). Görselleştirmenin iki tür kullanımını ayırt edebilirsiniz:

Keşifsel analiz: Ne aradığınızdan emin değilsiniz; sadece verilerdeki ilginç desenleri veya eserleri aramanıza yardımcı olabilecek bir görselleştirme istiyorsunuz.
Mesaj içeren rakamlar: Okuyucunun götürmesini istediğiniz belirli bir mesajınız var ve bu mesajı desteklemeye veya mesaj için kanıt sağlamaya yardımcı olan bir görselleştirme tasarlamak istiyorsunuz.

Hangisini hedeflemeye çalıştığınızı bilmenize ve ardından buna yönelik bir görselleştirme tasarlamanıza yardımcı olabilir:

Keşif analizi yapıyorsanız, mükemmel bir görselleştirme seçmek yerine, aklınıza gelebilecek kadar çok görselleştirme oluşturmaya çalışmak genellikle yararlıdır. Bunlardan herhangi birinin mükemmel olup olmadığı konusunda endişelenmeyin; Her biri kusurluysa sorun değil, çünkü her biri size potansiyel olarak farklı bir bakış açısı verebilir (muhtemelen bazı yönlerden iyi, bazılarında kötü olacaktır).
İletmeye çalıştığınız belirli bir iletiniz veya geliştirmeye çalıştığınız bir temanız varsa, bu temayı destekleyen bir görselleştirme arayın. Bu temanın / mesajın ne olabileceğini bilmeden belirli bir öneri yapmak zor.

— DW
kaynak

EMNIST karışıklık matrisinin neden iyi göründüğünü bilmek önemlidir.

Ancak, daha yüksek sayıların en karanlık olduğu renklendirmeyi sürdürmediklerini garip buluyorum, örneğin sıfır içeren boş miss-sınıflandırmalarının çoğu, bir tamsayı içerenlerden daha koyu gridir. Tutarlı görünmüyor.

Renk bir hücrede giriş sayısını gösterir tutarlı tutmak dışında EMINST stilini kullanmayı deneyin. Sıfır giriş için beyaz ve çoğu giriş için siyah.

Mükemmel bir sınıflandırma, tamamen beyaz üst ve alt üçgenleri olan siyah bir diyagonal olacaktır. Üçgenlerde gri lekelerin olduğu yerler problemleri gösterecektir. 1000 sınıf setinde bile bu yardımcı olacaktır. Sınıfların hiyerarşik olduğu ImageNet için, belki de alt sınıfların üst sınıfın hakkı gruplandırılacak şekilde sütunları sıralamak kare koyu yamalara yol açar.

Ayrıca, bir görüntü için ilk 5 yanıtı alıyorsanız, sınıflar birbirini dışlamayabilir, böylece bir lap_dog görüntüsü için köpek sınıflandırması hala doğru olmalıdır, bu nedenle böyle bir karışıklık matrisinde daha genel sınıflar daha koyu olmalıdır kesin sınıflandırmalardan daha fazladır (renkler normalleştirilirse.) Bu nedenle sol üst kare en koyu olur.

— rocklegend
kaynak