Karar ağaçları ve lojistik regresyon dışında, başka hangi sınıflandırma modelleri iyi bir yorum sağlar? Doğruluk veya diğer parametrelerle ilgilenmiyorum, sadece sonuçların yorumlanması önemlidir.
Karar ağaçları ve lojistik regresyon dışında, başka hangi sınıflandırma modelleri iyi bir yorum sağlar? Doğruluk veya diğer parametrelerle ilgilenmiyorum, sadece sonuçların yorumlanması önemlidir.
Yanıtlar:
1) Karar ağaçlarının insanların ortaya çıkardığı kadar yorumlanabilir olmadığını savunuyorum. Onlar bakmak her düğüm basit, ikili karar olduğundan, yorumlanabilir. Sorun, ağaçtan aşağı inerken, her bir düğümün üstündeki her düğümde şartlı olmasıdır. Ağacınız yalnızca dört veya beş seviye derinse, bir terminal düğümünün yolunu (dört veya beş bölme) yorumlanabilir bir şeye dönüştürmek hala çok zor değildir (örneğin, "bu düğüm, birden fazla hesabı olan yüksek gelirli erkekler olan uzun vadeli müşterileri yansıtır "), ancak birden çok terminal düğümünü izlemeye çalışmak zordur.
Tek yapmanız gereken bir müşteriyi modelinizin yorumlanabilir olduğuna ikna etmekse ("bakın, buradaki her dairenin basit bir evet / hayır kararı var, anlaşılması kolay, hayır?") O zaman karar ağaçlarını listenizde tutardım . Eğer eyleme geçirilebilir yorumlanabilirlik istiyorsanız, kesilmemelerini tavsiye ederim.
2) Başka bir konu, "sonuçların yorumlanabilirliği" ile ne demek istediğinizi açıklığa kavuşturmaktır. Dört bağlamda yorumlanabilirlikle karşılaştım:
Müşteri metodolojiyi anlayabiliyor. (Sorduğunuz şey değil.) Rastgele Bir Orman analoji ile oldukça açık bir şekilde açıklanabilir ve çoğu müşteri basitçe açıklandıktan sonra onunla rahat hisseder.
Metodolojinin bir modele nasıl uyduğunu açıklamak. (Karar ağacının nasıl takıldığını açıklamam konusunda ısrar eden bir müşterim vardı, çünkü sonuçları daha akıllıca nasıl kullanacaklarını anlamalarına yardımcı olacaklarını düşündüler. Yorumlamak / anlamak hiç de yararlı değil.) Yine, bunun sizin sorduğunuz şey olmadığına inanıyorum.
Bir model yerleştirildikten sonra, modelin yordayıcılar hakkında "inandığı" veya "söylediği" ifadesinin yorumlanması. Burada bir karar ağacı yorumlanabilir görünüyor, ancak ilk izlenimlerden çok daha karmaşık. Lojistik regresyon burada oldukça basittir.
Belirli bir veri noktası sınıflandırıldığında, bu kararın neden verildiğini açıklar . Lojistik regresyonunuz neden% 80 dolandırıcılık şansı olduğunu söylüyor? Karar ağacınız neden düşük riskli olduğunu söylüyor? İstemci terminal düğümüne giden karar düğümlerini yazdırmaktan memnunsa, bu karar ağacı için kolaydır. "Neden" in insan konuşmasına özetlenmesi gerekiyorsa ("firmamızla yüksek gelirli ve birden fazla hesabı olan uzun vadeli bir erkek müşteri olduğu için bu kişi düşük risklidir"), çok daha zordur.
Bu nedenle, bir yorumlanabilirlik veya açıklanabilirlik düzeyinde (yukarıda # 4, # 4, # 1), K-En Yakın Komşu kolaydır: "Bu müşterinin yüksek riskli olduğuna karar verildi, çünkü daha önce değerlendirilmiş ve en yüksek 10 müşteriden 8'i X, Y ve Z açısından benzer şekilde yüksek riskli bulunmuştur. " Harekete geçirilebilir, tam seviye # 4'te, yorumlanabilir değildir. (Onlara diğer 8 müşteriyi gerçekten sunmayı düşündüm, ancak bu müşterilerin bu müştereklerin ortak yönlerini ve dolayısıyla derecelendirilen müşterinin ortak noktaları neler olduğunu manuel olarak anlamak için bu müşterilere girmelerini gerektirecektir.)
Son zamanlarda tip # 4'ün otomatik açıklamalarını bulmaya çalışmak için hassasiyet analizi benzeri yöntemleri kullanma hakkında birkaç makale okudum. Yine de elimde yok. Belki birisi yorumlara bazı bağlantılar atabilir?
Kullandığınız verilere bağlıdır. Doğrulukla ilgilenmiyorsanız, verilerin görselleştirilmesinin ve sınıflandırmaların algoritmanın verilerini ve performansını yorumlamanın en iyi yollarından biri olduğuna inanıyorum.
Aşağıda çeşitli sınıflandırıcıların karşılaştırması verilmiştir. Her satır, değişken ayrılabilirliğe sahip verilerle farklı bir veri kümesidir. Her sütun, her bir sınıflandırıcının görselleştirilmesidir.
http://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html
Diskriminant analizi yüz yılı aşkın bir süredir RA Fisher'a dayanan orijinal sınıflandırma modelidir ( https://en.wikipedia.org/wiki/Linear_discriminant_analysis ). Günümüz makine ve istatistiksel öğrenme modelleri dünyasında, en son jargonla daha tutarlı yaklaşımların yerini alarak, çoğu zaman göz ardı edilmektedir.
Bu makale Makine Öğrenimi Dergisi'ndeydi ve diğer yöntemlerin bir çamaşır listesi var, Gerçek Dünya Sınıflandırma Sorunlarını Çözmek için Yüzlerce Sınıflandırıcıya İhtiyacımız Var mı? http://jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
Unsurlar ve sınıflar arasındaki ilişkiyi bulmak için bir ilişki yöntemleri kullanabilirsiniz. Ayrıca, bir özelliğin sınıfla ilişkilendirilip ilişkilendirilmediğini bulmak için chi squared yöntemini de kullanabilirsiniz. Bunu yapmak için sınıf etiketi eşitliğini kullanmalısınız. Örneğin, özellik 1 ve sınıf 1'i test ediyorsanız, özellik 1 için binning yapmalı ve binilen olasılıklar ile sınıf 1, 0 olduğunda 1 değerine sahip bir üyelik değişkeni arasında chi ^ 2 hesaplamalısınız. Bu şekilde, sınıf 1 olmak özellik 1'e bağımlıysa, bazı kutular daha yüksek sınıf 1 olma oranına sahip olurken bazı kutular daha düşük olacaktır.
Orta derecede başarıyla denediğim ek bir yöntem, bir sınıfın bir özelliğini normal dağılıma sığdırmaktı. Daha sonra sınıftaki her numune için, numunenin dağılıma uygunluğu ile özellik puanını artırın. Sınıfta olmayan her örnek için uygunluk özelliğini cezalandırın. Açıkçası, sınıfta olan ve olmayan örneklerin sayısını normalleştirmeniz gerekir. Bu yalnızca normal dağılıma yakın dağıtılan özelliklerde çalışır. Bu yöntemi her sınıf için özellik başına puan atamak için kullandım.
Kimseden En Yakın Komşu sınıflandırmasından bahsedilmedi. Bunu açıklamak çok basit; bir gözlem, kendisine en yakın gözlemler arasında en yaygın sınıfa göre sınıflandırılır. Normalde bakmak için en yakın komşuları seçeriz, böylece kopacak bağ yoktur.