Lojistik bir regresyon modelini giymek mümkün mü? ROC eğrisinin altındaki alanım% 95'in üzerindeyse, fazla takılma ihtimalinin yüksek olduğunu, ancak bir lojistik regresyon modelinin üstesinden gelmenin mümkün olduğunu söyleyen bir video gördüm.
Lojistik bir regresyon modelini giymek mümkün mü? ROC eğrisinin altındaki alanım% 95'in üzerindeyse, fazla takılma ihtimalinin yüksek olduğunu, ancak bir lojistik regresyon modelinin üstesinden gelmenin mümkün olduğunu söyleyen bir video gördüm.
Yanıtlar:
Evet, lojistik regresyon modellerinin üzerine geçebilirsiniz. Ama önce, AUC (Alıcının Çalışma Karakteristik Eğrisi Altındaki Alan) hakkındaki noktaya değinmek istiyorum: AUC ile hiçbir zaman evrensel bir kural yoktur.
AUC'nin anlamı , rastgele örneklenmiş bir pozitifin (veya durumun) negatif ((kontrol)) değerinden daha yüksek bir marker değerine sahip olma olasılığıdır, çünkü AUC matematiksel olarak U istatistikine eşdeğerdir.
AUC'nin ne olmadığı standart bir prediktif doğruluk ölçütüdür. Çok deterministik olaylar,% 95 veya daha yüksek tekli tahminli AUC'lere sahip olabilir (örneğin, kontrollü mekatronik, robotik veya optikler gibi), bazı karmaşık çok değişkenli lojistik risk tahmin modelleri, meme kanseri risk tahminleri gibi% 64 veya daha düşük AUC değerlerine sahiptir. Muhtemelen yüksek düzeyde tahminsel doğruluk.
Bir güç analizinde olduğu gibi mantıklı bir AUC değeri, apriori çalışmasının arka planı ve amaçları hakkında bilgi toplanarak belirlenir . Doktor / mühendis ne istediklerini açıklar ve istatistikçi, öngörücü modeliniz için hedef AUC değerine karar verirsiniz. Ardından soruşturmaya başlar.
Lojistik bir regresyon modelinin üstesinden gelmek gerçekten mümkün. Doğrusal bağımlılığın yanı sıra (eğer model matris eksikse), aynı zamanda mükemmel bir uyumluluğa sahip olabilirsiniz veya bu, Y'ye karşı verilen değerlerin grafiği durumları ve kontrolleri mükemmel şekilde ayırt eder. Bu durumda, parametreleriniz bir araya gelmedi, ancak basitçe, bir olasılığı veren sınır alanı üzerinde bir yerde durdu . Bununla birlikte, bazen, AUC tek başına rastgele şans eseri 1'dir.
Basit bir ifadeyle .... bir çok donanıma bağlı lojistik regresyon modelinin büyük bir varyansı vardır, karar değişkeni büyük ölçüde değişken büyüklükteki küçük değişiklikler için değişir. görüntüyü takip etmeyi düşünün, çoğu en fazla donanımlı lojistik modeldir, karar sınırında çok fazla sayıda yoktur. iniş ve çıkışların ortaları sadece uygun iken orta derecede değişkenlik ve orta derecede önyargıya sahiptir. soldaki kişi yüksek önyargıya sahip ancak çok daha az farklı. bir şey daha_ Bir kıyafeti giydirme modelinde çok fazla özellik bulunurken, iç çamaşırı modelinde daha az hayır bulunur. özelliklerin.
Tüm popülasyona uysa bile (popülasyon sınırlıysa), herhangi bir yöntemle daha fazla donanım kullanabilirsiniz. Sorunun iki genel çözümü vardır: (1) cezalandırılmış azami olabilirlik tahmini (ridge regresyonu, elastik ağ, kement, vb.) Ve (2) Bayesian modelinde bilgilendirici önceliklerin kullanılması.
Herhangi bir model var mı, lojistik regresyonu bir kenara bırakın, fazladan giymenin mümkün olmadığı?
Aşırı uyum temel olarak ortaya çıkar, çünkü tüm popülasyona değil bir örneğe uyursunuz. Örneğinizin eserleri nüfusun özellikleri gibi görünebilir ve bunlar değildir ve bu nedenle fazladan acı çeker.
Dış geçerlilik meselesine benziyor. Yalnızca örnek kullanarak, göremediğiniz gerçek popülasyonda size en iyi performansı veren bir model almaya çalışıyorsunuz.
Elbette, bazı model biçimlerinin veya prosedürlerinin diğerlerine göre daha fazla giydirilebileceği daha muhtemeldir, ancak hiçbir model gereğinden fazla giydirmekten gerçekten bağışık değildir, öyle değil mi?
Numune dışı doğrulama, düzenlileştirme prosedürleri vb. Sadece aşırı uyuma karşı koruyabilir, ancak gümüş mermi yoktur. Aslında eğer biri, monte edilmiş bir modele dayalı gerçek bir dünya tahmininde bulunma konusundaki güvenini tahmin etmek istiyorsa, her zaman bir miktar fazla abartmanın gerçekten gerçekleştiğini varsaymalıdır.
Ne ölçüde değişebileceği, ancak bir veri tutma veri setinde doğrulanmış bir model bile, veri tutma veri setinde elde edilenlerle eşleşecek nadiren vahşi performans gösterecektir. Aşırı uyum ve büyük bir nedensel faktördür.
Aşırı uyumu kontrol etmek için Roc ile yaptığımız şey, eğitim setinde veri setini rastgele ayırmak ve AUC'yi bu gruplar arasında karşılaştırmak. Eğer AUC “fazla” ise (eğitim kurallarında da bir kural yoktur) eğitimde daha büyük olabilir.