Vaka ağırlıklı lojistik regresyon


9

Birkaç lojistik regresyon sorununa bakıyorum. ("normal" ve "koşullu").

İdeal olarak, giriş vakalarının her birini ağırlıklandırmak istiyorum, böylece glm daha yüksek ağırlıklı vakaları muhtemelen daha düşük ağırlıklı vakaları yanlış sınıflandırma pahasına doğru tahmin etmeye odaklanacaktır.

Elbette bu daha önce yapıldı. Herkes beni ilgili bazı literatüre yönlendirebilir mi (Veya muhtemelen değiştirilmiş bir olasılık fonksiyonu önerebilir.)

Teşekkürler!


1
Tahminlerin aksine, sınıflandırmanın hedef olduğunu varsayıyorsunuz. Olasılıkların en uygun şekilde tahmin edilmesi için hiçbir şeyi yeniden ağırlıklandırmanız gerekmez. "Yanlış negatifler" ve "yanlış pozitifler" yalnızca zorla seçimlerle ortaya çıkar ve genellikle hiç kimse saf bir ikili seçimi zorlamaz.
Frank Harrell

@Frank İyi bir noktaya değindin. Nihayetinde, bu projenin amacı diğer olayların sonuçlarını tahmin etmektir. (Yani, eğitim verileri ile bir makine öğrenme tadı olarak düşünülebilir.) Bazı sonuçlar diğerlerinden daha "önemli", bu yüzden onları buna göre ağırlıklandırmak için bir yol arıyordum. Nick'in olasılık işlevi için önerisi mantıklıdır ve kodda uygulanması oldukça önemsiz olmalıdır.
Noah

1
Görünüşe göre, tam olarak ağırlık gerektirmeyen bir olasılık modeline ihtiyacınız var.
Frank Harrell

1
Sağ; maliyet işlevini takın ve öngörülen olasılığı kullanın ve en uygun karara sahipsiniz.
Frank Harrell

1
İyi kalibre edilmiş bir olasılık modelinde "hata" yoktur, sadece tahmin edilemeyen rastgelelik vardır. Optimal kararlar, çeşitli kararların alınması için öngörülen olasılığın ve maliyet fonksiyonunun bir fonksiyonudur.
Frank Harrell

Yanıtlar:


3

glmweightstam olarak bu amaçla bir parametre tutar . Herhangi bir ölçekte, gözlemlerinizle aynı sayıda ağırlığa sahip bir sayı vektörü sağlarsınız.

Artık konuşamayacağınızın farkındayım R. Değilse, isteyebilirsiniz.


R'ye çok aşinayım, ancak olabilirlik fonksiyonunun arkasındaki matematiği anlamak istiyorum. Bunu C ++ veya başka bir dilde kodlayabilirim. (Sadece glm fonksiyonunun "blackbox" ına güvenmek her zaman en iyi çözüm değildir)
Noah

Ah. Aferin sana. Bildiğim kadarıyla, ağırlıklar sadece gözlem başına mantıksallığı çoğaltmak için kullanılır. Dolayısıyla, ağırlıksız bir sürüm yazdıysanız, ağırlıkları eklemek bir doddle olmalıdır. Ayrıca, glmbir C uygulaması bulmak için (muhtemelen) kaynak koduna her zaman bakabileceğinizi de unutmayın .
Nick Sabbe

2
@Nick, ben de bunun glm'deki ağırlıklar argümanının işlevi olduğunu yanlış anlama altındaydım - öyle değil. Aslında, binom sonuçlarının farklı sayıda denemeye dayandırılması açısından homojen olmadığı durumlarda kullanılır. Örneğin, ilk gözlem Binom ( ) ve ikincisi Binom ( ) olsaydı, ağırlıkları olurdu . Yine, glm () içindeki ağırlıklar argümanı ağırlık örneklemez. Bunu R'de yapmak için, veri kümesini ağırlıklara göre genişletmeniz ve modeli genişletilmiş veri kümesine sığdırmanız gerekir (bu durumda SE'ler yanlış olabilir). 3,.57,.53,7
Makro

3
İşte bir mesaj gemide 'ağırlıklar' argümanının bir tartışma: r.789695.n4.nabble.com/Weights-in-binomial-glm-td1991249.html
Makro

@Macro: teşekkürler! Çok temiz.
Yorumundan

1

SAS'a erişiminiz varsa, bu PROC GENMOD'u kullanarak kolayca yapılabilir. Her gözlemin bir ağırlık değişkeni olduğu sürece, weight ifadesinin kullanımı, aradığınız analiz türünü gerçekleştirmenize olanak tanır. Çoğunlukla Tedavinin Ters Olasılık ağırlıklarını kullanarak kullandım, ancak N'nizin sabit kaldığından emin olduğunuz sürece, belirli vaka türlerini vurgulamak için verilerinize ağırlık atamadığınız için hiçbir neden göremiyorum. Teknik olarak yukarı yönlü vakalar tekrarlanan gözlemler olduğu için bir çeşit ID değişkeni eklediğinizden de emin olmak istersiniz. 'İd' gözlem kimliğine ve 'wt' ağırlık değişkenine sahip örnek kod:

proc genmod data=work.dataset descending;
    class id;
    model exposure = outcome covariate / dist=bin link=logit;
    weight wt;
    repeated subject=id/type=ind;
run;
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.