Lojistik regresyon için örnekleme 1 ve 0'ların gerçek oranını yansıtmalı mıdır?

Diyelim ki ağaçlarda yaşayan bazı hayvan türlerinin ağaçların özelliklerine bağlı olarak ortaya çıkma ihtimalini tahmin edebilecek lojistik regresyon modeli oluşturmak istediğimi varsayalım (fe yüksekliği). Her zaman olduğu gibi, zamanım ve param sınırlı, bu yüzden sadece sınırlı bir örneklem büyüklüğü toplayabiliyorum.

Aşağıdaki sorularım var: Örneğimdeki 1 ve 0'ların oranı 1'lerin ve 0'ların gerçek oranını yansıtmalı mı? (en azından yaklaşık olarak) Lojistik regresyon modelinin dengeli bir örnekle (eşit sayıda 1 ve 0) eşit şekilde gerçekleştirilmesinin yaygın bir uygulama olduğunu fark ettim - ancak bu tür modeller gerçeküstü olarak yüksek ortaya çıkma olasılığı verir - doğru mu?

** kavramını desteklemek için kullanabileceğim , 1 ve 0 oranlarının gerçek oranını yansıtmayan modellerin " yanlış " olduğu konusunda herhangi bir makale / ders kitabı var mı?

Son olarak: 1: 1 örnekleme yapmak ve daha sonra Imai ve diğerlerine göre tau ile modeli düzeltmek mümkün mü ? 2007?

Kosuke Imai, Gary King ve Olivia Lau. 2007. “relogit: Kosuke Imai, Gary King ve Olivia Lau,“ Zelig: Herkesin İstatistiksel Yazılımı ”, http: //gking.harvard.edu/zelig.

Noktalar ağaçları temsil eder (kırmızı = dolu, gri = boş). İşgal altındaki tüm ağaçları% 100 doğrulukla (1'ler) belirleyebiliyorum ancak ormandaki tüm ağaçları ölçemiyorum. Model, her örnekleme stratejisi (oranı) için farklıdır.

logistic sampling

— Ladislav Naďo
kaynak

Eğer böyle bir modelin amacı tahmin ise, sonuçları tahmin etmek için ağırlıklı olmayan lojistik regresyon kullanamazsınız: Riski fazla tahmin edersiniz. Lojistik modellerin gücü, bir risk modeliyle bir lojistik modeldeki ikili sonuç arasındaki ilişkiyi ölçen "eğim" olan oran oranının sonuç bağımlı örneklemede değişmez olmasıdır. Eğer vakalar kontrollere 10: 1, 5: 1, 1: 1, 5: 1, 10: 1 oranında örneklenirse, bunun önemi yoktur: OR örnekleme koşulsuz olduğu sürece her iki senaryoda da değişmeden kalır. maruz kaldığında (ki bu Berkson'ın önyargısını getirecekti). Aslında, sonuca bağlı örnekleme, basit rastgele örneklemenin tam olarak gerçekleşmeyeceği bir maliyet tasarrufu çabasıdır.

Neden risk tahminleri lojistik modeller kullanarak sonuca bağımlı örneklemeden önyargılı? Sonuca bağlı örnekleme, lojistik bir modeldeki müdahaleyi etkiler. Bu, S şeklindeki ilişki eğrisinin popülasyondaki basit bir rastgele örneklemde bir vakayı örnekleme sicil oranındaki fark ve popülasyondaki basit rasgele bir örneklemde bir örnekleme sicil oranları arasındaki farkla "x eksenini yukarı kaydırmasına" neden olur. deneysel tasarımın -population. (Kontrol için 1: 1 vakanız varsa, bu sözde popülasyonda bir vakayı örnekleme şansı% 50'dir). Nadir sonuçlarda, bu oldukça büyük bir fark, 2 ya da 3 faktördür.

Öyleyse bu tür modellerden "yanlış" olduklarından bahsederken, hedefin çıkarım (doğru) veya tahmin (yanlış) olduğuna odaklanmalısınız. Bu aynı zamanda sonuçların vakalara oranını da ele almaktadır. Bu konuyu görme eğiliminde olduğunuz dil, böyle bir çalışmayı kapsamlı bir şekilde yazılmış olan bir “vaka kontrolü” çalışması olarak adlandırmaktır. Belki de konuyla ilgili en sevdiğim yayın, normal bir çalışma olarak nadir görülen kanser nedenleri için risk faktörlerini tanımlayan Breslow ve Day'tir (olayların nadir olması nedeniyle önceden mümkün değildir). Vaka kontrol çalışmaları, bulguların sıklıkla yanlış yorumlanmasını çevreleyen bazı tartışmalara yol açmıştır: özellikle OR'yi RR ile (bulguları abartmaktadır) ve ayrıca numunenin aracı olarak “çalışma tabanını” ve bulguları artıran popülasyonu.onlara mükemmel bir eleştiri sağlar. Bununla birlikte, hiçbir eleştiri, vaka kontrol çalışmalarının doğal olarak geçersiz olduğunu iddia etti, nasıl yapabilirdiniz? Halk sağlığını sayısız caddede geliştirdiler. Gerçekten değil: Miettenen makalesi bile sonuç bağımlı örneklemede göreceli risk modelleri ya da diğer modelleri kullanmak ve çoğu durumda sonuçları ve nüfus seviyesi bulguları arasındaki tutarsızlıklar tanımlayabilir, bu işaret iyidir kötüdür beri VEYA genellikle bir sabit parametredir yorumlamak.

Muhtemelen risk tahminlerindeki aşırı örnekleme eğiliminin üstesinden gelmenin en iyi ve en kolay yolu, ağırlıklı olasılık kullanmaktır. Scott ve Wild ağırlıklandırmayı tartışıyor ve engelleme terimini ve modelin risk tahminlerini düzelttiğini gösteriyor. Bu, popülasyondaki vakaların oranı hakkında önceden bir bilgi olduğunda en iyi yaklaşımdır . Sonucun prevalansı aslında 1: 100 ise ve vakaları 1: 1 şeklinde kontrol ediyorsanız, popülasyona tutarlı parametreler ve tarafsız risk tahminleri elde etmek için sadece 100 kontrol büyüklüğündeki kontrolleri ağırlıklandırırsınız. Bu yöntemin dezavantajı, başka yerde hatayla tahmin edilmiş olması halinde, nüfus yaygınlığındaki belirsizliği hesaba katmamasıdır. Bu, Lumley ve Breslow'un açık bir araştırma alanı.İki fazlı örnekleme ve iki kat daha sağlam tahmin ediciyle ilgili bazı teorilerle çok ileri geldi. Bence çok ilginç şeyler. Zelig'in programı sadece ağırlık özelliğinin bir uygulaması gibi görünüyor (R'nin glm fonksiyonu ağırlıklara izin verdiği için biraz gereksiz görünüyor).

— Adamo
kaynak

(+1) Önceden yapılan düzeltme, basit vaka kontrol örneklemesi için kesmeyi ayarlamanın en kolay yolu olarak tartışmasız en kolay yol olarak görülmeye değer mi?

— Scortchi - Monica'yı yeniden kurun

@Scortchi Kesişmeden önce bilgilendirici olan Bayesian lojistik regresyon mu demek istiyorsun? Veya sınırlı optimizasyon? Ne olabileceğine gerçekten aşina değilim.

— AdamO

Burada sadece basit hesaplama: stats.stackexchange.com/a/68726/17230 . (Şimdi bu terminolojiyi nereden aldığımdan ya da ne kadar standart olduğu konusunda emin değilim.) Ağırlıklandırmanın yanlış belirtilen modeller için daha iyi çalıştığını duydum.

— Scortchi - Monica'yı yeniden kurun

@ Scortchi Ah, bu oldukça kolay olurdu! Hata tahminleri gerekmediği sürece tahmin için iyi olmalıdır. Ağırlıklandırma, kesim ve eğim için size farklı bir SE verecektir , ancak bu yöntem hiçbirini etkilemeyecektir.

— AdamO