Sürekli bağımlı değişken için lojistik regresyon kullanma


9

Son zamanlarda araştırma makalem için bir revizyon aldım ve aşağıdaki incelemenin makalemdeki yorumu:

bir modelden elde edilen sonuçlar oldukça ikna edici değildir, özellikle doğrusal regresyon genellikle aykırı değerlerle başa çıkmada eksikliklere sahiptir. Yazarların lojistik regresyonu denemelerini ve ilgili sonuçları güncel sonuçlarla karşılaştırmasını öneriyorum. Benzer gözlemler elde edilirse, sonuçlar daha katı olacaktır.

Hakem yorumu doğru mu? Lojistik regresyon çoklu doğrusal regresyondan daha mı iyidir?

Sorun, bağımlı değişkenimin kategorik olmaması, bir ölçek değişkenidir. Şimdi ne yapabilirim? Modelimi değerlendirmek için başka hangi regresyon yöntemini önerirsiniz?

Skor aşağıdaki tabloda değişkendir. Yenilik, sıklık, görev süresi ve son puan bağımsız değişkenlerdir.

resim açıklamasını buraya girin

Bir siteden bu değişkenleri çıkarılan ettik ve ben bu varsayımında bağımsız değişkenler var önemli bir etkiye üzerinde puan . Bu nedenle, aşağıdaki modelleri temsil ediyorum:

resim açıklamasını buraya girin


Bu arada, bu lineer model için R kare değeri 0.316! İnceleyen ayrıca bu değere de yorum yaptı:

öğrenilen katsayıların kalitesi hakkında bir gösterge olmadığından sonuçlar ikna edici değildir. Küçük bir R ^ 2, model aşırı takılmış olabileceğinden iyi bir performans gösteremez.

R kare için 0.316 çok düşük mü? Önceki yazılarda benzer değerleri çok gördüm.

resim açıklamasını buraya girin


Bu küçük bir noktadır, ancak puanın nasıl hesaplandığını anlamak iyi cevaplar vermede yardımcı olabilir. Bu konuda bizi bilgilendirmek için sorunuzu düzenleyebilir misiniz?
whuber

Yazımı düzenlerim. istatistiksel bilgim iyi değil. Yardım edersen çok minnettar olurum.
PSS

1
sürekli bağımlı değişken üzerinde lojistik regresyonu çalıştırmak hakkında bir fikir yok mu ???
PSS

1
Puan 0 ile 100 arasında olması gereken bir şey mi? Bu durumda 100'e bölünebilir ve sonuçta ortaya çıkan değişken üzerinde her zaman 0 ile 1 arasında olacak bir lojistik regresyon yapabilirsiniz ... işleri bu şekilde yapmak biraz tuhaf geliyor ve ne kadar mantıklı olduğundan emin değilim, ama belki gözden geçiren ne önerir?
Sam Livingstone

2
Hayır, 0-1'e ölçeklendirme veya skoru kategorize etmek için değerli bilgileri atmak hiç de iyi bir çözüm değildir.
Frank Harrell

Yanıtlar:


7

Orantılı oranlar sıralı lojistik regresyon modeli bu problem için iyi çalışmalıdır. Binlerce benzersiz kullanıcıya olanak tanıyan verimli bir uygulama içinYdeğerleri ormR rmspaketindeki işleve bakın .


R ve gerekli tüm paketleri kurdum. orm işlevi için bir örnek verir misiniz? Arayarak bulamadım. Regresyon modelim için kod ne olmalı?
PSS

1
Belgeleri incelemek için zaman ayırmaya değer. Kodlu ayrıntılı bir vaka çalışması için biostat.mc.vanderbilt.edu/CourseBios330 altındaki çalışma kağıtları - Sürekli Regresyon Modelleri bölümüY.
Frank Harrell

1

ayrıca sırasıyla 1., ....., 4. persentillerdeki puanlara 1, 2,3 ve 4 değerleri atayarak sıralı probit / logit modellerini deneyebilirsiniz.


Hangi değişkeni en düşük dört yüzdelik dilime (100 üzerinden) indirmeyi öneriyorsunuz? Bu neyi başaracak ve neden?
whuber

-1

Skoru ikiye ayırabilir (ikili değişkene dönüştürebilirsiniz). Puan 0 ila 100 arasındaysa, aksi takdirde 50 ve 1'den daha düşük puanlara 0 atayabilirsiniz. Daha önce hiç duymadım, bu aykırı değerlerle başa çıkmanın iyi bir yolu. Bu sadece aykırı değerleri gizleyebilir, çünkü çok yüksek veya düşük puanları ayırt etmek imkansız olacaktır. Bu benim için çok mantıklı değil ama deneyebilirsiniz.

Daha da önemlisi, neden tüm değişkenlerinizi ve yanıt değişkeninizi günlüğe dönüştürüyorsunuz? Bu sizi etkileyecekβ tahminler ve R2 (bence).

Ayrıca gözden geçiren küçük bir R2aşırı takılmayı önerir? Aşırı takmanınR2yüksek, ancak modeliniz yeni verilerde düşük performans gösteriyor (yani verilerinize uyuyor ancak yeni verilerde genelleme yapmıyor). Aşırı sığdırma, çok sayıda parametre ile tahmin etmeye çalıştığınız az sayıda gözleminiz olduğunda ortaya çıkar. Model 2'de yaptığınız şey budur, çünkü 7 parametre ile açıklamaya çalıştığınız 8 gözleminiz var.

İstatistikler hakkında çok şey biliyormuşum gibi davranmayacağım, ama bana göre, yorumlarına dayanarak, bu gözden geçirenin daha da azını biliyor olabilir.


Cevabınız için çok teşekkürler. Tüm değişkenler çarpık olduğundan, onları doğal günlük dönüşümü yaptım. Haklı mıyım? "Aşırı takmanın" ne anlama geldiğini açıkladığınız için teşekkür ederiz! Aslında, aşırı sığmanın ne anlama geldiğini bilmiyordum. Şimdi gözden geçirene ve editöre cevap verebilirim. Bu arada, değerlendirmemi daha sağlam hale getirmem için tavsiyen nedir? hangi regresyon yönteminin daha iyi olduğunu düşünüyorsunuz?
PSS

6
İkili ayırmayın Yherhangi bir nedenle.
Frank Harrell

@FrankHarrell ile verilerinizi ikiye ayırmak için keyfi bir eşik seçmenin hiçbir anlamı olmadığını kabul ediyorum. Bu, tüm veri kümeniz mi? Eğer çok az gözleminiz varsa, verileriniz asla normal şekilde dağılmış gibi görünmeyecektir! Ayrıca, uğraştığınız veri türünü de anlamanız gerekir. Ne kadar değer alabilirler, normal olarak dağılmaları gerektiğini varsaymak mantıklı mıdır? Frank'in sıralı lojistik regresyon kullanma önerisine bakacağım, ama tahminim, regresyondaki değerleri yerine puanların sırasını kullanıyor olması.
pontikos

@PotentialScientist, dağıtımlarınızın çarpık olması önemli değil. OLS (tipik) regresyonda, sadece artıkların dağılımı önemlidir, buraya bakın: eğer-kalıntılar-normalde dağıtılmış-ama-y-değildir . Bunu da okumak isteyebilirsiniz: öngörücülerinizi dönüştürmenin bir sonucu olarak modelinize ne olduğunu anlamak için log-dönüşüm-dönüştürülmüş-öngörücünün yorumlanması .
gung - Monica'yı eski durumuna döndürün

@PotentialScientist nasıl gidiyorsun? Sorunuzu CSV formatında sağlamak için düzenlerseniz Prof Harrell tarafından önerilen orm işlevini çalıştırmayı deneyebilir ve çıktıyı analiz edebiliriz. R'nin temellerini öğrenmeye değer (bir dosyada nasıl okunur ve bir regresyon nasıl çalıştırılır).
Pontikos

-1

Sürekli bağımlı bir değişkene bile lojistik regresyon uygulamak mümkündür. Tahmin edilenin scoreher zaman içeride olduğundan emin olmak istiyorsanız mantıklıdır [0, 100](ekran görüntülerinizden 100 puanlık bir ölçekte olduğunu düşünüyorum).

Bunu başarmak için puanınızı 100'e bölün ve bu [0,1]tabanlı hedef değişkenle, bu sorudaki gibi lojistik regresyonu çalıştırın - örneğin R, kullanarak, kullanarak

glm(y~x, family="binomial", data=your.dataframe)

Bu yaklaşımın aykırı değerlere yardımcı olup olmadığını bilmiyorum - beklediğiniz aykırı değerlere bağlıdır. Ancak bazen uyum iyiliğini (hattaR2, bağımlı değişkeninizin doğal alt ve üst sınırları varsa.

İkinci soruya gelince, R20.3fazla sığmadan verilerinizden sıkabileceğinizin en iyisi olabilir. Modelinizi çıkarım amacıyla oluşturursanız, düşükR2sizin için önemli katsayılar önemli olduğu sürece tamamen iyidir. Modelin fazla takılıp takılmadığını kontrol etmek istiyorsanız, modelinR2 bir test setinde , hatta bir çapraz doğrulama yapın.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.