Çoklu doğrusal regresyon için minimum gözlem sayısı


12

Çoklu doğrusal regresyon yapıyorum. 21 gözlemim ve 5 değişkenim var. Amacım sadece değişkenler arasındaki ilişkiyi bulmak

  1. Verilerim birden fazla gerileme yapacak şekilde ayarlandı mı?
  2. T-test sonucu 3 değişkenimin anlamlı olmadığını ortaya koydu. Regresyonumu önemli değişkenlerle tekrar yapmam gerekiyor mu (ya da ilk regresyonum sonuç almak için yeterli mi)? Korelasyon matrisim aşağıdaki gibidir

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1 ve var 2 sürekli değişkenlerdir ve var 3 - 5 kategorik değişkenlerdir ve y bağımlı değişkenimdir.

Bağımlı değişkenim üzerinde en etkili faktör olarak literatürde dikkate alınan önemli değişkenin veri kısıtlamam nedeniyle regresyon değişkenlerim arasında da olmadığı belirtilmelidir. Bu önemli değişken olmadan hala regresyon yapmak anlamlı mı?

işte benim güven aralığım

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

Yanıtlar:


17

Genel kural (Frank Harrell'in Regresyon Modelleme Stratejileri kitabındaki maddelere dayanarak ), makul büyüklükteki etkileri makul güçle tespit edebilmeyi bekliyorsanız, tahmin edilen parametre başına 10-20 gözleme ihtiyaç duymanızdır. Harrell, PCA gibi "boyut küçültme" (eşdeğerlerinizin sayısını daha makul bir boyuta düşürme) için birçok seçeneği tartışıyor, ancak en önemli şey, sonuçlara güvenmek için boyut küçültmenin yapılması gerektiğidir. yanıt değişkenine bakmadan . Yukarıda önerdiğiniz gibi regresyonu sadece önemli değişkenlerle tekrar yapmak neredeyse her durumda kötü bir fikirdir.

Bununla birlikte, bir veri kümesi ve ilgilendiğiniz bir dizi ortak değişkenle sıkıştığınızdan, çoklu regresyonu bu şekilde çalıştırmanın doğası gereği yanlış olduğunu düşünmüyorum. En iyi şey, sonuçları tam modelden olduğu gibi kabul etmek olacaktır (önemli etkilerin bazı gerçeklerde "büyük" olarak tahmin edilip edilmediğini görmek için nokta tahminlerine ve güven aralıklarına bakmayı unutmayın. anlamlı olmayan etkilerin gerçekte anlamlı etkilerden daha küçük olup olmadığı tahmin edilmektedir).

Alanınızın önemli gördüğü öngörücü olmadan analiz yapmanın herhangi bir anlamı olup olmadığı konusunda: Bilmiyorum. Modele bağlı olarak ne tür çıkarımlar yapmak istediğinize bağlıdır. Dar anlamda, regresyon modeli hala iyi tanımlanmıştır ("bu öngörücülerin bu tepki üzerindeki marjinal etkileri nelerdir?"), Ancak alanınızdaki bir kişi analizin anlamlı olmadığını söyleyebilir. Sahip olduğunuz öngörücülerin iyi bilinen öngörücüden (her ne olursa olsun) ilişkisiz olduğunu veya iyi bilinen öngörücünün verileriniz için sabit veya neredeyse sabit olduğunu biliyor olsaydınız biraz yardımcı olur: o zaman en azından şunu söyleyebilirdiniz iyi bilinen yordayıcıdan başka bir şeyin yanıt üzerinde bir etkisi vardır.


Yorum için teşekkürler, ama güven aralığını kontrol etmenin ne anlama geldiğini anlamıyorum?
gül

Ben Frank'e cevap verdiğinden, Ben'e cevap vereceğim ve aklında başka bir şey varsa beni düzeltebilir. Ben tam modeli kullanarak jsut öneriyor. Daha sonra en azından 5 setinden önemli bir değişken bırakmadığınızı biliyorsunuz. Aşırı uydurma problemi tahminlere zarar verebilir, ancak en azından parametreler için güven aralıkları vardır ve tahmin için güven aralıkları alabilirsiniz. Bir kollearlık probleminiz varsa ve parametrelerdeki güven aralıkları parametre değerinin 0 olup olmadığını bildirirse bunun iyi çalışacağını düşünüyorum.
Michael R. Chernick

Modelde hala değişken değişkenler yoksa, tahmin iyi olmayabilir ve verilen verilere dayanarak tahmin doğruluğunun değerlendirilmesi yanlış olabilir. Model yanlış tanımından endişe edin ve kalıntıları her zaman kontrol edin. Frank Harrell bu sitenin aktif bir üyesidir. Umarım bu soru dikkatini çeker ve doğrudan ondan haber alabiliriz.
Michael R. Chernick

Her zaman önemli değişkenleri kaçırıyor olabilirsiniz ve asla gerçekten bilemezsiniz ... Güven aralıklarına bakmayı önerdim çünkü bir değişkenin p<0.05ya da çok fazla bilgi kaybediyor. Bir senaryo, tüm parametrelerinizin yaklaşık olarak aynı tahmini etki büyüklüğüne sahip olması olabilir, ancak belirsizlikleri değişir, böylece bazıları önemlidir ve diğerleri değildir. Kesinlikle yok "değişkenler C, D ve E olmayan değişkenler A ve B önemlidir" diye bu durumda sonuçlandırmak istiyoruz. CI'ler size bu bilgileri verecektir.
Ben Bolker

Veri setimde yeterli gözlem ve en önemli bağımsız değişkenin bulunmaması nedeniyle yaptığım tartışmalardan şu sonuca varmalıyım: 1-Anlamlı değişkenler t-testini geçen değişken değildir. Önemli olan, t-testini geçen ve güven aralığı 0'ı içermez. 2-Kalan normallik kontrol edilmelidir. 3-Korelasyon matrisi kontrol edilmelidir.
gül

2

Genel sorunun cevabı, ana faktörlerin (1) ortak değişkenlerin (2) tahminlerin ve artıkların varyansı olduğu birçok faktöre bağlı olmasıdır. Küçük bir örnekle, 0'dan farkı tespit etmek için çok fazla gücünüz yoktur. Bu yüzden regresyon parametrelerinin tahmini varyansına bakarım. Regresyon deneyimimden 5 değişkenli 21 gözlem değişkenleri ekarte etmek için yeterli veri değildir. Bu yüzden değişkenleri dışarı atmak ya da önemli görünenlerle çok fazla aşık olmak için o kadar hızlı olmazdım. En iyi cevap, çok daha fazla veri elde edene kadar beklemektir. Bazen bunu söylemek kolay ama yapmak zor. Hangi değişkenlerin seçildiğini görmek için adım adım regresyon, ileri ve geri regresyona bakardım. Değişkenler yüksek derecede ilişkiliyse, bu çok farklı değişken kümelerinin seçildiğini gösterebilir. Değişken seçimin verilerdeki değişikliklere duyarlılığı konusunda ortaya çıkacak şekilde model seçim prosedürünü önyükleyin. Değişkenler için korelasyon matrisini hesaplamalısınız. Belki Frank Harrell bu konuya girer. Değişken seçimi konusunda gerçek bir uzmandır. En azından benimle sadece bu 21 veri noktasına dayanan bir son model seçmemeniz gerektiğini kabul edeceğini düşünüyorum.


Öneriniz için teşekkürler. Korelasyon matrisimi ekledim. Sizce bu korelasyon matrisi ile regresyon yapmak mantıklı mı? Sadece daha fazla veri toplayamayacağımı ve ayrıca modellemek veya tahmin etmek istemediğimi vurgulayın. Sadece bağımsız değişkenler ile bağımlı değişken arasında olası bir ilişki bulmak istiyorum.
gül

Korelasyon matrisi, size eşbiçimlilik hakkında fikir vermek için var. Tahminler muhtemelen büyük bir varyansa sahip olacaktır ve bu nedenle istatistiksel önem odaklanmamalıdır. Ypu, eşdoğrusallık için regresyon teşhisine bakabilir. Bu yardımcı olabilir. Ancak uyumun nasıl değiştiğini ve hangi değişken kombinasyonlarının iyi işlediğini ve kötü iş yaptığını görmek için çeşitli alt küme modellerine bakmanızı tavsiye ederim. Ben gerçekten veri önyükleme size öngörücüler seçim kararlılığı hakkında bir şeyler göstereceğini düşünüyorum.
Michael R.Chernick

1
Ancak hiçbir şey veri eksikliğini telafi edemez. Bence sadece diğerlerinin üstünde omuzlar gibi görünen bir veya iki değişken olup olmadığını görmek istiyorsunuz. Ama her şeyi bulabilirsin.
Michael R.Chernick

Ortak değişkenlerle tam olarak ne demek istiyoruz? Diyelim ki bazı tahmin değişkenimiz varx, sonra söyler, x2ayrı bir değişken olarak sayılsın mı? Peki yax3, x4Bu öngörücüler arasında bir korelasyon olduğundan, tahmin edilen katsayıları 1 serbestlik derecesinin "değerinde" düşüktür. Ve diyelim ki, regresyon spline'ları veya diğer yerel regresyonlar: bileşenlerin yapımında sadece bir gözlem alt kümesinin kullanıldığını hesaba katmak zorunda mıyız? Ve yordayıcılara ağırlık uygulamak için bir çekirdek kullanırsak, bu, kullanılan etkili gözlem sayısını etkiler mi?
Afallamış
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.