Çok değişkenli regresyondan önce tek değişkenli regresyonun anlamı nedir?


13

Şu anda küçük bir veri setine sahip olduğumuz ve bir tedavinin sonuç üzerindeki nedensellik etkisi ile ilgilenen bir sorun üzerinde çalışıyorum.

Danışmanım, her bir prediktör üzerinde sonuç olarak yanıt olarak, daha sonra yanıt olarak tedavi atamasıyla tek değişkenli bir regresyon yapmamı söyledi. Yani, bir seferde bir değişkenle regresyona uymam ve sonuçların bir tablosunu yapmam isteniyor. "Bunu neden yapmalıyız?" Diye sordum ve cevap, "muhtemelen bir karıştırıcıyı göstereceği için hangi belirleyicilerin tedavi ataması ve sonucu ile ilişkili olduğuyla ilgileniyoruz" etkisine bir şey oldu. Danışmanım farklı bir alandaki bir bilim adamı değil, eğitimli bir istatistikçi, bu yüzden onlara güvenmeye meyilliyim.

Bu mantıklıdır, ancak tek değişkenli analizin sonucunun nasıl kullanılacağı açık değildir. Model seçim seçimleri yapmak, tahminlerin önemli ölçüde sapmasına ve dar güven aralıklarına yol açmaz mı? Neden kimse bunu yapsın? Kafam karıştı ve danışmanım bu konuyu gündeme getirdiğimde oldukça opak davranıyor. Bu teknikle ilgili kaynakları olan var mı?

(Not: Danışmanım p-değerlerini bir kesim olarak kullanmadığımızı, ancak "her şeyi" değerlendirmek istediğimizi söyledi.)


6
"Tek değişkenli regresyon" ile eğitmeniniz bir dağılım grafiği çizmeyi içeriyorsa , bu gerçekten akıllıca bir tavsiye. Ve umursadığınız hiçbir regresyon çizilmeden yapılmaması gerektiğinden, bazı yararlı bilgiler elde edersiniz. Hepsini bir kerede yapın, eğer mümkünse, bir dağılım grafiği matrisi ile yapın ve onlarla bazı sağlam pürüzsüzlükler gösterin. Değişkenlerinizin doğrusal ilişkiler göstermekten uzaklaşabileceği çeşitli yolları gördüğünüzde avantajlar açık olacaktır.
whuber

1
Yanıt verileri ikiliyse ve logit bağlantısı olan bir glm kullanıyorsak ne olur? Açıklamanız doğrusal bir durum için kesinlikle açıklığa kavuşuyor ve şimdi düşündüğüme göre, dağılım parsellerinin kullanımı doğal olurdu
Marcel

5
Ben bunu sorabilirsiniz endişelendim :-). Aslında, iyi bir pürüzsüz hala büyük bir fikir sağlayabilir. Yanıtın dağıtılmasına yardımcı olur, böylece dağıtımını yapabilirsiniz. İşte böyle bir arsa örneği: stats.stackexchange.com/a/14501/919 . Stats.stackexchange.com/a/138660/919 adresinde başka bir çözüm açıklıyorum .
whuber

3
Çok değişkenli regresyon tekniğinden önceki bu tek değişkenli regresyona Hosmer ve Lemeshow'un "Uygulamalı Lojistik Regresyon" kitabında "amaçlı değişken seçimi" denir
Great38

7
Dikkat - bir değişken, değişken olmayan bir regresyonda hiçbir ilişki göstermeyebilir, ancak çok değişkenli ilişkide önemli olabilir.
Glen_b

Yanıtlar:


3

Analizinizin nedensel bağlamı sorunuzdaki önemli bir niteleyicidir. Öngörmede, Hosmer ve Lemenshow tarafından önerilen "maksatlı seçim yöntemi" ruhuyla birden fazla regresyondan önce tek değişkenli regresyonların çalıştırılmasının bir amacı vardır. Nedensel bir model oluşturduğunuz durumda, çoklu regresyon çalıştırmadan önce tek değişkenli regresyonlar yürütmenin tamamen farklı bir hedefi vardır. İkincisini genişleteyim.

Siz ve eğitmeniniz belirli bir nedensel grafiğe sahip olmalısınız. Nedensel grafiklerin test edilebilir etkileri vardır. Göreviniz sahip olduğunuz veri kümesiyle başlamak ve onu yaratabilecek nedensel modele geri dönmek. Büyük olasılıkla çalıştırmanızı önerdiği tek değişkenli regresyonlar, aklınızdaki nedensel grafiğin etkilerini test etme sürecindeki ilk adımı oluşturur. Verilerinizin, aşağıdaki grafikte gösterilen nedensel model tarafından oluşturulduğuna inandığınızı varsayalım. D'nin E üzerindeki nedensel etkisi ile ilgilendiğinizi varsayalım. Aşağıdaki grafik, aşağıdakiler gibi bir dizi test edilebilir ima göstermektedir:

  • E muhtemelen D'ye bağımlıdır
  • E ve A muhtemelen bağımlı
  • E ve C muhtemelen bağımlı
  • E ve B muhtemelen bağımlı
  • E ve N muhtemelen bağımsızdır

resim açıklamasını buraya girin

Bunun nedensel arama sürecindeki ilk adım olduğunu belirttim çünkü gerçek eğlence, birden fazla regresyon çalıştırmaya, farklı değişkenlerin koşullandırılmasına ve regresyon sonucunun grafiğin imalarıyla tutarlı olup olmadığını test etmeye başladığınızda başlar. Örneğin, yukarıdaki grafik, D'yi koşullandırdığınızda E ve A'nın bağımsız olması gerektiğini gösterir. Diğer bir deyişle, D ve A'da E'ye basar ve A'daki katsayının sıfıra eşit olmadığını görürseniz, E, D'yi koşullandırdıktan sonra A'ya bağlıdır ve bu nedenle nedensel grafiğin yanlış olması gerekir. Hatta nedensel grafiğinizi nasıl değiştireceğinize dair ipuçları bile verecektir, çünkü bu regresyonun sonucu A ve E arasında D ile ayrılmış olmayan bir yol olması gerektiğini gösterir.


1

Cevap vermeyi denemeden önce, bu tür verilerin ve dağılımının onu değerlendirme / gerileme / sınıflandırma şeklinizi etkileyebileceğini belirtmek isterim.

Ayrıca burada danışmanınızın kullanmasını isteyebilecekleri yöntemi aramak isteyebilirsiniz.

Biraz arka plan. Bir model seçim aracı kullanmak bir olasılık olsa da, neden bir öngörücünün kullanıldığını veya dışarıda bırakıldığını söyleyebilmeniz gerekir. Bu araçlar bir kara kutu olabilir. Verilerinizi tam olarak anlamalı ve belirli bir öngörücünün neden seçildiğini belirtebilmelisiniz. (Özellikle, bir tez / yüksek lisans projesi için varsayıyorum.)

Örneğin, evlerin fiyatına ve yaşına bakın. Evlerin fiyatı genellikle yaşla birlikte azalmaktadır. Bu nedenle, verilerinizde yüksek bir fiyata sahip eski bir ev gördüğünüzde kaldırılacak bir aykırı değer gibi görünür, ancak durum böyle değildir.

(NB: Danışmanım p-değerlerini bir kesme olarak DEĞİL kullandığımızı, ancak "her şeyi" göz önünde bulundurmak istediğimizi söyledi.) . Geri çağırma algoritmaları / programları sınırlıdır ve resmin tamamını görüntüleyemez.

Her bir öngörücü / tedavi ödevi üzerinde neden tek değişkenli olabileceğinize ilişkin olarak.

Bu, temel çok değişkenli modele dahil edilecek öngörücülerin seçilmesine yardımcı olabilir. Bu temel modelden, bu öngörücülerin anlamlı olup olmadığını ve kalması gerekip gerekmediğini ya da cimri bir model elde etmek için kaldırılmaları gerekip gerekmediğini görmek isteyeceksiniz.

Veya verileri daha iyi anlamanız sizin için olabilir.


1
Eşim ve ben eski bir ev aldık ama tarihi bir ev satın alamadık, bu yüzden örneğinizin kolay bir karşı örneği var.
Nick Cox

Doğru. Aslında evlerin fiyatı hakkında konuşmak istedim. Evlerin fiyatları genellikle yaşla nasıl azalır. Bu nedenle, yüksek bir fiyata sahip eski bir ev gördüğünüzde, kaldırılacak bir aykırı görünecektir. Ben o noktayı düzenleyeceğim. Teşekkür.
Apocryphon

0

Bence amiriniz sizden değişkenlerden herhangi birinin verilerdeki varyansın önemli bir kısmını açıklayıp açıklayamayacağını belirlemek amacıyla verilerin ilk analizini yapmanızı istiyor.

Değişkenlerden herhangi birinin değişkenliğin bir kısmını açıklayıp açıklayamayacağına karar verdikten sonra, birlikte nasıl çalıştıklarını, eğer lineer olup olmadıklarını veya birbirleri arasında korelasyon olup olmadığını değerlendirebileceksiniz. İlk değerlendirmeyi zorlaştırabilir, çünkü her bir değişkeni inşa ederek diğerlerinin etkisini kaldırmış olursunuz. Değişkenlerden herhangi birinin varyasyonlardan herhangi birini açıklayıp açıklayamayacağını değerlendirmek daha zor olabilir.


0

Bu, verileri anlamak için bir yaklaşım olabilir, ancak deneyim, tüm öngörücüleri ve her bir öngörücüyü birer birer kullandığınızda tahminlerin değişeceğini gösterir. Bu sadece verilerin öngörülebilirliğini anladığımız ve gelecekteki adımlar için ne yapılması gerektiğini anladığımız bir şey.
Tüm değişkenlerde p-değerinin bazı değişkenlerin anlamlı olmadığını, ancak bu anlamlı olmayan değişkenlerle yeterli olduğunu söylediklerinde birçok kez gördüm. Bunun nedeni karışık etki: amirinizin yanlış olması değil, verileri anlamak için bunu yapmak zorundayız.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.