Örneğin haftanın günlerine dayalı regresyon


11

Doğru yönde ilerlemek için biraz yardıma ihtiyacım var. Herhangi bir istatistik okuduğumdan beri uzun zaman oldu ve jargon değişmiş gibi görünüyor.

Şunun gibi araba ile ilgili verilerim olduğunu düşünün:

  • A şehrinden B şehrine yolculuk süresi
  • A kasabasından B kasabasına uzaklık
  • Motor boyutu
  • Sürücü ayakkabısı boyutu
  • Otomobil markası ve modeli
  • Haftanın günü

Yolculuk süresini tahmin etmek istiyorum.

Zaman ve mesafe arasında güçlü bir korelasyon olduğunu ve muhtemelen motor boyutuyla (ve ayakkabı boyutuyla hiçbiri) daha zayıf bir korelasyon olduğunu hayal ediyorum. Muhtemelen çoklu regresyon analizi / ANOVA kullanılacak bir araçtır. Ama sadece Pazar = 1, Pazartesi = 2 vb. Kodlaması çok yanlış geldiğinden haftanın gününü nasıl eklerim?

Örneğin, Excel'in regresyon aracını kullandıktan sonra sonuçları nasıl yorumlayabilirim? Muhtemelen R 1'e yakınsa bu iyidir (birçok veri öğesi varsa, küçük gibi görünebilir, ancak yine de önemli olabilir). Ancak bazı kaynaklar SD gibi görünen r-kare anlamına gelir, bu nedenle sıfıra yakın bir değer iyidir. Ayrıca t Stat, P-değeri, F ve Önem F'yi de gösterir. Herkes iyi bir referans kaynağı önerebilir mi?


2
Kayıt için, bu sorular (regresyon çıktısını yorumlamakla ilgili) burada başka bir iş parçacığında sorulmuştur , ancak soru o kadar kötü formüle edilmiştir ki, herhangi bir iyi cevap almamıştır. Bu, temel ancak eksiksiz, açık ve iyi açıklanmış "kanonik" bir cevabı hak eden temel bir sorudur.
whuber

Yanıtlar:


26

İhtiyacınız olan şey, regresyon metodolojisinin sağlam bir incelemesidir. Bununla birlikte, bu sorular, temel istatistiklere iyi bir genel bakışın muhtemelen size fayda sağlayacağı kadar temeldir (yanlış şekilde almayın). Howell, yoğun matematik gerektirmeden geniş bir kavramsal temel sağlayan çok popüler bir ders kitabı yazdı . Okumak için zaman ayırmaya değer olabilir. Bu materyalin tamamını kaplamak mümkün değil. Ancak, bazı sorularınız için sizi kullanmaya başlayabilirim.

İlk olarak, haftanın günleri bir kodlama şeması ile dahil edilir. En popüler 'referans kategorisi' kodlamasıdır (tipik olarak sahte kodlama olarak adlandırılır). Verilerinizin bir matriste temsil edildiğini düşünelim, vakalarınız satırlar halinde ve değişkenleriniz sütunlar halinde. Bu şemada, 7 kategorik değişkeniniz varsa (örneğin, haftanın günleri için) 6 yeni sütun eklersiniz. Bir gün referans kategorisi, genellikle varsayılan olarak düşünülen bir gün seçersiniz. Genellikle bu teori, bağlam veya araştırma sorusu ile bildirilir. Haftanın günleri için hangisinin en iyi olacağı hakkında hiçbir fikrim yok, ama aynı zamanda çok da önemli değil, sadece eski olanı seçebilirsin. Referans kategorisine sahip olduğunuzda, diğerlerini yeni 6 değişkeninize atayabilirsiniz, daha sonra bu değişkenin her durum için elde edilip edilmediğini belirtirsiniz. Örneğin, Pazar'ı referans kategorisi olarak seçtiğinizi varsayalım, yeni sütunlarınız / değişkenleriniz Pazartesi-Cumartesi olacaktır. Pazartesi günü yapılan her gözlem birPazartesi sütununda 1 vebaşkabiryerde 0 . Aynı şey Salı günleri vb. Gözlemlerde de olur. Hiçbir durumun2 veya daha fazla sütunda 1 elde edemeyeceğinive Pazar günü (referans kategorisi) yapılan gözlemlerintüm yeni değişkenlerinizde 0 değeri olacağınıunutmayın. Başka birçok kodlama şeması vardır ve bağlantı bunları tanıtmak için iyi bir iş çıkarır. Yeni 6 değişkenin tümü düştüğünde, 6 modelin de dahil olduğu tam modele kıyasla iç içe modeli test ederek haftanın gününün önemli olup olmadığını test edebilirsiniz. Eğer gerektiği Notdeğilbunlar bağımsız değildir ve içsel çoklu karşılaştırma sorunları var gibi standart çıkışı ile bildirilen testler kullanırlar. 1010

Excel'in istatistikleri nasıl yaptığına baktığımdan beri uzun zaman oldu ve bunu çok net hatırlamıyorum, bu yüzden başka biri size daha fazla yardımcı olabilir. Bu sayfada, Excel'deki regresyon özellikleri hakkında bazı bilgiler var gibi görünüyor. Size regresyon çıktısında bildirilen istatistikler hakkında biraz daha bilgi verebilirim:

  • r1
  • rrrrr
  • rr×r10r1R21rR2) çoklu regresyonda oldukça önyargılıdır. Yani, modelinize ne kadar yordayıcı eklerseniz, ilişki olsun veya olmasın, bu istatistikler o kadar yüksek olur. Bu yüzden onları yorumlama konusunda dikkatli olmalısınız.
  • tF
  • p
  • tFpF1F
  • FF

Vurgulanması gereken son bir nokta, bu sürecin bağlamından ayrılamayacağıdır. Verileri analiz etmek için iyi bir iş yapmak için, arka plan bilginizi ve araştırma sorunuzu aklınızda bulundurmalısınız. Referans kategorisinin seçimi ile ilgili olarak yukarıda bahsetmiştim. Örneğin, ayakkabı boyutunun alakalı olmaması gerektiğini unutmayın, ancak Çakmaktaşlar için muhtemelen! Sadece bu gerçeği eklemek istiyorum, çünkü çoğu zaman unutulmuş görünüyor.


5
(+1) Excel aslında çoklu regresyon yapabilir ve standart özet tablo üretebilen bir komuta sahiptir. Tarihsel eğilimi hesaplama değerlerine (çok) özensiz olma eğilimi göz önüne alındığında, yetenek Samuel Johnson'un köpeği gibi görülmelidir : "... bir köpeğin arka ayakları üzerinde yürüyor. İyi yapılmadı; hiç yapılmadı. "
whuber

3

"Öğretme" regresyonu gerektiren birçok soru ile sonlanırsınız. Diyelim ki daha yüksek R ^ 2 daha iyi ama uyarılar var. Değişkenleri ekledikçe R ^ 2 her zaman artar, böylece yapay olarak şişirebilirsiniz. Anlamlılık testlerine, kalan teşhislere vb. Bakın. Haftanın günü ile ilgili olarak Pazartesi = 1, Salı = 2 vb. İstediğiniz mevsimsel gösterge değişkenleridir: Pazartesi ise 0/1, Salı ise 0/1 vb.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.