Normal dağılmış DV için yönlü bağımsız değişkenler ile ilişki testi?


10

Normal olarak dağıtılmış bir bağımlı değişkenin, yönlü dağıtılmış bir değişkenle ilişkili olup olmadığına dair bir hipotez testi var mı ?

Örneğin, günün saati açıklayıcı değişkendir (vb alakasız haftanın günü, yılın ayının gibi şeyler varsayarak) -yani nasıl 11:00 22 saattir gerçeği hesaba olduğu önde 1 am arasında ve ayrıca 2 saat arkasında bağlantının bir test 1 am? Günün sürekli zamanının bağımlı değişkeni açıklayıp açıklamayacağını test edebilir miyim?

Bu test ayrık yönlü ( modüler ?) Açıklayıcı değişkenler için de geçerli mi? Yoksa ayrı bir test mi gerekiyor? Örneğin, bağımlı değişkenin yılın ayına göre açıklanıp açıklanmadığı nasıl test edilir (yılın gün ve mevsimi ile belirli yıl veya on yılın önemsiz olduğu varsayılarak). Yılın ayını tedavi etmek, sıralamayı kategorik olarak yok sayar. Ancak yılın ayını standart bir sıra değişkeni olarak ele almak (Ocak = 1 ... Aralık = 12 diyelim) Ocak ayının Kasım ayından iki ay sonra geldiğini göz ardı eder.


1
Cevap bir kitabı doldurabilir (ve orada birkaç tane vardır). Sorunuzu daha belirgin hale getirmek, yanıtları sizin için önemli olan şeylere odaklamanıza yardımcı olabilir.
whuber

@whuber Um ... aman tanrım ... nasıl daraltılacağına yardım edebilir misin? DV için bir dağıtım belirtme? Regresyondan ziyade tek bir testle mi sınırlanıyor? Biraz gerginim ve nereden başlayacağımı bilmiyorum ...
Alexis

@whuber Soruyu biraz daraltmaya çalıştım ve daha kullanışlı hale getirmek için herhangi bir işaretçi için minnettar olurum (gerçekten sadece modüler öngörücüler hakkında düşünmek için bir başlangıç ​​yeri istiyorum). Bu şimdi iyi bir formdaysa, DV'de dağıtımdan bağımsız olan böyle bir testle ilgili benzer bir soru izleyeceğim.
Alexis

@whuber ayrık modüler IV'ün bir regresyon bağlamında mullinglenmesi: seviye 2 tanımlayıcı olarak ayrık modüler IV ile iki seviyeli karışık bir model olacak ve her seviye-2 ünitesi, sayı sisteminde önceki ve sonraki değer doğru yolda mı?
Alexis

Yanıtlar:


9

Genel olarak, daha geniş ve farklı bir soru sorarak bilimsel ve istatistiksel olarak başlamanın daha verimli olduğunu düşünüyorum, bu da bir yanıtın dairesel bir yordayıcıdan ne kadar tahmin edilebileceğidir. Demek dairesel burada yerine yönlü ikinci tek bir yanıt örtülemez çok daha güzel alanlarda, küresel içerir ve bunun nedeni, kısmen; ve kısmen çünkü örnekler, günün saati ve yılın zamanına , hem dairesel bulunmaktadır. Diğer bir önemli örnek, birçok dairesel problemi olan pusula yönüdür (rüzgarlar, hayvan veya insan hareketleri, hizalamalar vb. İle ilgilidir): gerçekten de bazı bilim adamları için daha açık bir başlangıç ​​noktasıdır.

Ne zaman kurtulursanız, sinüs ve kosinüs fonksiyonlarını bir çeşit regresyon modelinde kullanmak basit ve uygulanması kolay bir modelleme yöntemidir. Birçok biyolojik ve / veya çevresel örnek için ilk çağrı noktasıdır. (İki tür genellikle birlikte mantarlanır, çünkü mevsimsellik gösteren biyotik fenomenler genellikle iklime veya hava koşullarına doğrudan veya dolaylı olarak yanıt verir.)

Somutluk için, 24 saat veya 12 ay boyunca zaman ölçümlerini hayal edin, böylece

günah[2π(saat/24)],  marul[2π(saat/24)]

günah[2π(ay/12)],  marul[2π(ay/12)]

her biri tüm gün veya yıl boyunca bir döngüyü tanımlar. Ölçülen veya sayılan bir yanıt ile bazı dairesel zaman arasında hiçbir ilişkinin bulunmadığı resmi bir test, sinüs ve kosinüs katsayılarının sinüs ve kosinüs ile prediktörler, uygun bir bağlantı ve aile arasında genelleştirilmiş doğrusal bir modelde ortak olarak sıfır olup olmadığının standart bir testi olacaktır. yanıtın niteliğine göre seçiliyor.

Yanıtın marjinal dağılımı (normal veya diğer) bu yaklaşımda ikincil ve / veya aile seçimi ile ele alınacaktır.

Sinüslerin ve kosinüslerin değeri doğal olarak periyodik olmaları ve otomatik olarak sarılmalarıdır, bu nedenle her günün veya yılın başlangıcındaki ve sonundaki değerler mutlaka bir ve aynıdır. Sınır koşullarında sorun yoktur, çünkü sınır yoktur.

Bu yaklaşıma dairesel, periyodik, trigonometrik ve Fourier regresyonu denir. Bir giriş öğretici incelemesi için buraya bakın

Uygulamada,

  1. Bu tür testler, mevsimsellik beklediğimizde genellikle geleneksel seviyelerde ezici derecede önemli sonuçlar göstermektedir. Daha ilginç soru, o zaman tahmin edilen kesin mevsimsel eğri ve diğer sinüzoidal terimlerle daha karmaşık bir modele ihtiyacımız olup olmadığıdır.

  2. Hiçbir şey diğer öngörücüleri de dışlamaz, bu durumda mevsimsellik için sinüsler ve kosinüsler ve diğer her şey için diğer öngörücüler gibi diğer öngörücülerle daha kapsamlı modellere ihtiyacımız var.

  3. Bir noktada, araştırmacının verilere, soruna ve zevklerine ve deneyimlerine bağlı olarak, sorunun zaman serisi yönünü vurgulamak ve açık zaman bağımlılığına sahip bir model oluşturmak daha doğal hale gelebilir. Gerçekten de, istatistiksel olarak düşünen bazı insanlar ona yaklaşmanın başka bir yolu olduğunu inkar edebilirler.

Kolayca trend olarak adlandırılan (ancak her zaman bu kadar kolay tanımlanamayan), # 2 veya # 3'ün altında veya hatta her ikisinde de bulunur.

Piyasalarda, ulusal ve uluslararası ekonomilerde veya diğer insan fenomenlerinde mevsimsellikten endişe duyan birçok ekonomist ve diğer sosyal bilimciler genellikle her gün veya (daha yaygın) yıl içinde daha karmaşık değişkenlik olasılıklarından daha fazla etkilenirler. Çoğu zaman, her zaman olmasa da, mevsimsellik, bir projenin ana odağı olsa bile, mevsimsellikleri sıklıkla ilginç ve önemli olarak gören biyolojik ve çevresel bilim adamlarının aksine, kaldırılması veya ayarlanması gereken bir sıkıntıdır. Bununla birlikte, ekonomistler ve diğerleri de genellikle regresyon tipi bir yaklaşımı benimser, ancak mühimmat ile bir gösterge (kukla) değişkenler demeti, en basit olarak her ay veya yılın her çeyreği için değişken0,1. Bu, adlandırılan tatillerin, tatil dönemlerinin, okul yıllarının yan etkilerinin vb. Yanı sıra iklim veya hava kaynaklı etkilerin veya şokların yakalanmasına çalışmanın pratik bir yolu olabilir. Bu farklılıklar göz önüne alındığında, yukarıdaki yorumların çoğu ekonomi ve sosyal bilimler için de geçerlidir.

Morbidite, mortalite, hastane yatışları, klinik ziyaretleri ve benzerleri ile ilgili epidemiyologların ve tıbbi istatistikçilerin tutumları ve yaklaşımları, bu iki uç arasında düşme eğilimindedir.

Bana göre günleri veya yılları karşılaştırmak için yarıya bölmek genellikle keyfi, yapay ve en iyi ihtimalle gariptir. Ayrıca, verilerde tipik olarak bulunan düz yapı türünü de göz ardı etmektedir.

DÜZENLEME Şu ana kadar hesap, kesikli ve sürekli zaman arasındaki farkı ele almıyor, ancak deneyimlerimden bunu pratikte büyük bir şey olarak görmüyorum.

Ancak kesin seçimler verinin nasıl ulaştığına ve değişiklik modeline bağlıdır.

Veriler üç ayda bir ve insan olsaydı, gösterge değişkenleri kullanma eğilimindeydim (örneğin 3. ve 4. çeyrekler genellikle farklı). Aylık ve insan ise, seçim net değildir, ancak çoğu ekonomiste sinüs ve kosinüs satmak için çok çalışmanız gerekir. Aylık veya daha ince ve biyolojik veya çevresel ise, kesinlikle sinüsler ve kosinüsler.

EDIT 2 Trigonometrik regresyon hakkında daha fazla bilgi

Trigonometrik regresyonun ayırt edici bir detayı (isterseniz başka bir şekilde adlandırılır), neredeyse her zaman sinüs ve kosinüs terimlerinin bir modele en iyi çiftler halinde sunulmasıdır. İlk önce günün zamanını, yılın zamanını veya pusula yönünü, radyan cinsinden dairede angle , dolayısıyla [ 0 , 2 π ] aralığında bir açı olarak gösterilecek şekilde ölçeklendiririz . Sonra sin k θ , cos k θ , k = 1 , 2 , 3 , θ[0,2π]günahkθ,marulkθ,k=1,2,3,...bir modelde gerektiği gibi. (Dairesel istatistiklerde, trigonometrik kurallar istatistiksel kuralları gölgede bırakma eğilimindedir, bu nedenle değişkenler ve parametreler için gibi Yunan sembolleri kullanılır.)θ,φ,ψ

Regresyon benzeri bir modele gibi bir çift öngörücü sunarsak , modeldeki terimler için b 1 sin θ , b 2 cos θ gibi katsayı tahminlerimiz vardır, örneğin b 1 , b 2. . Bu, fazın yanı sıra periyodik bir sinyalin genliği için bir yoldur. Aksi taktirde, günah ( θ + ϕ ) gibi bir fonksiyon şöyle yazılabilirgünahθ,marulθb1,b2b1günahθ,b2marulθgünah(θ+φ)

günahθmarulφ+marulθgünahφ,

ancak model uyumunda ve sin phase temsil eden faz tahmin edilmektedir. Bu şekilde doğrusal olmayan bir tahmin probleminden kaçınırız.marulφgünahφ

Dairesel varyasyonu modellemek için kullanırsak, bu eğrinin maksimum ve minimum değerleri otomatik olarak yarım daire şeklindedir. Bu, biyolojik veya çevresel varyasyonlar için genellikle çok iyi bir yaklaşımdır, ancak tersine, özellikle ekonomik mevsimselliği yakalamak için birkaç terime daha ihtiyacımız olabilir. Bunun yerine gösterge değişkenlerini kullanmak için çok iyi bir neden olabilir ve bu da hemen katsayıların basit yorumlanmasına yol açar.b1günahθ+b2marulθ


@Kelvin'in cevabı ile bazı şaşırtıcı çakışmalara dikkat çekiyorum.
Nick Cox

+1 (Yaptığınız gibi "muhteşem" kullandığınız için!) Nick Cox, soruma göre ayrık dairesel değişkenler için de durumu açıkça ortaya koyacak kadar nazik misiniz ? Bu, ayrık bir zaman ölçüsü kullanarak tanımladığınız "trigonometrik modelleme" yaklaşımı kadar basit midir? Yoksa bir çeşit "süreklilik düzeltmesi" olması gerekir mi?
Alexis

Bildiğim kadarıyla, ayrık ve sürekli dairesel değişkenler arasındaki tek fark, değerlerin ayrık noktalara yuvarlanmasıdır (örn., 14:00 - 14.12345 saat), dairesel olmayan değişkenlerde olduğu gibi, çok fazla fark olmayacaktır. toplam döneme göre küçük adımlarla daha az yuvarlama uyguladığınız sürece. Temel olarak, bu sadece bir yuvarlama hatası olması veya olmaması meselesidir. En iyisi, eğer önleyebilirsiniz.
Kelvin

Kesikli ve sürekliliğin çok farklı olmadığını kabul ediyorum. Uygulamada, birçok ölçüm, yalnızca çeyrek, yarım yıl, ay, gün vb. Olarak veya (N.S) ila (N, E, S, W) arasında daha ince çözünürlüğe kadar değişen bir rapor halinde az çok kabalaşır. pusula yönleri için. Ayrıntılı olarak, nokta ölçümleri (belirli bir zamanda sıcaklık) ve aralık ölçümleri (örneğin toplam aylık satışlar) arasında fark vardır. Yuvarlama hatası gibi tüm detayları bir araya getirmem, çünkü bazen toplama veya ortalama alma kadar hata yoktur.
Nick Cox

4

İşte dağıtımsız bir seçenek, çünkü zaten aradığınız şey bu gibi görünüyor. Oldukça cahil olduğum dairesel istatistikler alanına özgü değil, ancak burada ve diğer birçok ortamda uygulanabilir.

X

YR,dd1

Z: =(X,Y)mzben=(xben,yben)

Şimdi, Hilbert Schmidt Bağımsızlık Ölçütünü (HSIC) kullanarak, aşağıdaki makalede olduğu gibi bir test yapın:

Gretton, Fukumizu, Teo, Song, Schölkopf ve Smola. Çekirdek İstatistiksel Bağımsızlık Testi. NIPS 2008. ( pdf )

Yani:

  • kX

    • XR,2k(x,x')=tecrübe(-12σ2x-x'2)σX
    • X[-π,π]k(x,x')=tecrübe(κmarul(x-x'))κ
  • lYYR,n

  • 'HKLmxmKbenj=k(xben,xj)Lbenj=l(yben,yj)'H 'H=ben-1m11T1m2tr(K'HL'H)

Bunu RBF çekirdekleri ile gerçekleştirmek için kullanılan matlab kodu burada ilk yazardan edinilebilir .


Bu yaklaşım iyidir, çünkü geneldir ve iyi performans gösterir. Ana dezavantajları:

  • m2
  • mm
  • kl


k(x-x')[-π,π]


3

Örneğin, 12:00 ila 12:00 arasındaki ortalama değeri 12:00 ila 12:00 arasındaki ortalama değerle karşılaştırarak, dönemin karşıt "yarılarından" ortalama arasında bir t testi gerçekleştirebilirsiniz. Ve sonra 6 ile 6 arasında ortalama değeri 6 ile 6 arasında ortalama ile karşılaştırın.

Veya yeterli veriye sahipseniz, periyodu daha küçük (ör. Saatlik) segmentlere bölebilir ve birden çok karşılaştırma için düzeltme yaparken her segment çifti arasında bir t testi yapabilirsiniz.

Alternatif olarak, daha "sürekli" bir analiz için (yani, rastgele segmentasyon olmadan), yön değişkeninizin sinüs ve kosinüs fonksiyonlarına karşı (doğru dönem ile) lineer regresyonlar çalıştırabilirsiniz, bu da verilerinizi otomatik olarak "daireselleştirecektir":

x'=sbenn(x*2π/perbenÖd)
x"=cÖs(x*2π/perbenÖd)

bir

x=sbenn((x+bir)*2π/perbenÖd)

bir

yx'x"

Her halükarda, dönemle ilgili bazı varsayımlar yapmanız ve ardından buna göre test etmeniz gerektiğini düşünüyorum.


Kelvin, tanımladığınız gibi dairesel verileri "kırmak" modüler sıralama ile ilgili ortaya koyduğum konuyu tam olarak görmezden geliyor gibi görünüyor .
Alexis

Cevabımın çoklu regresyon ile sürekli analizi tanımlayan ikinci yarısını okudunuz mu?
Kelvin

Sinüs ve kosinüs konusunda birlikte haklısın. Bu, cevabımda daha ayrıntılı olarak açıklanıyor ve 2006 makalesinde atıfta bulunan ve atıfta bulunan diğer referanslarda.
Nick Cox

@Nick - Son düzenlememden sonra yayınladığınız gibi cevabınızı görmemiştim, ama sadece yaratıcı olduğumla (neredeyse yüksek sesle düşünerek) aynı yanıta bağımsız olarak geldiğimiz ve bunu daha önce hiç görmediğimiz iyi oldu.
Kelvin
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.