Bağımsız değişken = Rasgele değişken?


25

Biraz karıştı ise bağımsız değişken bir istatistik modelinden (ayrıca bir belirleyici veya özellik olarak da adlandırılır), örneğin, lineer regresyon , bir rastgele değişken?XY=β0+β1X


12
Doğrusal model , bu nedenle rastgele olup olmaması önemli olmamalıdır. X
Xi'an

4
Şunu kontrol et . Güzel soru, BTW.
Antoni Parellada

@ Xi'an, sabit tasarımda doğrusal model varsayımları şartlandırılmamıştır, cevabımı görün. Yani, çok önemli. Deneylerin gözlemsel çalışma sonuçlarından çok daha kolay yorumlanmasının nedeni budurX
Aksakal

Yanıtlar:


19

İki genel doğrusal regresyon formülasyonu vardır. Kavramlara odaklanmak için onları biraz soyutlayacağım. Matematiksel açıklama ingilizce açıklamasından biraz daha fazladır, bu nedenle ikincisi ile başlayalım:

Doğrusal regresyon , tepkisinin , regresörleri tarafından lineer bir harita ve muhtemelen başka parametreler tarafından belirlenen bir dağılımla rastgele olduğu varsayıldığı bir modeldir .YXβ(X)θ

Çoğu durumda olası dağılımlarının kümesi parametrelerle bir konum ailedir ve ve parametre verir . Arketipik örnek, dağılım kümesinin Normal ailesinin ve regresörlerin doğrusal bir işlevi olduğu sıradan regresyondur .αθβ(X)αN(μ,σ)μ=β(X)

Bunu henüz matematiksel olarak açıklamadığım için, , , ve matematiksel nesnelerin hangi türden bahsettiği açık bir sorudur - ve bu konudaki ana konunun bu olduğuna inanıyorum. Biri çeşitli (eşdeğer) seçimler yapabilmesine rağmen, çoğu aşağıdaki açıklamaya eşdeğer veya özel durumlar ile eşdeğer olacaktır.XYβθ


  1. Sabit regresörler. Önsavının gerçek vektörleri olarak temsil edilir . Yanıtı rasgele bir değişkendir (burada sigma alan ve olasılık ile donatılmıştır). Model bir fonksiyonudur (ya da, sen fonksiyonları bir dizi gibi, eğer parametreliXRpY:ΩRΩf:R×ΘMdRMdΘ ). Md boyutu bir sonlu boyutlu topolojik (genellikle ikinci türevlenebilir) alt manifoldu (veya bir alt manifoldu-ile-sınır) olan d olasılık dağılımlarının alanı. fgenellikle sürekli (veya yeterince farklılaştırılabilir) olarak alınır. ΘRd1 "sıkıntı parametreler" dir. Bu dağılımı düşünülmektedir Y olan f(β(X),θ) bilinmeyen bir çift vektör için βRp "regresyon katsayısı") ve bilinmeyen θΘ . Bunu Y f ( β ( X ) , θ ) yazabiliriz .

    Yf(β(X),θ).

  2. Rasgele regresörler. Önsavının ve tepkisi olan p+1 boyutlu vektör değerli rastgele değişken Z=(X,Y):ΩRp×R . f modeli öncekiyle aynı türde bir nesnedir, ancak şimdi koşullu

    Y|Xf(β(X),θ).

Matematiksel açıklama, verilere nasıl uygulanacağını söyleyen bazı reçeteler olmadan işe yaramaz. Sabit regresör durumunda, X deneyci tarafından belirlendiği şekilde düşünürüz. Bu nedenle, görüntülemek için yardımcı olabilir Ω bir ürün olarak Rp×Ω bir ürün sigma cebri ile donatılmış. Deneyi belirleyen X ve (bazıları bilinmeyen, özet) belirler ωΩ . Rastgele geri çekici durumda, doğal belirler ωΩ , X rastgele değişkenin bir-bileşenli bir πX(Z(ω))X belirler("gözlemlenir") ve şimdisabit regresör durumunda olduğu gibişimdi sıralı bir çiftimiz(X(ω),ω))Ω .


Çoklu doğrusal regresyonun arketipsel örneği (bu daha genel olandan ziyade nesneler için standart gösterimi kullanarak ifade edeceğim ) , bazı sabit σ için

f(β(X),σ)=N(β(x),σ)
. Θ = R + . Olarak X boyunca değişir R p , bir -, kendi görüntü differentiably tek boyutlu bir alt kümesini dışarı izleri eğrisi normal dağılımların iki boyutlu manifold --Audio.σΘ=R+xRp

Zaman - lafı hiç bir şekilde β olduğu tahmin edilmektedir p ve σ olarak σ , değeri β ( x ) olduğu tahmin edilen değer ve Y ile bağlantılı x --whether x deneyi ile kontrol edilir (bu durumda 1 ) veya sadece gözlenir (durum 2). Biz ya da bir değer (durum 1) veya bunu gerçekleştirme (Durum 2) gözlemlemek x arasında X , o zaman tepki Y'nin bu ilişkili X , dağıtım olan rasgele bir değişkendir , N (β^σσ^β^(x)YxxxX YXN(β(x),σ) bilinmemektedir ancaktahminolduğuN(β^(x),σ^) .


Şunu söylememe izin verin, bu fantastik bir cevap (ama herkes için değil)
l7ll7

2
PS Bu temel sorunun burada yaptığınız gibi tam olarak açıklandığı herhangi bir kitap biliyor musunuz? Bir matematikçi olarak, bulduğum tüm kitaplar, buradaki diğer cevapları yansıtıyordu, bu matematiksel açıdan çok daha az kesinti. (Bu onları kötü yapmaz, tabii ki, sadece bu kitaplar benim için değil - Bu cevap gibi daha kesin bir kitabı çok isterdim.)
l7ll7

Son paragraf, ilk cümlede değil, β ( x ) için tahmin edilen değer y (rastgele değişkenin bir gerçekleşme Y'nin değil için tahmin edilen değer) x ? Veya dilinizi yanlış mı anladım ve " x için öngörülen değer ", " x , X'in ayarlanmış (gözlenen) değeri olduğunda öngörülen değer" anlamına gelir. " β^(x)yYxxxX
Çad

1
@Chad Belirsiz dili işaret ettiğiniz için teşekkür ederiz. Bu cümleyi, anlayışınıza uygun olan anlamı açıklığa kavuşturmak için düzenlemiştim.
whuber

7

Her şeyden önce, @whuber mükemmel bir cevap verdi. Bir metne atıfta bulunarak, bir anlamda daha basit, belki de daha basit, farklı bir çekim vereceğim.

MOTİVASYON

, regresyon formülasyonunda rastgele veya sabit olabilir. Bu senin problemine bağlı. Sözel gözlem çalışmaları için rastgele olmak zorundadır ve deneyler için genellikle sabittir.X

Örnek bir Elektron radyasyonuna maruz kalmanın metal parçanın sertliği üzerindeki etkisini inceliyorum. Böylece, metal parçadan birkaç örnek alıyorum ve çeşitli radyasyon seviyelerine maruz bırakıyorum. Maruz kalma seviyem X, sabittir , çünkü seçtiğim seviyelere ayarlıyorum. Deneyin koşullarını tamamen kontrol ediyorum ya da en azından denemeliyim. Aynısını sıcaklık ve nem gibi diğer parametrelerle de yapabilirim.

Örnek iki Ekonominin kredi kartı başvurularında dolandırıcılık oluşum sıklığı üzerindeki etkisini inceliyorsunuz. Demek ki GSYİH'ya yapılan sahtekarlık olayının gerilemesiyle uğraşıyorsunuz. GSYİH'yi kontrol etmiyorsunuz, istediğiniz seviyeye ayarlayamıyorsunuz. Dahası, muhtemelen çok değişkenli regresyonlara bakmak istersiniz, bu nedenle işsizlik gibi başka değişkenlere de sahipsiniz ve şimdi X'te gözlemlediğiniz ama kontrol etmeyen bir değerlerin bir kombinasyonuna sahipsiniz . Bu durumda X rastgeledir .

Örnek üç. Yeni pestisitin tarladaki etkinliğini, laboratuar koşullarında değil, gerçek deneysel çiftlikte çalışıyorsunuz. Bu durumda bir şeyi kontrol edebilirsiniz, örneğin koymak için pestisit miktarını kontrol edebilirsiniz. Ancak, her şeyi kontrol edemezsiniz, örneğin hava durumu veya toprak koşulları. Tamam, toprağı bir dereceye kadar kontrol edebilirsiniz, ama tamamen değil. Bu, bazı koşulların gözlendiği ve bazı koşulların kontrol edildiği bir arada bir durumdur . Tarımsal araştırmaların en büyük uygulamalarından biri olduğu, bu üçüncü duruma odaklanan ve deneysel tasarım denilen bütün bu çalışma alanı var.

MATEMATİK

İşte cevabın matematiksel kısmı. Gauss-Markov koşulları olarak adlandırılan doğrusal regresyon çalışırken genellikle sunulan bir dizi varsayım vardır. Çok teorikler ve kimse pratik bir düzenlemede bulunduklarını ispatlamaktan rahatsız değil. Ancak, sıradan en küçük kareler (OLS) yönteminin sınırlarını anlamada çok faydalıdırlar.

Bu nedenle, varsayımlar kümesi rastgele ve sabit X için, kabaca gözlemsel ve deneysel çalışmalara karşılık gelen farklıdır . Kabaca, çünkü üçüncü örnekte gösterildiği gibi, bazen gerçekten aşırı uçlar arasındayız. Ben Salkind tarafından Araştırma Tasarımı Ansiklopedisi "Gauss-Markov" teoremi bölümü, bu kadar başlamak için iyi bir yerdir bulundu mevcut Google Books.

Y=Xβ+ε

  • E[ε]=0
  • E[ε2]=σ2
  • E[εi,εj]=0

rastgele tasarımda aynı varsayımlara karşı:

  • E[ε|X]=0
  • E[ε2|X]=σ2
  • E[εi,εj|X]=0

Farkın görebildiği gibi, rastgele tasarım için tasarım matrisindeki varsayımların şartlandırılmasıdır. Koşullandırma bu daha güçlü varsayımlarda bulunur. Örneğin, sadece sabit tasarımda olduğu gibi hataların sıfır anlamına geldiğini söylemiyoruz; rastgele tasarımda, ayrıca, eş değişkenlere X'e bağlı olmadıklarını söylüyoruz.


2

İstatistiklerde rastgele bir değişken , bir şekilde rastgele değişen miktarlardır. Bu mükemmel CV dizisinde iyi bir tartışma bulabilirsiniz: “Rasgele değişken” ile ne kastedilmektedir?


Y=β0+β1X+εwhere εN(0,σ2)
εYX

XXε

PS : Söylediğim bağlantıdaki tüm açıklamalara baktım ve hiçbiri aydınlatıcı değil: Neden? Çünkü hiç kimse, rasgele değişkenler arasındaki bağlantıyı olasılıkçıların anladığı gibi istatistikçilerin onu nasıl anladığı gibi yapmaz. Bu yüzden bazı cevaplar standart, kesin olasılık teorisi tanımını değiştirirken, diğerleri (bana açık olmayan) belirsiz istatistiksel tanımı yeniden ifade ediyor. Ancak hiçbiri bu iki kavram arasındaki bağlantıyı açıklamıyor . (Bunun tek istisnası, bazı sözler verebilen, kutuda verilen uzun bilet modeli cevabıdır, ancak öyle olsa bile [...]
237,

fark, çarpıcı şekilde aydınlatıcı olacak kadar net bir şekilde ortaya çıkmadı; Bunun için herhangi bir değeri olup olmadığını görmek için bu özel cevaba meditasyon yapmam gerekecek)
l7ll7

X

Hayır, bunun hakkında rastgele olmayan değişken düşünme yöntemi iki nedenden ötürü işe yaramaz: Birincisi, yukarıdaki yorumlarda da belirttiğim gibi, matematikte "değişken" diye bir şey yoktur, ve iki olsa bile , o zaman yukarıdaki açıklamalarda da bahsettiğim gibi, bu durumda ekleme tanımlanmamıştır.
l7ll7

1

Soruyu anladığımdan emin değilim, ancak soruyorsanız, "bağımsız bir değişken her zaman rastgele bir değişken olmalı" diye soruyorsanız, cevap hayır.

Bağımsız bir değişken, bağımlı değişkenle korele olduğu varsayılan bir değişkendir. Daha sonra modellemenin böyle olup olmadığını test edersiniz (muhtemelen regresyon analizi).

Burada birçok komplikasyon ve "ifs, buts and maybes" var, bu yüzden regresyon analizini içeren bir temel ekonometri veya istatistik kitabının bir kopyasını alıp iyice okumanı veya başka bir istatistik / ekonometrikten ders notları almanızı öneririm. mümkünse çevrimiçi ders.


XXYXYX

xxxxX

Benden çok daha fazla matematik anlayışınız varmış gibi geliyor. Size sadece standart üniversite lisans ekonometri / istatistik cevabını veriyorum. Merak ediyorum, belki de biraz düşünebilir misiniz, en azından pratik analiz perspektifinden. Bu kitaptan alıntı ile ilgili olarak, benim yorumuma göre, bahsettiği belirli x ve y'nin rastgele olduğu - ancak bu, herhangi bir x veya herhangi bir y'nin rastgele olduğu anlamına gelmez.
Statsanalyst

Örn: İngiltere siyasetindeki eğilimleri oylamaya yönelik bir modeldeki bağımlı değişken, her seçim bölgesinde Muhafazakar adayının aldığı oy sayısı (Kanadalılara, Bölgeden Amerikalılara Sürme) ve bağımsız değişken, ortalama ev fiyatları (vekaleten bir vekil olabilir). İngiltere'de servet / gelir). Bunların hiçbiri benim anladığım kadarıyla "rastgele" bir değişken değil, ancak bu modellemek için oldukça makul bir şey olacaktır.
Statsanalyst 15:16

Tamam, ekonometri / istatistik departmanlarında ne tür cevaplar alabileceğimi / standarttığını bilmek güzel bir şey ve bu geri bildirimi çok takdir ediyorum (tekrar oy verdim, ama daha önce yaptığımdan beri yapamam). Matematik problemi “bir kez siyaha dönmediğinizde asla geri dönemezsiniz”: Matematiksel hassasiyetle yıl boyu süren eğitim, bir şey netleşinceye kadar kristal berraklığında değilse huzursuzluk hissi uyandıracaktır [...]
l7ll7
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.