Bir Regresyon Modelini Profesörden Gizleme (Regresyon Savaş Gemisi) [kapalı]

11

Profesörümün gerçek bir regresyon modeli oluşturmamızı, bir veri örneği taklit etmemizi istediği bir ev ödevi üzerinde çalışıyorum ve sınıfta öğrendiğimiz bazı teknikleri kullanarak gerçek regresyon modelimizi bulmaya çalışacak. Aynı şekilde, bize verdiği bir veri kümesiyle de aynısını yapmak zorundayız.

O, onu kandırmaya çalışan tüm geçmiş denemeler için oldukça doğru bir model üretebildiğini söylüyor. Bazı çılgın modeller yaratan bazı öğrenciler vardı ama tartışmalı olarak sadece daha basit olan daha basit bir model üretebildi.

Bulması için zor bir model nasıl geliştirebilirim? 4 kuadratik terim, 3 gözlem ve büyük sapma yaparak süper ucuz olmak istemiyorum? Altında sert küçük bir modeli olan, görünüşte zararsız bir veri kümesini nasıl üretebilirim?

Sadece uyması gereken 3 Kural var:

Veri kümenizde bir "Y" değişkeni ve "Y", "X1", ..., "X20" olarak etiketlenmiş 20 "X" değişkeni bulunmalıdır.
Yanıt değişkeniniz , aşağıdakileri sağlayan doğrusal bir regresyon modelinden : burada ve . $Y$

$Y_{i}^{'} = β_{0} + β_{1} X_{i 1}^{'} + \dots + β_{p - 1} X_{i, p - 1}^{'} + ϵ_{i}$ $Y_i^\prime = \beta_0 + \beta_1 X_{i1}^\prime + \ldots + \beta_{p-1}X_{i,p-1}^\prime + \epsilon_i$ $\epsilon_i \sim N(0,\sigma^2)$ $p \leq 21$
oluşturmak için kullanılan tüm değişkenleri veri kümenizde bulunur. $X$ $Y$

Unutulmamalıdır ki, 20 X değişkeninin hepsinin gerçek modelinizde olması gerekmez

Fama-Fransız 3 Faktör Modeli gibi bir şey kullanmayı ve hisse senedi verileriyle (SPX ve AAPL) başlamasını ve biraz daha gizlemek için bu değişkenleri sürekli bileşik getirilere dönüştürmesi gerektiğini düşünüyordum. Ama bu beni ilk gözlemde ve zaman serisinde (henüz sınıfta tartışmamış olduğumuz) eksik değerlerle terk ediyor.

Böyle bir şey göndermek için uygun bir yer olup olmadığından emin değilim. İyi bir tartışma yaratabileceğini hissettim.

Düzenleme: Ben de özellikle "önceden oluşturulmuş" modeller için sormuyorum. İstatistikte birisinin bunu yapmasını sağlayacak konular / araçlar hakkında daha fazla merak ediyorum.

— dylanjm
kaynak

4

Sizi doğrusal bir modelle sınırlıyorsa zor olacak ...

— Frank H.

4

Eğer gerçek katsayılarınız% 95 güven aralığındaysa profesörünüz kazanırsa, çoklu doğrusallık yardımcı olmaz, çünkü çoklu doğrusallık CI'ları büyük ölçüde şişirir. Öte yandan, yeni öngörücülerdeki tahmin edilen ve gerçek veriler (gerçek DGP'niz kullanılarak oluşturulan "gerçek" veriler) arasındaki fark üzerinde değerlendirme yapılırsa, çoklu doğrusallık çok daha iyi bir yaklaşım olacaktır. Alt satır: hedef fonksiyonun ne olduğunu bulun ve yaklaşımınızı ona göre ayarlayın. (Bu daha genel olarak hayat için geçerlidir ...)

— Stephan Kolassa

4

@dylanjm Zafer koşullarınızı tam olarak tanımlayabilir misiniz ?

— Matthew Gunn

11

Böyle bir egzersizin amacı , bir şeyi kendiniz düşünmeye çalışarak öğrenmenizdir . Burada ona karşı uzmanları çukurlarsanız, regresyon ile ilgili olarak size verilen farklı bilgileri birleştirerek beyninizi gerdirme fırsatınız önemli ölçüde azalır (profesöre haksız olarak). Ayrıca, bir başkası tarafından kısmen yapıldığında ona işinizi sunan saygın bir kurumda akademik suistimal ve sahtekarlık arasında bir yere uzanabilir (özellikle markanızın herhangi bir bölümüne değerse). Bunu nasıl sorduğunuza çok dikkat edin.

— Glen_b-Monica

4

Bu sorunun popülerliğine rağmen, bu noktada onu kapatmak zorunda hissediyorum, çünkü oyunun kuralları ile ilgili açıklama için tekrarlanan taleplerden sonra bile (başarıyı değerlendirmek için hangi kriterler kullanılacak, kaç örnek sağlamalısınız, vb.) soru hala soruda yer almamıştır. Hedeflerimiz "tartışma oluşturmaktan" daha dar ve odaklıdır: lütfen bu sitede ele alabileceğimiz sorular için yardım merkezimize danışın .

— whuber

6

Hata terimini açıklanan kısımdan çok daha büyük yapın. Örneğin: ; burada , ve . Tabii ki, tohumunuzun ne olduğunu hatırlamak zorundasınız, böylece profesörünüze haklı olduğunuzu ve yanlış olduğunu kanıtlayabilirsiniz. $y_i=X_{i1}+\epsilon_i$ $X_{ij}=\sin(i+j)$ $i=1..1000$ $\sigma=1000000$

Bu gürültü / sinyal oranıyla fazı tanımlayan iyi şanslar.

— Aksakal
kaynak

Bu CI kazanma kriteri için işe yaramıyor gibi görünüyor, değil mi? Kesinlikle 1'i kapsayacak büyük CI'ler elde edeceğiz. Ve elbette bazı sayısal istikrarsızlıklar.

— Stephan Kolassa

İstikrarsızlık bir sorun olmayacak, tek yaptığım sinyali gürültüye gömmek. Bu saf beyaz gürültü olarak ortaya çıkacaktır.

— Aksakal

4

Bu OP tarafından istenmeyen ucuz bir model olarak kabul edildi

— Sextus Empiricus

5

Amacının ise gerçek veri üreten sürecini kurtarmak oluşturur , sizin profesör kandıramazsın oldukça basittir. Size bir örnek vermek gerekirse, bozuklukları ve aşağıdaki yapısal eşitlikleri göz önünde bulundurun : $Y$ $\epsilon_i\sim N(0,1)$

X_{1} = ϵ_{1} + ϵ_{0} X_{2} = ϵ_{1} + ϵ_{2} y = X_{1} + ϵ_{2}

$X_1 = \epsilon_1 + \epsilon_0\\ X_2 =\epsilon_1 + \epsilon_2\\ y = X_1 + \epsilon_2$

Sadece içeren , gerçek DGP'sine dikkat çekerek koşul 2'yi yerine getirin. , oluşturmak için tek değişken olduğundan ve ve sağladığınızdan Koşul 3 de karşılanır . $Y$ $X_1$ $X_1$ $Y$ $X_1$ $X_2$

Yine de, profesörünüzün gerçek DGP'sini kurtarmak için sadece sadece yoksa ve dahil edeceğini söyleyemez (bu örneği kullanırsanız, değişkenlerin sayısını değiştirin). Büyük olasılıkla, size tüm değişkenlerle regresyonu bir cevap olarak verecektir, çünkü hepsi önemli tahminciler olarak görünecektir. İsterseniz bunu 20 değişkene genişletebilirsiniz, bu yanıtı burada ve Simpson'ın paradoks makinesini burada kontrol etmek isteyebilirsiniz . $X_1$ $X_2$ $X_1$ $X_2$ $Y$

Tüm koşullu beklentilerin , veya koşullarının doğru belirtildiğini unutmayın, ancak yalnızca gerçek DGP'sini yansıtır . Böylece, profesörünüz kaçınılmaz olarak görevi başarısızlığa uğrattıktan sonra, amacının sadece herhangi bir koşullu beklentiyi geri kazanmak veya en iyi tahminini elde etmek olduğunu iddia edebilir. : $E[Y|X_1]$ $E[Y|X_2]$ $E[Y|X_1, X_2]$ $E[Y|X_1]$ $Y$ $Y$

Y gerekir değişken gelen bir lineer regresyon modeli olduğunu karşılar (...) edildi değişkenler Y oluşturmak için kullanılan (...) sizin gerçek modeli (...)

Ve sınıfta nedensellik, gerçek DGP'nin ne anlama geldiği ve genel olarak tanımlanabilirlik hakkında iyi bir tartışma başlatabilirsiniz .

— Carlos Cinelli
kaynak

Gönderide # 2 ile uyumlu bir model öneriyorsunuz

— Aksakal

3

Geleceğe karşı gelir gibi çoklu-doğrusallık ve hetero-esneklik değişkenleri kullanın: ölçekleme problemleri sağlayan bazı acı verici özellik mühendisliği yapın: seyrek olarak serpilmiş bazıları için NA'lar verin. Doğrusallık parçası gerçekten daha zorlu hale getirir, ancak acı verici hale getirilebilir. Ayrıca, aykırı değerler, onun için problemi açıkça artıracaktır.

— David
kaynak

Ben heteroscedasticity sorunun kapsamı dışında olduğunu düşünüyorum, ama kesinlikle çoklu-doğrusallık gerçek şartname bulmak zor yapmak için en iyi yollarından biri olduğunu kabul ediyorum.

— JDL

2

Etkileşim şartlarına izin veriliyor mu? Öyleyse, tüm alt sıra katsayılarını 0 olarak ayarlayın ve tüm modeli sıra etkileşimlerinden oluşturun (örneğin, gibi terimler ). 20 regresör için olası etkileşimlerin sayısı astronomik olarak büyüktür ve yalnızca dahil ettiklerinizi bulmak çok zor olacaktır. $X_5X_8X_{12}X_{13}$

— Ruben van Bergen
kaynak

0

Herhangi bir doğrusal model seçin. Ona çoğu örneğin x = 0 civarında olduğu bir veri kümesi verin. Ona x = 1.000.000 civarında birkaç örnek verin.

Buradaki güzel şey, x = 1.000.000 civarında örneklerin aykırı olmadığıdır. Aynı kaynaktan üretilirler. Ancak ölçekler çok farklı olduğundan, 1M civarındaki hatalar 0 civarındaki hatalara uymayacaktır.

Bir örnek ele alalım. Modelimiz sadece

Y_{ben}^{'} = β_{0} + β_{1} X_{ben 1}^{'} + ε_{ben}

$Y_i^\prime = \beta_0 +\beta_1 X_{i1}^\prime + \epsilon_i$

X = 0 yakınında n örnek veri kümemiz var. "Yeterince uzak" değerlerde 2 nokta daha seçeceğiz. Bu iki noktanın bazı hatalar olduğunu varsayıyoruz.

"Yeterince" bir değer öyle bir değerdir ki, bu iki noktadan doğrudan geçmeyen bir tahmin hatası, veri kümesinin geri kalanından çok daha büyüktür.

Bu nedenle, doğrusal regresyon bu iki noktadan geçecek ve veri kümesinin geri kalanını kaçıracak ve alt çizgi modelinden farklı olacak katsayıları seçecektir.

Aşağıdaki örneğe bakın. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Bu WolfarmAlpha serisi biçimindedir. Her çiftte ilk öğe x'dir ve ikincisi Excel'de = A2 + NORMINV (RAND (), 0,2000) formülü kullanılarak üretilmiştir.

Bu nedenle, ve normal olarak dağıtılmış rastgele gürültü ekliyoruz ve ortalama 0 ve 2000 standart sapması ekliyoruz. Bu, sıfıra yakın bir sürü gürültü, ancak milyona yakın küçük bir gürültü. $\beta_0=1, \beta_1=1$

$y= 178433. x - 426805$ $y=x$

— Dal
kaynak

Bu tam olarak nasıl çalışmalı ve bunun nasıl bir etki yaratması gerekiyor?

— Richard Hardy

Gürültü ve hassasiyet farklı ölçeklerde farklı çalışacağı için çalışır. Yüksek sayılarda, aşırıya kaçmak ve tek bir noktayı düşünmek, çizgi doğrudan içinden geçmeli veya çok fazla maliyete sahip olmalıdır. Doğru değerleri kaçırmak için biraz gürültü yeterlidir. Sıfıra yakın, yine aşırı derecede - hiç şüphesiz, gürültüden ayrıldınız.

— DaL

Değişken için yanlış katsayılı küçük bir değer kullanın ve maliyet ödüyorsunuz.

— DaL

Evet, ama profesörün bunu yaratan modeli keşfetmesi neden zor? Verilen regresörde çok fazla varyasyon olduğunda özellikle kolay bir iş gibi görünüyor.

— Richard Hardy

Çünkü hiçbir model her iki gruba da iyi uymayacak.

— DaL