Bir Regresyon Modelini Profesörden Gizleme (Regresyon Savaş Gemisi) [kapalı]


11

Profesörümün gerçek bir regresyon modeli oluşturmamızı, bir veri örneği taklit etmemizi istediği bir ev ödevi üzerinde çalışıyorum ve sınıfta öğrendiğimiz bazı teknikleri kullanarak gerçek regresyon modelimizi bulmaya çalışacak. Aynı şekilde, bize verdiği bir veri kümesiyle de aynısını yapmak zorundayız.

O, onu kandırmaya çalışan tüm geçmiş denemeler için oldukça doğru bir model üretebildiğini söylüyor. Bazı çılgın modeller yaratan bazı öğrenciler vardı ama tartışmalı olarak sadece daha basit olan daha basit bir model üretebildi.

Bulması için zor bir model nasıl geliştirebilirim? 4 kuadratik terim, 3 gözlem ve büyük sapma yaparak süper ucuz olmak istemiyorum? Altında sert küçük bir modeli olan, görünüşte zararsız bir veri kümesini nasıl üretebilirim?

Sadece uyması gereken 3 Kural var:

  1. Veri kümenizde bir "Y" değişkeni ve "Y", "X1", ..., "X20" olarak etiketlenmiş 20 "X" değişkeni bulunmalıdır.

  2. Yanıt değişkeniniz , aşağıdakileri sağlayan doğrusal bir regresyon modelinden : burada ve .Y i = β 0 + β 1 X i 1 + + β p - 1 X i , p - 1 + ϵ i ϵ iN ( 0 , σ 2 ) p 21Y

    Yi=β0+β1Xi1++βp1Xi,p1+ϵi
    ϵiN(0,σ2)p21
  3. oluşturmak için kullanılan tüm değişkenleri veri kümenizde bulunur.YXY

Unutulmamalıdır ki, 20 X değişkeninin hepsinin gerçek modelinizde olması gerekmez

Fama-Fransız 3 Faktör Modeli gibi bir şey kullanmayı ve hisse senedi verileriyle (SPX ve AAPL) başlamasını ve biraz daha gizlemek için bu değişkenleri sürekli bileşik getirilere dönüştürmesi gerektiğini düşünüyordum. Ama bu beni ilk gözlemde ve zaman serisinde (henüz sınıfta tartışmamış olduğumuz) eksik değerlerle terk ediyor.

Böyle bir şey göndermek için uygun bir yer olup olmadığından emin değilim. İyi bir tartışma yaratabileceğini hissettim.

Düzenleme: Ben de özellikle "önceden oluşturulmuş" modeller için sormuyorum. İstatistikte birisinin bunu yapmasını sağlayacak konular / araçlar hakkında daha fazla merak ediyorum.


4
Sizi doğrusal bir modelle sınırlıyorsa zor olacak ...
Frank H.

4
Eğer gerçek katsayılarınız% 95 güven aralığındaysa profesörünüz kazanırsa, çoklu doğrusallık yardımcı olmaz, çünkü çoklu doğrusallık CI'ları büyük ölçüde şişirir. Öte yandan, yeni öngörücülerdeki tahmin edilen ve gerçek veriler (gerçek DGP'niz kullanılarak oluşturulan "gerçek" veriler) arasındaki fark üzerinde değerlendirme yapılırsa, çoklu doğrusallık çok daha iyi bir yaklaşım olacaktır. Alt satır: hedef fonksiyonun ne olduğunu bulun ve yaklaşımınızı ona göre ayarlayın. (Bu daha genel olarak hayat için geçerlidir ...)
Stephan Kolassa

4
@dylanjm Zafer koşullarınızı tam olarak tanımlayabilir misiniz ?
Matthew Gunn

11
Böyle bir egzersizin amacı , bir şeyi kendiniz düşünmeye çalışarak öğrenmenizdir . Burada ona karşı uzmanları çukurlarsanız, regresyon ile ilgili olarak size verilen farklı bilgileri birleştirerek beyninizi gerdirme fırsatınız önemli ölçüde azalır (profesöre haksız olarak). Ayrıca, bir başkası tarafından kısmen yapıldığında ona işinizi sunan saygın bir kurumda akademik suistimal ve sahtekarlık arasında bir yere uzanabilir (özellikle markanızın herhangi bir bölümüne değerse). Bunu nasıl sorduğunuza çok dikkat edin.
Glen_b-Monica

4
Bu sorunun popülerliğine rağmen, bu noktada onu kapatmak zorunda hissediyorum, çünkü oyunun kuralları ile ilgili açıklama için tekrarlanan taleplerden sonra bile (başarıyı değerlendirmek için hangi kriterler kullanılacak, kaç örnek sağlamalısınız, vb.) soru hala soruda yer almamıştır. Hedeflerimiz "tartışma oluşturmaktan" daha dar ve odaklıdır: lütfen bu sitede ele alabileceğimiz sorular için yardım merkezimize danışın .
whuber

Yanıtlar:


6

Hata terimini açıklanan kısımdan çok daha büyük yapın. Örneğin: ; burada , ve . Tabii ki, tohumunuzun ne olduğunu hatırlamak zorundasınız, böylece profesörünüze haklı olduğunuzu ve yanlış olduğunu kanıtlayabilirsiniz.yi=Xi1+ϵiXij=sin(i+j)i=1..1000σ=1000000

Bu gürültü / sinyal oranıyla fazı tanımlayan iyi şanslar.


Bu CI kazanma kriteri için işe yaramıyor gibi görünüyor, değil mi? Kesinlikle 1'i kapsayacak büyük CI'ler elde edeceğiz. Ve elbette bazı sayısal istikrarsızlıklar.
Stephan Kolassa

İstikrarsızlık bir sorun olmayacak, tek yaptığım sinyali gürültüye gömmek. Bu saf beyaz gürültü olarak ortaya çıkacaktır.
Aksakal

4
Bu OP tarafından istenmeyen ucuz bir model olarak kabul edildi
Sextus Empiricus

5

Amacının ise gerçek veri üreten sürecini kurtarmak oluşturur , sizin profesör kandıramazsın oldukça basittir. Size bir örnek vermek gerekirse, bozuklukları ve aşağıdaki yapısal eşitlikleri göz önünde bulundurun :YϵiN(0,1)

X1=ϵ1+ϵ0X2=ϵ1+ϵ2y=X1+ϵ2

Sadece içeren , gerçek DGP'sine dikkat çekerek koşul 2'yi yerine getirin. , oluşturmak için tek değişken olduğundan ve ve sağladığınızdan Koşul 3 de karşılanır .YX1X1YX1X2

Yine de, profesörünüzün gerçek DGP'sini kurtarmak için sadece sadece yoksa ve dahil edeceğini söyleyemez (bu örneği kullanırsanız, değişkenlerin sayısını değiştirin). Büyük olasılıkla, size tüm değişkenlerle regresyonu bir cevap olarak verecektir, çünkü hepsi önemli tahminciler olarak görünecektir. İsterseniz bunu 20 değişkene genişletebilirsiniz, bu yanıtı burada ve Simpson'ın paradoks makinesini burada kontrol etmek isteyebilirsiniz .X1X2X1X2 Y

Tüm koşullu beklentilerin , veya koşullarının doğru belirtildiğini unutmayın, ancak yalnızca gerçek DGP'sini yansıtır . Böylece, profesörünüz kaçınılmaz olarak görevi başarısızlığa uğrattıktan sonra, amacının sadece herhangi bir koşullu beklentiyi geri kazanmak veya en iyi tahminini elde etmek olduğunu iddia edebilir. :E[Y|X1]E[Y|X2]E[Y|X1,X2] E[Y|X1]YY

Y gerekir değişken gelen bir lineer regresyon modeli olduğunu karşılar (...) edildi değişkenler Y oluşturmak için kullanılan (...) sizin gerçek modeli (...)

Ve sınıfta nedensellik, gerçek DGP'nin ne anlama geldiği ve genel olarak tanımlanabilirlik hakkında iyi bir tartışma başlatabilirsiniz .


Gönderide # 2 ile uyumlu bir model öneriyorsunuz
Aksakal

3

Geleceğe karşı gelir gibi çoklu-doğrusallık ve hetero-esneklik değişkenleri kullanın: ölçekleme problemleri sağlayan bazı acı verici özellik mühendisliği yapın: seyrek olarak serpilmiş bazıları için NA'lar verin. Doğrusallık parçası gerçekten daha zorlu hale getirir, ancak acı verici hale getirilebilir. Ayrıca, aykırı değerler, onun için problemi açıkça artıracaktır.


Ben heteroscedasticity sorunun kapsamı dışında olduğunu düşünüyorum, ama kesinlikle çoklu-doğrusallık gerçek şartname bulmak zor yapmak için en iyi yollarından biri olduğunu kabul ediyorum.
JDL

2

Etkileşim şartlarına izin veriliyor mu? Öyleyse, tüm alt sıra katsayılarını 0 olarak ayarlayın ve tüm modeli sıra etkileşimlerinden oluşturun (örneğin, gibi terimler ). 20 regresör için olası etkileşimlerin sayısı astronomik olarak büyüktür ve yalnızca dahil ettiklerinizi bulmak çok zor olacaktır.X5X8X12X13


0

Herhangi bir doğrusal model seçin. Ona çoğu örneğin x = 0 civarında olduğu bir veri kümesi verin. Ona x = 1.000.000 civarında birkaç örnek verin.

Buradaki güzel şey, x = 1.000.000 civarında örneklerin aykırı olmadığıdır. Aynı kaynaktan üretilirler. Ancak ölçekler çok farklı olduğundan, 1M civarındaki hatalar 0 civarındaki hatalara uymayacaktır.

Bir örnek ele alalım. Modelimiz sadece

Yben'=β0+β1Xben1'+εben

X = 0 yakınında n örnek veri kümemiz var. "Yeterince uzak" değerlerde 2 nokta daha seçeceğiz. Bu iki noktanın bazı hatalar olduğunu varsayıyoruz.

"Yeterince" bir değer öyle bir değerdir ki, bu iki noktadan doğrudan geçmeyen bir tahmin hatası, veri kümesinin geri kalanından çok daha büyüktür.

Bu nedenle, doğrusal regresyon bu iki noktadan geçecek ve veri kümesinin geri kalanını kaçıracak ve alt çizgi modelinden farklı olacak katsayıları seçecektir.

Aşağıdaki örneğe bakın. {{1, 782}, {2, 3099}, {3, 110}, {4, 1266}, {5, 1381}, {1000000, 1002169}, {1000001, 999688}}

Bu WolfarmAlpha serisi biçimindedir. Her çiftte ilk öğe x'dir ve ikincisi Excel'de = A2 + NORMINV (RAND (), 0,2000) formülü kullanılarak üretilmiştir.

Bu nedenle, ve normal olarak dağıtılmış rastgele gürültü ekliyoruz ve ortalama 0 ve 2000 standart sapması ekliyoruz. Bu, sıfıra yakın bir sürü gürültü, ancak milyona yakın küçük bir gürültü.β0=1,β1=1

y=178.433.x-426805y=x


Bu tam olarak nasıl çalışmalı ve bunun nasıl bir etki yaratması gerekiyor?
Richard Hardy

Gürültü ve hassasiyet farklı ölçeklerde farklı çalışacağı için çalışır. Yüksek sayılarda, aşırıya kaçmak ve tek bir noktayı düşünmek, çizgi doğrudan içinden geçmeli veya çok fazla maliyete sahip olmalıdır. Doğru değerleri kaçırmak için biraz gürültü yeterlidir. Sıfıra yakın, yine aşırı derecede - hiç şüphesiz, gürültüden ayrıldınız.
DaL

Değişken için yanlış katsayılı küçük bir değer kullanın ve maliyet ödüyorsunuz.
DaL

Evet, ama profesörün bunu yaratan modeli keşfetmesi neden zor? Verilen regresörde çok fazla varyasyon olduğunda özellikle kolay bir iş gibi görünüyor.
Richard Hardy

Çünkü hiçbir model her iki gruba da iyi uymayacak.
DaL
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.