İleri regresyon modelleme örnekleri


22

GLM veya OLS kullanarak karmaşık, çoklu doğrusal olmayan ilişkileri modellemek için gereken adımları gösteren gelişmiş bir doğrusal regresyon durum çalışması arıyorum. Temel okul örneklerinin ötesine geçen kaynakları bulmak şaşırtıcı bir şekilde zordur: Okuduğum kitapların çoğu, bir tahmincinin bir BoxCox'u veya en iyi durumda doğal bir eğri ile birleştiğinde yanıtın bir günlük dönüşümünden daha ileri gitmeyecek. Ayrıca şimdiye kadar gördüğüm tüm örnekler, her bir veri dönüşüm sorununa ayrı bir modelde, genellikle tek bir tahmin modelinde yaklaşıyor.

Bir BoxCox veya YeoJohnson dönüşümünün ne olduğunu biliyorum. Aradığım cevap / ilişkinin kesin olarak kesin olmadığı ayrıntılı, gerçek hayattan bir vaka çalışması. Örneğin, yanıt kesinlikle olumlu değildir (bu nedenle log veya BoxCox kullanamazsınız), öngörücüler kendi aralarında ve yanıtla doğrusal olmayan ilişkilere sahiptir ve maksimum olabilirlik veri dönüşümleri standart 0.33 anlamına gelmez veya 0.5 üs. Ayrıca, artık varyansın sabit olmadığı (asla olmadığı) olduğu için, yanıtın da dönüştürülmesi ve standart olmayan bir GLM ailesi regresyonu ya da bir cevap dönüşümü arasında seçim yapılması gerekecektir. Araştırmacı büyük olasılıkla verilerin fazla kullanılmaması için seçimler yapacaktır.

DÜZENLE

Şimdiye kadar aşağıdaki kaynakları topladım:

  • Regresyon Modelleme Stratejileri, F. Harrell
  • Uygulamalı Ekonometrik Zaman Serileri, W. Enders
  • R, G. Petris ile dinamik doğrusal modeller
  • Uygulamalı Regresyon Analizi, D. Kleinbaum
  • İstatistiksel Öğrenmeye Giriş, G. James / D. Witten

Sadece sonuncuyu okudum (ISLR) ve çok iyi bir metin (saatimdeki 5 beş yıldız), ML'ye yönelik olarak gelişmiş regresyon modellemesinden daha odaklı.

Zorlu bir gerileme vakası sunan CV'de de bu iyi yazı var.


8
Frank Harrells kitabının ( amazon.com/… ) yardımcı olabileceğine inanıyorum.
Adam Robinsson

@AdamRobinsson TOC'nin birkaç ilgili konuya (çok değişkenli modeller, eğri çizgiler, çoklu doğrusallık) dokunduğunu görüyorum, ancak gerçek hayattaki bir örnekte birlikte gösterilen yöntemler mi yoksa her bir konu ayrı ayrı açıklanıyor mu? Çünkü genellikle gerçek hayattaki örneklerde tüm sorunlar bir araya gelir ve onları nasıl iyi idare edeceğiniz asla belli olmaz.
Robert Kubrick

1
Kitabın tamamını henüz okumamıştım, ancak ilk 150 sayfa kesinlikle harikaydı (Ben bir istatistikçi değil, sadece bir meraklıyım). Örnek kapsamlı ve detaylandırılmıştır. Bu kitapta RMS (regresyon modelleme stratejileri) paketi R'ye eşlik ediyor. Ayrıca David Kleinbaums yarışan kitabına da baktım (ne yazık ki unutmadım) ancak stratejiler ve örnekler hakkında çok daha az şey içeriyordu (iki kat daha pahalıydı).
Adam Robinsson

3
@RobertKubrick: "Çok değişkenli regresyon", birden fazla yanıtla anlamına gelir (eklediğiniz etiketin vikasına bakın veya burada ). "Çoklu regresyon", birden fazla tahminciyle anlamına gelir.
Scortchi - Eski Monica

3
Uygulamalı Ekonometrik Zaman Serilerini Enderler tarafından kontrol etmek isteyebilirsiniz. Yeni sürüm, kitabın sonuna doğru doğrusal olmayan modelleri kapsar. Neredeyse tüm veriler St. Louis Fed web sitesinde (R'de quantmod yoluyla erişilebilir) halka açıktır, böylece gerçek hayattan örnekler takip edebilirsiniz. R ile Dinamik Doğrusal Modeller aynı zamanda oldukça iyi gerçek verilerle birkaç örnek vardır.
Eric Brady,

Yanıtlar:


10

Daha önce başkaları tarafından bahsedilen Regresyon Modelleme Stratejileri ve ISLR iki iyi öneridir. Düşünmek isteyebileceğiniz birkaç tane daha var.

Kuhn ve Johnson'dan Applied Predictive Modeling bir dizi iyi vaka incelemesi içeriyor ve oldukça başarılı.

Genelleştirilmiş Katkı Modelleri: R ile Simon Wood'a Giriş , genelleştirilmiş ilave modellerin ve bunları mgcvR için paketini kullanarak nasıl hazırladığınızın iyi bir uygulamasıdır. Bazı pratik olmayan pratik örnekler içerir. GAM modellerinin kullanılması, bir spline genişlemesi ve cezalandırılmış maksimum olabilirlik tahmini ile veri uyarlamalı bir şekilde yapıldığından "doğru" dönüşümü ortaya çıkarmanın bir alternatifidir. Bununla birlikte, yapılması gereken başka seçenekler var, örneğin link işlevinin seçimi.

Mboost R Paket ayrıca GAM modellerini uyuyor ama artırılması yoluyla farklı bir yaklaşım kullanarak. Paket için öğreticiyi öneririm (Vignettes'den biri).

Ayrıca bu kitabı henüz okumamış olmama rağmen Hendry ve Doornik'in Empirik Model Keşfi ve Teori Değerlendirmesini de anlatacağım . Bana tavsiye edildi.


Uygulamalı Tahmini Modelleme ... so-so. ISLR'yi tercih ederim.
Robert Kubrick

5

Gelişmiş, çoklu, karmaşık (doğrusal olmayanlar dahil) regresyonda bulabileceğiniz en iyi ders materyallerinden biri, Frank E. Harrell Jr.'ın Regresyon Modelleme Stratejileri kitabına dayanmaktadır.

Kitap yorumlarda tartışılıyor ancak bu materyal değil, kendisi de büyük bir kaynak.


2

Joshua D. Angrist ve Jörn-Steffen Pischke tarafından yazılan En Zararsız Ekonometri kitabını tavsiye ederim

Bu en gerçek dünya, yeryüzüne tuz, sahip olduğum metin ve süper ucuz, yaklaşık 26,00 $ yeni. Kitap, istatistikçi / iktisatçı için yazılmıştır, bu nedenle çok ilerlemiştir.

Şimdi bu kitap tam olarak ne istediğinizi değil, “karmaşık, çoklu lineer olmayan ilişkiler” üzerine, içsellik, yorumlama ve zeki regresyon tasarımı gibi temel temeller üzerine odaklanmadığı anlamına gelmiyor.

Ama bir şey anlatmaya çalışmak için bu kitabı öneriyorum. Gerçekte, regresyon analizinin gerçek dünyaya uygulanması söz konusu olduğunda, en zorlu konuların genellikle modellerimizin yeterince karmaşık olmadığı gerçeğiyle ilgisi yoktur ... inan bana çok karmaşık davulda çok iyi olduğumuza inanıyorum modeller! Aksine en büyük sorunlar gibi şeyler

  1. içsellik
  2. İhtiyacımız olan tüm verilere sahip olmamak
  3. Çok fazla veriye sahip olmak ... ve hepsi karışık!
  4. Birçok insan için kendi modellerini doğru yorumlayamıyor ( modelleri daha karmaşık hale getirirken daha yaygın hale gelen bir sorun )

GMM'nin, doğrusal olmayan filtrelerin ve parametrik olmayan regresyonun sağlam bir şekilde anlaşılması, listelediğiniz tüm konuları kapsar ve ilerledikçe öğrenilebilir. Bununla birlikte, gerçek dünya verileriyle, bu çerçeveler gereksiz yere karmaşık olma potansiyeline sahiptir, çoğunlukla zararlıdır.

Genellikle, tamamen genelleştirilmiş ve son derece sofistike olmaktan ziyade basit bir şekilde yapılabilmesi, gerçek dünya analizinde size en fazla yararı sağlama yeteneğidir. Bu kitap size eskisi ile yardımcı olacaktır.


1

R (ISLR) ile İstatistiksel Öğrenmeye Giriş kısmına bakabilirsiniz, kitap spline'lardan bahsediyor ve vakalarla ilgili polinom regresyonu hakkında ayrıntılı bilgi veriyor.


1

Sorunuzun amacının ne olduğundan emin değilim. Greene'nin Ekonometrik Analiz metnini önerebilirim . İçindeki kağıtlara bir sürü referansı var. Kitaptaki hemen hemen her örnek, yayınlanan bir makaleye gönderme yapıyor.

Size bir lezzet vermek için, s.195'deki Örnek 7.6 "Gelir İçin Bir Loglinear Modelinde Etkileşim Etkileri" konusuna bakın. Bir makaleye ve veri setine atıfta bulunur: Regina T. Riphahn, Achim Wambach ve Andreas Million, " Sağlık Hizmeti Talebinde Teşvik Etkileri: İki Değişkenli Bir Panel Sayımı Veri Tahmini ", Uygulamalı Ekonometri Dergisi, Cilt. 18, No. 4, 2003, sayfa 387-405.

Örnek, loglinear modellerin kullanımı ve etkileşim etkileri ile ilgilidir. Makalenin tamamını veya bu kitapların açıklamasını okuyabilirsiniz. Bu yapılmış bir kullanım durumu değildir. Bu gerçek bir yayınlanmış bir araştırma. İnsanların ekonomi araştırmalarında istatistiki yöntemleri gerçekte kullanma şekli budur.

Yazdığım gibi, ileri istatistik yöntemlerinin kullanımı ile ilgili bu gibi davalarla rahatsız edildi.


0

Ruey Tsay (UChicago) 'in yazdığı Finansal Zaman Serileri Analizi derslerini / kitaplarını incelediniz mi?

http://faculty.chicagobooth.edu/ruey.tsay/teaching/

Ruey Tsays sınıfları ve ders kitabı, finansal piyasalarda kullanılmak üzere yaratılan türdeki karmaşık regresyonların Finansmanında birçok gerçek dünyadan örnekler sunar. Bölüm 1, çok faktörlü regresyon modelleriyle başlar ve 5. veya 6. bölümlere göre Mevsimsel Otoregressive Time serisi modellerine genişler.


2
Evet yaptım ve hiç sevmedim. Genişlikte (değişkenlik modellerinden yüksek frekansa ARIMA'ya kadar herhangi bir şey) çok geniş, her bir konuya hafifçe dokunun (eldeki birçok konu ile nasıl yapılmadı) ve R çalışmaları ve zorlukları asgariye indirildi. Bu akademik makalelerin bir şeklidir ve başka bir yerde bulabileceğiniz önceden belirtilen teori / modeller. Bu tam olarak gerçek dünyadaki gelişmiş bir problemdeki çoklu zorlukların karmaşıklığıyla hiç ilgilenmeyen okul durumları ile kastettiğim şeydir.
Robert Kubrick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.