Tahminleme ile değil, yalnızca modelleme ile ilgilenirsek, düzenlileştirme yardımcı olabilir mi?


19

Tahmin veya tahminle değil, yalnızca model parametrelerini tahmin etmek (ve yorumlamak) ile ilgileniyorsak, düzenlileştirme yardımcı olabilir mi?

Amacınız yeni veriler üzerinde iyi tahminler yapmaksa, normalleştirme / çapraz doğrulamanın son derece yararlı olduğunu görüyorum. Peki ya geleneksel ekonomi yapıyorsanız ve tek umduğunuz şey tahmin etmek ? Çapraz doğrulama da bu bağlamda faydalı olabilir mi? Karşılaştığım kavramsal zorluk , test verilerinde aslında hesaplayabileceğimiz, ancak asla çünkü gerçek tanım gereği asla gözlemlenmez. (Hatta gerçek bir olduğu varsayımına göre , yani verilerin oluşturulduğu model ailesini bildiğimizi düşünün.)L ( Y , Y ) L ( β , β ) β ββL(Y,Y^)L(β,β^)ββ

Kaybınız olduğunu varsayalım . Önyargı-varyans dengesiyle karşılaşıyorsunuz, değil mi? Yani, teorik olarak, bazı düzenlileştirme yapmak daha iyi olabilir. Peki, normalleştirme parametrenizi nasıl seçebilirsiniz?L(β,β^)=ββ^

Ben katsayıları ile, doğrusal regresyon modelinin basit bir sayısal örnek görmek mutluluk duyarım β(β1,β2,,βk) , araştırmacının kayıp fonksiyonu örn olduğunu ββ^ , hatta sadece (β1β^1)2 . Uygulamada, bu örneklerde beklenen kaybı iyileştirmek için çapraz doğrulama nasıl kullanılabilir?


Düzenleme : DJohnson beni bu soru ile ilgili olan https://www.cs.cornell.edu/home/kleinber/aer15-prediction.pdf adresine yönlendirdi . Yazarlar bunu yazar

Makine öğrenimi teknikleri ... Y^ 'ı tahmin etmek için disiplinli bir yol sağlar ki bu (i) önyargı-varyans değişiminin nasıl yapılacağına karar vermek için verilerin kendisini kullanır ve (ii) çok zengin bir dizi değişkenler ve fonksiyonel formlar. Ancak her şeyin bir bedeli vardır: \ hat {Y} için ayarlandıkları için Y^ (birçok varsayım olmadan) \ hat {\ beta} için çok yararlı garantiler vermediklerini her zaman akılda tutmak gerekir β^.

Yine ilgili başka bir makale, yine DJohnson sayesinde: http://arxiv.org/pdf/1504.01132v3.pdf . Bu makale yukarıda mücadele ettiğim soruyu ele almaktadır:

Hazır ... regresyon ağaçları gibi makine öğrenme yöntemlerini nedensel çıkarım sorununa uygulamak için temel bir zorluk, çapraz validasyona dayanan düzenlileştirme yaklaşımlarının tipik olarak “temel gerçeği” gözlemlemeye, yani gerçek sonuçlara dayanmasıdır. çapraz doğrulama örneğinde. Bununla birlikte, amacımız ortalama kare tedavi etkileri hatasını en aza indirmekse, [11] “nedensel çıkarımın temel sorunu” olarak adlandırdığımız şeyle karşılaşırız: nedensel etki herhangi bir birim için gözlenmez ve bu yüzden doğrudan temel hakikati olmak. Bunu, tedavinin nedensel etkisinin ortalama kare hatasının tarafsız tahminlerini oluşturmak için yaklaşımlar önererek ele alıyoruz.


2
Çapraz doğrulama, veri madenciliği ve makine öğrenimi araç setlerinde sadece bir yöntemdir. ML, Ekonomide giderek artan bir kullanım görüyor - Susan Athey'in Stanford'daki web sitesine bakın (ML tekniklerinin ekonomiye entegrasyonu ile ilgilenen bir akademisyen) veya Kleinberg ve arkadaşlarının bu makaledeki Tahminleme Politikası Sorunları : cs. cornell.edu/home/kleinber/aer15-prediction.pdf
Mike Hunter

9
Lütfen, millet, anlamsızlık: ML birçok makine öğrenimi öneriyor ve diğerleri için maksimum olabilirlik önerir. (Tanım: ML kendini otomatik olarak makine öğrenimi olarak size çevirirse, çitin makine öğrenimi tarafındasınız.)
Nick Cox

3
@Aksakal benim deneyimim, hem lisans hem de lisansüstü öğrencilere öğretildiği gibi geleneksel ekonometrinin çapraz doğrulamaya esasen sıfır dikkat göstermesidir. Klasik bir ders kitabı olan Hayashi'ye bakın. Tabii ki, belki de çapraz doğrulama ve önyargı-varyans dengesinden özellikle tahmin üzerine bir derste bahsedilir, ancak tüm öğrencilerin başladığı temel derste değil. Kulağa doğru geliyor mu?
Adrian

2
@Adrian Görüyorum ki insanlar bu soruyu kapatmak için oy veriyorlar. Öyle olabilir, ama gördüğüm gibi temelde şu soruyu soruyorsunuz: "CV, sadece modellemeyle ilgileniyorsak, tahminle değil de yardımcı olabilir mi?" - sizi doğru anlarsam, sorunuz kolayca düzenlenebilir ve basitleştirilebilir, bu yüzden daha net ve kesinlikle çok geniş değil (hatta ilginç!).
Tim

2
@Adrian çok ilginç bir soru! Korkarım ki bunu oldukça karmaşık hale getirdiniz ve ekonometriye referans burada çok önemli değil (istatistiksel yöntemlerin kullanıldığı diğer alanlarla aynı olduğu için). Sorunuzu basitleştirmek için düzenlemenizi öneririm.
Tim

Yanıtlar:


2

Evet, önyargılı düşük varyans tahminleri istediğimizde. Özellikle gung'un gönderisini burada seviyorum. Büzülme yöntemleri hangi problemi çözüyor? Lütfen gung'un figürünü buraya yapıştırmama izin ver ...

resim açıklamasını buraya girin Yapılan arsa gungasını kontrol ederseniz, neden düzenlileştirme / büzülmeye ihtiyacımız olduğu konusunda net olacaksınız. İlk başta, neden önyargılı tahminlere ihtiyacımız olduğunu garip hissediyorum? Ancak, bu şekle baktığımda, düşük bir varyans modeline sahip olmanın birçok avantajı olduğunu fark ettim: örneğin, üretim kullanımında daha "kararlı".


Evet, ancak normalleştirme parametresini nasıl seçeriz? Hedef tahmin hatasını en aza indirmek olduğunda, bir doğrulama seti kullanabiliriz. Gerçek model parametrelerini asla gözlemlemezsek bir doğrulama kümesinden nasıl yararlanabiliriz?
Adrian

Sorumun altındaki "nedensel çıkarımın temel sorunu" hakkındaki alıntıya bakın.
Adrian

1

Tahminlemeyle değil, yalnızca modelleme (yani parametreleri tahmin etme) ile ilgilenirsek çapraz doğrulama yararlı olabilir mi?

Evet yapabilir. Örneğin, geçen gün Karar Ağaçları üzerinden parametre önemi tahminini kullanıyordum. Her ağaç kurduğumda çapraz doğrulama hatasını kontrol ediyorum. Hatayı olabildiğince azaltmaya çalışıyorum, sonra parametrelerin önemini tahmin etmek için bir sonraki adıma geçeceğim. Oluşturduğunuz ilk ağaç çok kötüyse ve hatayı kontrol etmezseniz, daha az doğru (yanlış değilse) cevaplarınız olacaktır.

Sanırım ana neden, her tekniğin sahip olduğu birçok kontrol değişkeninden kaynaklanmaktadır. Bir kontrol değişkenindeki küçük değişiklikler bile farklı bir sonuç sağlayacaktır.

Çapraz doğrulama hatasını kontrol ettikten sonra modelinizi nasıl geliştirirsiniz? Modelinize bağlı. Umarım, birkaç kez denedikten sonra en önemli kontrol değişkenleri hakkında fikir sahibi olur ve düşük bir hata bulmak için bunları manipüle edebilirsiniz.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.