Gerçek dünyaya “abartılı” bir örnek nedir?


107

"Overfitting" in ne anlama geldiğini anlıyorum ama overfitting için geçerli olan gerçek dünyadan bir örnek ile nasıl karşılaşacağım konusunda yardıma ihtiyacım var.


12
Belki de, “ne anlama geldiğini” neyin “ne anlama geldiğini” “ne anlama geldiğini” açıklayabilir, böylece insanlar bunların ne olacağını tahmin etmek zorunda kalmadan anlayamadığınız kısımları ele alabilirler?
goangit

3
@ssdecontrol Sahte korelasyon çok uygun değil. Aslında, sahte korelasyonun açık bir model içermesi gerekmez ve kapalı model genellikle iki parametreli düz bir çizgidir.
Nick Cox

1
@ whuber: Bu belki de meta üzerinde tartışmak için daha uygun olurdu, ama bu yazıyı topluluk wiki'sine dönüştürdüğünü görünce şaşırdım. Bu, OP'nin gelecekteki yükselişler için itibar artışı elde etmeyeceği anlamına gelmiyor mu? Bana göre neredeyse onun için bir "ceza" gibi görünüyor; bunun nedeni neydi?
amip

4
@ amoeba Bu ceza değil: açıkça belirtildiği gibi bu sorunun doğru ve tek bir cevabı yok. CW dışı bir soru olarak orjinal haliyle, sonuçta konu dışıydı - ve hızlı bir şekilde kapatılmalıydı, BTW - ama topluluğun kollektif olarak yarattığı bazı iyi örneklere sahip olmanın, CW statüsünü kazanmanın bir değeri olabileceği için kapatmak yerine makul bir çözüm gibi görünüyor.
whuber

17
Şimdiye kadar bu cevapların çok azı (yalnızca 11 taneden ikisi!) Gerçek dünyadan bir örnek talep eden soruyu ele almaya bile çalışıyor . Bu bir simülasyon değil, teorik bir örnek değil, bir karikatür değil, gerçek verilere ciddi bir şekilde uygulanan bir modeldir. Ayrıca, sorunun açıkça cevapları fazla uydurmanın ne olduğunun açıklamalarından uzaklaştırmaya çalıştığını unutmayın.
whuber

Yanıtlar:


96

İşte xkcd'den cumhurbaşkanlığı seçim zamanı serisi modellerine güzel bir örnek : görüntü tanımını buraya girin

Sadece 56 cumhurbaşkanlığı seçimi ve 43 cumhurbaşkanı seçildi. Bu, öğrenilecek çok fazla veri değil. Tahmini boşluk, yanlış dişlere sahip olmak ve isimlerin Scrabble nokta değeri gibi şeyleri içerecek şekilde genişlediğinde, modelin verilerin genelleştirilebilir özelliklerine (sinyal) uydurmaktan ve gürültüyü eşleştirmeye başlaması oldukça kolaydır. Bu olduğunda, tarihsel verilere uygunluk gelişebilir, ancak model gelecekteki cumhurbaşkanlığı seçimleri hakkında çıkarımlarda bulunulduğunda sefil bir şekilde başarısız olacak.


15
Bence bunun aşırı giyinmeyle ilgili olduğunu açıklamak için örnek önyargı hakkında bir şeyler eklemelisin. Karikatürün sadece bir kesip yapıştırması açıklamada eksik.
Neil Slater

5
Bu örneğin güzel bir özelliği, aşırı oturan ve karmaşıklık arasındaki farkı göstermesidir. "Kaliforniya'ya gider, millete gider" kuralı basittir, ancak yine de çok uygundur.
Tom Minka

2
@ TomMinka aslında fazladan donukluktan kaynaklanıyor olabilir (çok basit bir veriye sığmayacak kadar karmaşık bir model, bu nedenle ek parametreler elinize ne gelirse sığsın) ya da belirttiğiniz gibi, kararda ilgili olandan daha fazla ağırlık alan gürültülü özellikler özellikleri. Ve diğer pek çok muhtemel aşırı uydurma kaynağı da vardır (verilerin veya modelin kendine özgü varyansı, hedef hedefi temsil etmeye uygun olmayan veriler vb.). Bence sadece fazladan değil, (genellikle doğru olmayan tek bir neden olduğu anlamına gelir) , fazladan s nin var olduğunu söylememiz gerekir .
gaborous

80

En sevdiğim zamana karşı ABD nüfus sayımı popülasyonunun Matlab örneği:

  • Doğrusal bir model oldukça iyidir
  • İkinci dereceden bir model daha yakın
  • Kuartik bir model gelecek yıldan itibaren toplam imha olacağını öngörüyor

(En azından içtenlikle bunun biraz abartılı bir örnek olduğunu umuyorum )

http://www.mathworks.com/help/curvefit/examples/polynomial-curve-fitting.html#zmw57dd0e115görüntü tanımını buraya girin


1
Sadece arsa derler do tam altında açık olmak: "Veri aralığının dışında altıncı dereceden polinom uyum davranışı ekstrapolasyonu için yetersiz kaldığı bir seçim yapar ve bu uyum reddedebilir. "
usεr11852

49

Chen ve ark. (2013), enlemin bir fonksiyonu olarak iki kübikten beklenen yaşam süreksizlik süresine uyuyor.

Chen Y., Ebenstein, A., Greenstone, M. ve Li, H. 2013. Hava kirliliğine sürekli maruz kalmanın Çin'in Huai Nehri politikasından beklenen yaşam süresi üzerindeki etkisine dair kanıt. Ulusal Bilimler Akademisi'nin Bildirileri 110: 12936-12941. soyut, Özet

Seçkin bir dergide yayınlanmasına rağmen, seçkin insanlar tarafından zımni olarak onaylanmasına rağmen, bunu hâlâ fazla uydurmanın ilk örneği olarak sunacağım .

Bir masal işareti, kübiklerin anlaşılmazlığıdır. Bir kübik yerleştirmek, yaşam beklentisinin yaşadığınız enlemin üçüncü derece polinomu olarak değişmesinin bir nedeni olduğunu varsayar. Bu oldukça mantıklı görünüyor: böyle bir etkiye neden olacak makul bir fiziksel mekanizma hayal etmek kolay değil.

Bu yazının daha ayrıntılı bir analizi için aşağıdaki blog gönderisine de bakınız: Polinom regresyonunun sürekli kullanılmasının nedensel çıkarım üzerindeki etkisine ilişkin kanıt (kömür ısıtmanın ömrünü yarım milyar kişi için 5 yıl azalttığı iddiası) .


5
+1 Andrew Gelman, niçin uygunsuz olduğu konusunda bir ya da iki blog yazısı bile yazdı. İşte bir tane: andrewgelman.com/2013/08/05/…
Sycorax

@ user777 Gelman blogu muhtemelen ilk duyduğum şeydir. Ancak referans vermenin, kişisel yorumumun kabiliyetini eklemenin ve insanların kendileri için yargılamalarına izin vermenin en uygun olacağını düşündüm.
Nick Cox

1
@DW tarafından farklı ülkelerdeki yaşam beklentisi hakkında yorum yapan bir düzenlemeyi kestim, bu da makalenin ne anlama geldiği değil.
Nick Cox

2
Sanırım bir başka örnek de açıklayıcıdır (potansiyel olarak "gerçek dünyadan" daha kabiliyetli olsa da), ara sonuçları geri döndüren - kaggle gibi tahmin yarışmalarıdır. Genelde, sonuçları lider panosuna göre optimize eden bireyler vardır, ancak bunlar, elde tutma örneği için kazananlar değildir. Rob Hyndman'ın bununla ilgili bir tartışması var. OP'nin burada istediğini düşündüğümden biraz daha derinlemesine bir bakış açısı gerekiyor.
Andy W

2
Bundan çıkan Gelman & Imbens gazetesini yayınlamak üzereydim: nber.org/papers/w20405 (maalesef kapılı, maalesef)
shadowtalker

38

Bir de 14 Mart 2014 makalesinde Bilim David Lazer Ryan Kennedy, Gary King, ve Alessandro Vespignani sorunlar tespit Google Grip Trendleri onlar overfitting yükledikleri.

şekil

Aşırı uydurmanın doğasını ve algoritmanın neden başarısızlığa neden olduğunu açıklamaları da dahil olmak üzere hikayeyi nasıl anlattıklarını şöyle açıklar:

Şubat 2013’te ... Nature, GFT’nin grip benzeri hastalıklar için doktor ziyaretlerinin (ILI) oranının Hastalık Kontrol ve Önleme Merkezleri’nden (CDC) iki katından fazla olduğunu tahmin ettiğini bildirdi. Bu, GFT'nin CDC raporlarını tahmin etmek için yapıldığı gerçeğine rağmen gerçekleşti. ...

Esasen, metodoloji, 1152 veri noktasına uyacak şekilde 50 milyon arama terimi arasında en iyi eşleşmeleri bulmaktı. Grip eğilimine uyan, ancak yapısal olarak alakasız olan ve dolayısıyla geleceği tahmin etmeyen arama terimleri bulma olasılığı oldukça yüksekti. Aslında GFT geliştiricileri, griple ilgili olmayan ancak lise basketboluyla ilgili olanlar gibi CDC verileriyle güçlü bir şekilde ilişkili olan mevsimsel arama terimlerini ayıkladığını bildirmektedir. Bu , büyük verilerin az sayıdaki olaya aşırı uyuyor olduğuna dair bir uyarı olmalıydı - veri analizinde standart bir endişe. Özel arama terimlerini atma konusundaki bu geçici yöntem, GFT'nin 2009 yılına ait 2009 influenza A – H1N1 salgınını tamamen kaçırdığı zaman başarısız oldu.

[Vurgu eklendi.]


3
Ne yazık ki bu örnekte bazı problemler var. Belge, GFT'nin kötü tahminler yapmasının iki farklı nedenini ortaya koyuyor: fazladan arama ve arama motorunda değişiklikler. Yazarlar, hangi nedenin (eğer varsa) doğru olduğunu belirleyebilecek bir konumda olmadıklarını itiraf etmektedir, bu yüzden esasen spekülasyondur. Ayrıca, fazladan takma ile ilgili paragraf sistemin orijinal versiyonunu belirtirken, grafikteki tahminler değiştirilmiş bir sistemle yapılmıştır.
Tom Minka

1
@ Tom Makalede, fazla uydurma iddiası spekülasyon sanki yazılmıyor: yazarlar bunu açıkça iddia ediyorlar. Bence bu makul bir ifade. Ayrıca biraz spekülatif olmalarının nedenini de ele alıyorlar: Google, algoritma konusunda açık veya şeffaf değildi. Şu anki amaç için fazladan donanımın sadece bir versiyonda mı yoksa bir çoğunda mı meydana geldiği, benim için önemsiz görünüyor, ancak yazarları da bu konuyu ele alıyorum ve mevcut algoritmaya göre fazla uydurma olduğuna dair kanıtlara dikkat çekiyorum.
whuber

2
Makale sadece aşırı uyarlamanın veri analizinde standart bir sorun olduğunu söylüyor. Aşırı uyarlamanın sebep olduğunu iddia etmiyor. Referans (2) daha fazla ayrıntıya giriyor, ancak yine de "orijinal ve güncellenmiş GFT modellerini tanımlamak için kullanılan arama algoritması ve ortaya çıkan sorgu terimleri açıklanmadığından," ile fazla uydurmanın yalnızca "olası bir sorun" olduğunu söylüyor sistemin düşük performansının nedenlerini belirlemek ve iyileştirme için önerilerde bulunmak zor. "
Tom Minka

@Tom Google Grip modelinin bu bağlamda dikkate alınmaya değer olup olmadığına dair yeterli bir destek olduğu için burada verilen alıntıya hazır olacağım.
whuber

İlginç tartışma Satırlar etiketlendiyse grafiğin argümanı daha iyi destekleyebileceğini ekleyeceğim.
rolando2

32

Birkaç hafta önce bu resmi gördüm ve eldeki soru ile ilgili olduğunu düşündüm.

meme resmi

Dizinin doğrusal olarak yerleştirilmesi yerine, mükemmel uyumu olan ancak net bir şekilde saçma bir cevapla sonuçlanan kuartik bir polinomla donatıldı.


12
Bu soruyu sorduğu gibi cevaplamıyor ve yorum olarak ya da hiç yayınlanmamaktan daha iyi olabilir. Bu, gerçek dünyaya aşırı uydurma örneği sağlamaz (soruyu istediği şey bu). Aynı zamanda, örnek görüntünün fazla donatmayla nasıl ilişkili olduğunu da açıklamıyor. Sonunda, çok kısa. Sadece soru ile ilgili olan tartışmayı değil, sorulan soruyu cevaplayan kapsamlı ve ayrıntılı cevapları tercih ediyoruz.
DW

9
Aslında bu tam olarak çok karmaşık bir modele bağlı olarak fazladan takma durumudur, çünkü sıranın sırasına uyurken sınırsız sayıda farklı son terimler dizisi oluşturabilmek için daha yüksek dereceli (doğrusal olmayan) işlevlerin sonsuzluğunu oluşturabilirsiniz. Diğer (bilinen) terimler, burada açıklandığı gibi bir Lagrange enterpolasyonu kullanarak .
gaborous

@ user1121352 karikatürde, yüksek mertebeden polinom olan gerçek modeli, bu nedenle tüm uydurma aşırı ilgili değil. Örneğin "9" (sonraki tek sayı) veya "11" (sonraki tek asal) gibi bir cevap aslında olacağını altında bir sonraki değerini tahmin etmek için bir çok-basit modeli kullanır çünkü -fitting. Çizgi film aslında tam tersi bir durumu gösteriyor, daha karmaşık bir modelin gerçek olabileceğini.
Sycorax

8
Kuartik polinomun (benim tarafımdan yorumlandığı gibi) saçma bir çözüm olması amaçlanmıştır, çünkü saçma çözümü görmeden önce herkesin vereceği açık cevap 9 (ya da başka bir OEIS değeri) olacaktır. "Doge" biçiminin alaycıyı ilettiğini varsaydım, ancak burada Poe Yasasını açıkça görüyoruz.
Mart Ho

2
Bu tam olarak yapmaya çalıştığım nokta budur, ki gerçek fonksiyonun ne olduğunu bilmiyoruz. Orijinal analizler yapıyorsanız, gerçeğe itiraz etmek için OEIS gibi bir kaynağa sahip değilsiniz: modelinizin oluşturmaya çalıştığı şey budur. Karikatürün alaycı olmaya çalıştığını takdir ediyorum, ancak karikatürün bu özel tartışma içindeki yerleşimi, genel olarak aşırı giyinme ve istatistiksel modelleme hakkındaki soruya önemli bir incelik gösteriyor. Özgün yaratıcısının amacı önemsiz çünkü burada yeniden düzenlediniz!
Sycorax,

22

Bana göre en iyi örnek astronomide Ptolemaik sistemdir . Ptolemy, Dünya'nın evrenin merkezinde olduğunu ve gökyüzündeki nesnenin hareketlerini oldukça iyi açıklayacak olan sofistike bir iç içe dairesel yörünge sistemi yarattığını varsaydı . Gökbilimciler, sapmayı açıklamak için çevreler eklemeye devam etmek zorunda kaldılar, bir gün o kadar toplanıncaya kadar millet şüphe etmeye başladı. O zaman Copernicus daha gerçekçi bir model buldu.

Bu bana aşırı giyinmenin en iyi örneği. Veri oluşturma işlemini (DGP) verilere dahil edemezsiniz. Sadece belirtilmemiş modelin üzerini kapatabilirsiniz. Sosyal bilimlerdeki modellerimizin neredeyse hepsi yanlış tanımlanmıştır, bu yüzden kilit nokta bunu hatırlamak ve onları enerjik tutmaktır. Veri setinin her yönünü yakalamaya çalışmak değil, temel özellikleri basitleştirerek yakalamaya çalışın.


15
Bu, fazla uydurma örneği olarak görünmüyor. Ptolemaik sistemde yordayıcı bir model olarak yanlış bir şey yoktur: bu yalnızca karmaşıktır çünkü koordinat sistemi galaktik kütle merkezinden kaynaklanmak yerine jant merkezlidir. Bu nedenle sorun, aşırı karmaşık bir modelle doğru ve meşru bir uyum sağlamasıdır. (Elips, epicycles'ten daha basittir.) Eşsiz, doğrusal olmayan modelleri bulmak için gerçek bir meydan okumadır!
whuber

1
Jüpiter'in uydularının Ptolemaic sistemindeki yörüngelerini modellemek için birçok çevreye sahip olacaksınız.
Aksakal

17
Bu doğru - ama yüzünde, mutlaka uygun değildir. Asit testi gelecekteki değerlerin tahminlerinde yatmaktadır, bu sistem 1400 yıl boyunca ayakta durabilecek kadar iyi çalışmıştır. Veriler şunlardır overfit modeli çok karmaşık olduğunda değil, ama o kadar olduğunda esnek gereksiz detay yakalayarak onun eğitim verilerine modelin artıkların bir analizinden beklenen çok daha hatalı tahminler üretir.
whuber

2
Aksakal: Kesinlikle yapabilirsin. @ Arnaud'un örneğini göz önünde bulundurun ve veri üretme işleminin . Sizi, bu veriyi, onlarla ilgili olarak, yeni veriler hakkındaki basit doğrusal modelden daha iyi tahminler beklentisiyle uyacağına yönlendiren bir şey olur mu? EY=k=09βkxi
Scortchi

2
@Aksakal: 10 parametreler: (şimdi doğru yazılmış!). Tabii ki hata tahmin edilemez ya da biliniyorsa kabul edilemez. Canınızı sıkıyorsa, cinsinden sekizinci dereceden bir polinom düşünün ; Mesele aynı. xEY=k=09βkxkx
Scortchi

22

Diyelim ki grafikte 100 nokta var.

Söyleyebilirsiniz: hmm, bir sonrakini tahmin etmek istiyorum.

  • bir çizgiyle
  • 2. dereceden polinom ile
  • 3. dereceden polinom ile
  • ...
  • 100. dereceden bir polinom ile

İşte bu örnek için basitleştirilmiş bir örnek görebilirsiniz: görüntü tanımını buraya girin

Polinom düzeni ne kadar yüksek olursa, mevcut noktalara o kadar iyi uydurur.

Bununla birlikte, yüksek dereceli polinomlar, noktalar için daha iyi modeller gibi görünse de, aslında bunlara uymuyor. Gerçek veri dağılımından ziyade gürültüyü modellemektedir.

Sonuç olarak, grafiğe mükemmel bir şekilde oturan eğrinizle yeni bir nokta eklerseniz, daha basit bir düşük dereceli polinom kullanmanıza göre eğriden daha uzakta olacaktır.


"Sonuç olarak, grafiğe mükemmel oturan eğrinizle yeni bir nokta eklerseniz, daha basit düşük dereceli bir polinom kullanıyor olsanız bile muhtemelen eğriden daha uzakta olacak" - üstelik bu hala doğru Yeni nokta için veri üretme süreci (yani popülasyondaki ilişki) aslında sizin (sizin üstünüzdeki) taktığınız gibi yüksek güçlü bir polinomdu.
Silverfish

19
Buradaki resimler aslında yanlıştır - örneğin, 9 derecelik polinom yalnızca parçalı bir doğrusal işlev olarak çizilmiştir, ancak gerçekte noktalar arasındaki mesafelerde çılgınca yukarı ve aşağı dönmesi gerektiğinden şüpheleniyorum. Bu etkiyi 5 derecelik polinomda da görmelisiniz.
Ken Williams

17

Fukushima felaketine katkıda bulunabilecek olan analiz, fazla uydurma örneğidir. Yerbilimi'nde, "daha az" depremlerin gözlenen sıklığı göz önüne alındığında, belli büyüklükteki depremlerin olasılığını tanımlayan iyi bilinen bir ilişki vardır. Bu, Gutenberg-Richter ilişkisi olarak bilinir ve on yıllara uygun düz bir log oluşturur. Reaktörün çevresindeki deprem riskinin analizi (Nate Silver'in mükemmel kitabı "Sinyal ve Gürültü" adlı bu şema) verilerde bir "dolandırıcılık" göstermektedir. Kıvrılmanın göz ardı edilmesi, 9 büyüklüğünde deprem riskinin yıllık riskinin yaklaşık olarak 300'de 1 olduğu tahminine yol açıyor - kesinlikle hazırlanacak bir şey. Ancak, Çift eğimli bir hattın fazladan takılması (reaktörler için ilk risk değerlendirmesi sırasında göründüğü gibi) 13.000 yıldaki risk tahminini yaklaşık 1'e düşürür. Biri, mühendislerin reaktörleri böylesine muhtemel olmayan bir olaya dayanacak şekilde tasarlamamaları için hata yapamadı - ama kesinlikle verileri fazla tutan (ve sonra fazladan hesaplanan) istatistikçilerin hata vermesi gerekiyor ...

görüntü tanımını buraya girin


İkili eğim modelinin uygun olduğu açık mı? Kıvrım belirgindir; Her bir çizgi segmenti, her biri 3 noktadan hesaplanmış olsaydı, beklemede daha iyi tahminler elde edersiniz, tek bir çizgi tahmin etmekten daha iyi tahminler alırsınız. (Tabii ki "13.000 yıl içinde bir" olayının daha sonra gözlemlenmesi buna karşı çıkıyor! Ama bu olmamış olsaydı, bu modeli tekrar inceleyemeyeceğimiz için yorumlamamız zor.) algılanan sapma, bu durumun daha fazla olduğu durumudur - daha güçlü - Bu tür verilerin genellikle ideal Gutenberg-Richter ilişkisine ne kadar uyduğunu bilmiyorum.
Silverfish

Bu, ekstrapolasyonun tehlikelerini ve bir hatanın sonuçlarının ciddiyetini hesaba katan bir kayıp fonksiyonuna duyulan ihtiyacı çok grafiksel olarak göstermektedir ...
Silverfish

3
Asıl sorun, son noktaların bazıları için çok az veri kullanılmasıdır - bu yüzden içlerinde büyük bir belirsizlik vardır. Verilere yakından bakıldığında, tek bir 7.9 olayı, ardından birkaç 7.7 olabileceğini görebilirsiniz. Çok az olduğu gibi 8,0'den büyük depremler hakkında çok az şey biliniyor - ancak 9.0 deprem (Tsunamiye neden olan Tohoku depremi) gözlemlediğinizde, kendi kararınızı alabilirsiniz. Düz çizgi muhafazakar olabilir - ancak nükleer güvenlik söz konusu olduğunda, muhafazakar iyidir.
Floris,

1
@ Floris İyi nokta. Yalnızca gözlenen frekansları değil aynı zamanda bu frekanslar için güven aralıklarını gösteren bir kutu grafiği kullanmaları daha iyi olurdu. Daha sonra muhtemelen şemada sola doğru çok dar kutular ve sağa doğru çok geniş kutular olacaktır. (Bu gibi güven aralıkları, her frekansın bir Poisson dağılımını takip ettiği varsayılarak hesaplanabilir.)
user763305,

3
@ user763305 - evet, güven aralıkları eklemenin düz bir çizginin verilerle tutarlı olmadığını göstereceğinden (veya başka bir deyişle, verilerin düz bir çizgiyi takip ettiği boş hipotezini reddedemeyeceğinize) emin olacağından eminim.
Floris

15

“Agh! Pat şirketten ayrılıyor. Nasıl yenisini bulacağız?”

İş ilanı:

Aranıyor: Elektrik Mühendisi. Elektrik Mühendisliği, matematik ve hayvancılık alanlarında derece ile 42 yaşındaki androgynous kişi. Kahverengi saçlı 68 santim boyunda, sol göze bir köstebek olmalı ve kazlara karşı uzun soluklu diatriblere ve 'avukat' kelimesini kötüye kullanmaya yatkın olmalı.

Matematiksel anlamda, fazladan donatmak çoğu zaman gerekenden daha fazla parametreye sahip bir model yapmak anlamına gelir, bu da belirli bir veri setine daha iyi uyumu sağlar, ancak ilgilenilen sınıftan diğer veri kümelerine uymak için gerekli ayrıntıları yakalamadan gereklidir.

Yukarıdaki örnekte, poster konuyla ilgisiz özelliklerden ayırt edememektedir. Sonuçta ortaya çıkan nitelikler muhtemelen zaten iş için uygun olduğunu bildikleri bir kişi tarafından karşılanmaktadır (ancak artık istememektedir).


8
Eğlenirken, bu cevap fazla uygun olmanın istatistiksel anlamda ne anlama geldiğine dair bir fikir vermez. Belki bu çok özel nitelikler ve istatistiksel modelleme arasındaki ilişkiyi açıklığa kavuşturmak için cevabınızı genişletebilirsiniz.
Sycorax

+1 Mark. @ User777 ile yalnızca küçük bir ölçüde aynı fikirdeyim. Belki bir cümle özlü örneği eve getirecektir. Fakat çok fazla şey eklemek sadelikten uzaklaşacaktır.
Ndoogan

Bunun çok iyi bir cevap olduğunu düşünüyorum - özellikle eğitim verisinin modelin ifade gücünü doyuracak kadar yetersiz olduğu durumlarda, eğitim verilerini esasen ezberleyen çok yaygın tipte bir aşırı uyuşma biçimi sergiliyor.
Ken Williams

14

Bu bir uydurma, ama umarım durumu açıklayacaktır.

örnek 1

k=100n=100

set.seed(123)
k <- 100
data <- replicate(k, rnorm(100))
colnames(data) <- make.names(1:k)
data <- as.data.frame(data)

Şimdi, ona doğrusal bir regresyon uygulayalım:

fit <- lm(X1 ~ ., data=data)

Ve işte ilk on tahmincinin bir özeti:

> summary(fit)

Call:
lm(formula = X1 ~ ., data = data)

Residuals:
ALL 100 residuals are 0: no residual degrees of freedom!

Coefficients:
              Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.502e-01         NA      NA       NA
X2           3.153e-02         NA      NA       NA
X3          -6.200e-01         NA      NA       NA
X4           7.087e-01         NA      NA       NA
X5           4.392e-01         NA      NA       NA
X6           2.979e-01         NA      NA       NA
X7          -9.092e-02         NA      NA       NA
X8          -5.783e-01         NA      NA       NA
X9           5.965e-01         NA      NA       NA
X10         -8.289e-01         NA      NA       NA
...
Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 99 and 0 DF,  p-value: NA

Sonuçlar oldukça garip görünüyor, ama hadi çizelim.

görüntü tanımını buraya girin

X1X1

> sum(abs(data$X1-fitted(fit)))
[1] 0

Sıfır, bu yüzden araziler bize yalan söylemiyordu: model mükemmel bir uyum sergiliyor. Ve sınıflandırmada ne kadar kesin?

> sum(data$X1==fitted(fit))
[1] 100

X1

Örnek 2

Bir örnek daha. Biraz daha veri oluşturalım:

data2 <- cbind(1:10, diag(10))
colnames(data2) <- make.names(1:11)
data2 <- as.data.frame(data2)

bu yüzden şöyle görünüyor:

   X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
1   1  1  0  0  0  0  0  0  0   0   0
2   2  0  1  0  0  0  0  0  0   0   0
3   3  0  0  1  0  0  0  0  0   0   0
4   4  0  0  0  1  0  0  0  0   0   0
5   5  0  0  0  0  1  0  0  0   0   0
6   6  0  0  0  0  0  1  0  0   0   0
7   7  0  0  0  0  0  0  1  0   0   0
8   8  0  0  0  0  0  0  0  1   0   0
9   9  0  0  0  0  0  0  0  0   1   0
10 10  0  0  0  0  0  0  0  0   0   1

ve şimdi buna doğrusal bir regresyon sığdırmayı sağlar:

fit2 <- lm(X1~., data2)

bu yüzden aşağıdaki tahminleri alıyoruz:

> summary(fit2)

Call:
lm(formula = X1 ~ ., data = data2)

Residuals:
ALL 10 residuals are 0: no residual degrees of freedom!

Coefficients: (1 not defined because of singularities)
            Estimate Std. Error t value Pr(>|t|)
(Intercept)       10         NA      NA       NA
X2                -9         NA      NA       NA
X3                -8         NA      NA       NA
X4                -7         NA      NA       NA
X5                -6         NA      NA       NA
X6                -5         NA      NA       NA
X7                -4         NA      NA       NA
X8                -3         NA      NA       NA
X9                -2         NA      NA       NA
X10               -1         NA      NA       NA
X11               NA         NA      NA       NA

Residual standard error: NaN on 0 degrees of freedom
Multiple R-squared:      1, Adjusted R-squared:    NaN 
F-statistic:   NaN on 9 and 0 DF,  p-value: NA

R2=1X1

X1=10+X2×9+X3×8+X4×7+X5×6+X6×5+X7×4+X8×3+X9×2

X1=1

10+1×9+0×8+0×7+0×6+0×5+0×4+0×3+0×2

Oldukça açıklayıcı. Örnek 1'i Örnek 2'ye benzer olarak düşünebilirsiniz ancak bir miktar "gürültü" eklenmiş olarak. Yeterince büyük veriye sahipseniz ve bir şeyi “tahmin etmek” için kullanıyorsanız, o zaman bazen tek bir “özellik” sizi bağımlı değişkeninizi iyi tanımlayan bir “kalıbınız” olduğuna ikna edebilir, bu arada sadece bir tesadüf olabilir. In Örnek 2 şey gerçekten tahmin ediliyor, fakat tamamen aynı gelişmeler yaşandı Örnek 1 sadece değişkenlerin değerleri farklı idi.

Gerçek hayattan örnekler

Bunun gerçek örneği, 11 Eylül 2001’de Terörist Saldırıların, Global Bilinç Projesi’nde bilgisayar takma numara üreticilerinin rastgele çizdiği sayılarda “kalıpları” ya da “Moby Dick” te ünlü kişilerin suikastlarıyla ilgili gerçekleri ortaya çıkaran “gizli mesajları” izleyerek tahmin etmektir . ( İncil'deki benzer bulgulardan ilham almıştır ).

Sonuç

Yeterince sıkı bakarsanız, herhangi bir şey için "kalıpları" bulacaksınız. Ancak, bu modeller evren hakkında hiçbir şey öğrenmenize izin vermeyecek ve genel sonuçlara ulaşmanıza yardımcı olmayacaktır. Verilerinize mükemmel şekilde uyacaklar, ancak verilerin kendisinden başka hiçbir şeye sığmayacakları için işe yaramazlar. Herhangi bir makul örnek dışı öngörüde bulunmanıza izin vermezler, çünkü yapacakları şey, verileri tanımlamak yerine taklit etmeleridir.


5
Gerçek hayattan örnekler bu cevabın en üstüne koymanızı öneririm . Aslında soru ile ilgili olan kısım budur - gerisi sosdur.
shadowtalker

8

Gerçek hayatta fazla uyuşmayla sonuçlanan yaygın bir sorun, doğru tanımlanmış bir modelin şartlarına ek olarak, fazladan bir şey daha ekledik: doğru terimlerin alakasız güçleri (veya diğer dönüşümler), alakasız değişkenler veya alakasız etkileşimler.

Doğru belirtilen modelde görünmemesi gereken bir değişken eklerseniz, atlamak istemeyen değişken önyargısını tetiklemekten korktuğunuz için bunu düşürmek istemezseniz, bu çoklu regresyonda olur . Elbette, yanlış yerleştirdiğinizi bilmenin hiçbir yolu yok, çünkü tüm popülasyonu göremiyorsunuz, sadece numunenizi görüyorsunuz, bu yüzden doğru spesifikasyonun ne olduğundan emin olamıyorsunuz. (@Scortchi'nin yorumlarda işaret ettiği gibi, "doğru" model şartnamesi diye bir şey olmayabilir - bu anlamda modellemenin amacı "yeterince iyi" bir şartname bulmaktır; Mevcut verilerden elde edilebileceğinden daha büyük bir şey.) Eğer gerçek dünyaya bir aşırı uydurma örneği istiyorsanız, bu her zaman olur.Tüm potansiyel belirleyicileri bir regresyon modeline atarsınız, başkalarının etkileri bir kez ortaya çıktığında, bunlardan herhangi birinin aslında yanıtla ilişkisi olmazsa.

Bu tip aşırı uyuşma ile iyi haber şu ki, bu alakasız terimlerin dahil edilmesi tahmincilerinizin önyargısını ortaya koymaz ve çok büyük örneklerde alakasız terimlerin katsayıları sıfıra yakın olmalıdır. Ancak, kötü haberler de var: numunenizden gelen sınırlı bilgi artık daha fazla parametre tahmin etmek için kullanıldığından, bunu yalnızca daha az hassasiyetle yapabilir - yani gerçekten ilgili terimlerdeki standart hatalar artar. Bu aynı zamanda, doğru bir şekilde belirlenmiş bir regresyondan elde edilen tahminlerden daha gerçek değerlerden daha fazla olma ihtimalinin yüksek olduğu anlamına gelir, bu da açıklayıcı değişkenleriniz için yeni değerler verildiğinde, fazladan modelden yapılan tahminlerin tahmin edilenden daha az doğru olma eğiliminde olacağı anlamına gelir. doğru belirtilen model.

2010'da 50 ABD eyaleti için log popülasyonuna karşı log GSYİH'nin bir grafiği. 10 durumdan oluşan rastgele bir örnek seçildi (kırmızıyla vurgulandı) ve bu örnek için basit bir doğrusal model ve derece 5 dereceli bir polinom uyuyor. Polinomun, gözlenen verilere düz çizginin yapabileceğinden daha fazla "sıyrılmasını" sağlayan ekstra serbestlik dereceleri vardır. Ancak, 50 bir bütün olarak neredeyse doğrusal bir ilişkiye uymaktadır, bu nedenle polinom modelinin örneklem dışı 40 noktadaki öngörü performansı, özellikle ekstrapolasyon yaparken, daha az karmaşık olan modele kıyasla çok zayıftır. Polinom, daha geniş popülasyon için genelleşmeyen, örneğin rastgele yapısının (gürültüsünün) bir kısmına etkili bir şekilde uyuyordu. Numunenin gözlenen aralığının ötesinde ekstrapolasyonda özellikle zayıftı.bu cevabın bu revizyonu .)

Aşırı karmaşık modelden ekstrapolasyon

Ryi=2x1,i+5+ϵix2x3x1x2x3

require(MASS) #for multivariate normal simulation    
nsample <- 25   #sample to regress 
nholdout <- 1e6  #to check model predictions
Sigma <- matrix(c(1, 0.5, 0.4, 0.5, 1, 0.3, 0.4, 0.3, 1), nrow=3)
df <- as.data.frame(mvrnorm(n=(nsample+nholdout), mu=c(5,5,5), Sigma=Sigma))
colnames(df) <- c("x1", "x2", "x3")
df$y <- 5 + 2 * df$x1 + rnorm(n=nrow(df)) #y = 5 + *x1 + e

holdout.df <- df[1:nholdout,]
regress.df <- df[(nholdout+1):(nholdout+nsample),]

overfit.lm <- lm(y ~ x1*x2*x3, regress.df)
correctspec.lm <- lm(y ~ x1, regress.df)
summary(overfit.lm)
summary(correctspec.lm)

holdout.df$overfitPred <- predict.lm(overfit.lm, newdata=holdout.df)
holdout.df$correctSpecPred <- predict.lm(correctspec.lm, newdata=holdout.df)
with(holdout.df, sum((y - overfitPred)^2)) #SSE
with(holdout.df, sum((y - correctSpecPred)^2))

require(ggplot2)
errors.df <- data.frame(
    Model = rep(c("Overfitted", "Correctly specified"), each=nholdout),
    Error = with(holdout.df, c(y - overfitPred, y - correctSpecPred)))
ggplot(errors.df, aes(x=Error, color=Model)) + geom_density(size=1) +
    theme(legend.position="bottom")

İşte benim bir sonuçtan elde edilen sonuçlarım, fakat farklı üretilen örneklerin etkisini görmek için simülasyonu birkaç kez çalıştırmak en iyisidir.

>     summary(overfit.lm)

Call:
lm(formula = y ~ x1 * x2 * x3, data = regress.df)

Residuals:
     Min       1Q   Median       3Q      Max 
-2.22294 -0.63142 -0.09491  0.51983  2.24193 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept) 18.85992   65.00775   0.290    0.775
x1          -2.40912   11.90433  -0.202    0.842
x2          -2.13777   12.48892  -0.171    0.866
x3          -1.13941   12.94670  -0.088    0.931
x1:x2        0.78280    2.25867   0.347    0.733
x1:x3        0.53616    2.30834   0.232    0.819
x2:x3        0.08019    2.49028   0.032    0.975
x1:x2:x3    -0.08584    0.43891  -0.196    0.847

Residual standard error: 1.101 on 17 degrees of freedom
Multiple R-squared: 0.8297,     Adjusted R-squared: 0.7596 
F-statistic: 11.84 on 7 and 17 DF,  p-value: 1.942e-05

x1R2

>     summary(correctspec.lm)

Call:
lm(formula = y ~ x1, data = regress.df)

Residuals:
    Min      1Q  Median      3Q     Max 
-2.4951 -0.4112 -0.2000  0.7876  2.1706 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)   4.7844     1.1272   4.244 0.000306 ***
x1            1.9974     0.2108   9.476 2.09e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 1.036 on 23 degrees of freedom
Multiple R-squared: 0.7961,     Adjusted R-squared: 0.7872 
F-statistic:  89.8 on 1 and 23 DF,  p-value: 2.089e-09

R2R2

>     with(holdout.df, sum((y - overfitPred)^2)) #SSE
[1] 1271557
>     with(holdout.df, sum((y - correctSpecPred)^2))
[1] 1052217

R2y^y(ve doğru olarak belirtilen modelden daha fazla serbestlik derecesine sahipti, bu yüzden "daha iyi" bir uyum sağlayabilir). Regresyon katsayılarını tahmin etmek için kullanmadığımız ve genel kullanım modelinin ne kadar daha kötü performans gösterdiğini görebildik. Gerçekte doğru belirlenmiş model en iyi tahminleri yapan modeldir. Tahmini performans değerlendirmesini, modelleri tahmin etmek için kullandığımız veri setinin sonuçlarına dayandırmamalıyız. İşte doğru model spesifikasyonu 0'a yakın daha fazla hata üreten, hataların yoğunluğunu göstermektedir:

Bekletme kümesinde tahmin hataları

Simülasyon, ilgili birçok gerçek yaşam durumunu açıkça temsil eder (sadece tek bir tahminciye bağlı olan herhangi bir gerçek yaşam yanıtını hayal edin ve modele yabancı "öngörücüler" eklemeyi düşünün), ancak veri oluşturma işleminde oynayabileceğiniz faydayı vardır , örneklem büyüklükleri, fazla takılan modelin doğası vb. Bu, aşırı uydurmanın etkilerini inceleyebilmenin en iyi yoludur, çünkü gözlemlenen veriler için genel olarak DGP'ye erişiminiz yoktur ve hala inceleyebileceğiniz ve kullanabileceğiniz anlamda "gerçek" verilerdir. İşte denemeniz gereken bazı önemli fikirler:

  • Simülasyonu birkaç kez çalıştırın ve sonuçların nasıl farklılaştığını görün. Büyük örneklerden daha küçük örneklem büyüklüklerini kullanarak daha fazla değişkenlik bulacaksınız.
  • n <- 1e6x1
  • Tahmin değişkenleri arasındaki korelasyonu, varyans-kovaryans matrisinin köşegen dışı elemanları ile oynayarak azaltmayı deneyin Sigma. Sadece pozitif (yarı simetrik olmak üzere) kesin tutmayı unutma. Çok kutupluluk özelliğini azaltıp azaltmadığınızı bulmanız gerekir, takılan model oldukça kötü performans göstermez. Ancak, korelasyonlu tahmin edicilerin gerçek hayatta gerçekleştiğini unutmayın.
  • Donanımlı modelin özelliklerini denemeyi deneyin. Polinom terimlerini eklerseniz ne olur?
  • ydf$y <- 5 + 2*df$x1 + rnorm(n=nrow(df))yxi
  • yx2x3x1df$y <- 5 + 2 * df$x1 + 0.1*df$x2 + 0.1*df$x3 + rnorm(n=nrow(df))x2x3xx1x2x3nsample <- 25x1x2x3nsample <- 1e6Zayıf etkileri oldukça iyi tahmin edebiliyor ve simülasyonlar karmaşık modelin basit olandan daha iyi performans kestirici gücüne sahip olduğunu gösteriyor. Bu, "fazla uydurma" nın hem model karmaşıklığının hem de mevcut verilerin sorunu olduğunu göstermektedir.

1
(-1) Aşırı uydurmanın yalnızca doğru bir şekilde belirtilen bir modelde görünmeyen "alakasız" veya "yabancı" terimlerin dahil edilmesinden kaynaklanmadığını anlamak oldukça önemlidir. Aslında, birçok uygulamada basit bir gerçek model fikrinin pek anlamlı olmadığı ve öngörücü modellemenin zorluğunun, karmaşıklığı mevcut veri miktarıyla orantılı bir model oluşturmak olduğu söylenebilir .
Scortchi

1
Resminizi göçmenlik reformunu destekleyen Kongre
prototip

1
(+1) Düzenlemelerin, anlaşılabilirliği feda etmeden aşırı uydurma açıklamasını geliştirdiğini düşünüyorum.
Scortchi

1
@Aksakal sorusunu cevaplamaya çalıştım: "Aşırı uyarlama için geçerli olan gerçek dünyadan bir örnek bulmak için yardıma ihtiyacım var". OP'nin, kendi örneğini inşa etmek için örtüştüğü ya da “daha ​​doğal bir anlamı” olan yayınlanmış bir kağıt bulması istenip istenmediği açık değildir. Aşırı uyumluluk kötü ise, neden gerçek hayatta birileri ısrarsın ki? Cevabım, bir analistin aşırı belirtilmiş veya belirtilmemiş bir model için hata yapmayı tercih edebileceği (OVB korkusu veya bir ilişkinin eğrisel olduğu şüphesi nedeniyle) böyle bir örnektir. Grafik / simülasyon sadece sonucu gösterir: örnek dışı kötü tahmin
Silverfish

1
@Aksakal Bana göre bir polinom modelinin grafik için "gerçek dışı" olduğu açık değil. Baskın özellik doğrusaldır, ama tamamen doğrusal olduğunu biliyor muyuz ? Varsayımsal bir milyon siyasi birime erişebilseydik ve hayatımı iki şekilde de paylaşmak zorunda kalsaydım, kumar oynamayı tercih ederim, tüm polinom terimlerinin önemsiz olmasından daha hafif bir eğrisel ilişki tespit ederdik. Buna rağmen, düşük n'ye uydurma, yalnızca doğrusal bir model fazla uydurma işleminden kaçınır. (Teorik olarak sınırsız "devletler ABD" popülasyonundan örnekleme zorluğu nedeniyle bunu çözemeyiz; bu benzetilmiş verilerin bir avantajıdır!)
Silverfish

4

Bunu kendim anlamaya çalışırken, gerçek nesneleri tanımlamakla analojiler hakkında düşünmeye başladım, bu nedenle genel fikri anlamak istiyorsanız, alabileceğiniz en "gerçek dünya" olduğunu düşünüyorum:

Birine sandalye kavramını tanımlamak istediğinizi ve böylece buldukları yeni bir nesnenin sandalye olup olmadığını tahmin etmelerini sağlayan kavramsal bir model elde etmelerini istediğinizi söyleyin. Ikea'ya gidip bir sandalye örneği alacak ve bunları iki değişken kullanarak tanımlamaya başlayacaksınız: oturabileceğiniz 4 ayaklı bir nesne. Bu da bir tabureyi, yatağı veya başka pek çok şeyi açıklayabilir. Modeliniz çok az değişkenli karmaşık bir dağıtımı denemek ve modellemek üzereymiş gibi gösterişsizdir - birçok başkan olmayan şey sandalye olarak tanımlanır. Öyleyse, değişken sayısını arttıralım, örneğin nesnenin bir sırtının olması gerektiğini ekleyelim. Artık, sandalyelerinizi tanımlayan oldukça kabul edilebilir bir modeliniz var, ancak yeni bir nesnenin tanımlanmasına izin verecek kadar genel. Modeliniz verileri açıklar ve tahminlerde bulunabilir. Ancak, tüm sandalyelerin siyah veya beyaz olduğu ve ahşaptan yapılmış bir setiniz olduğunu söyleyin. Bu değişkenleri modelinize dahil etmeye karar verdiniz ve aniden plastik sarı bir sandalyeyi sandalye olarak tanımlamayacak. Bu nedenle, modelinize fazla uydurdunuz, genel olarak sandalyelerin özellikleri gibi veri kümenizin özelliklerini eklediniz, (örneğin, "gürültüyü" "sinyal" olarak tanımladıysanız, örneğin rasgele değişimini örnek olarak yorumlayarak bütün "gerçek dünya sandalyeleri" nin bir özelliği). Böylece, numunenizi artırabilir ve bazı yeni malzeme ve renkler eklemeyi ya da modellerinizdeki değişken sayısını azaltmayı umursunuz. t plastik sarı sandalyeyi sandalye olarak tanımlar. Bu nedenle, modelinize fazla uydurdunuz, genel olarak sandalyelerin özellikleri gibi veri kümenizin özelliklerini eklediniz, (örneğin, "gürültüyü" "sinyal" olarak tanımladıysanız, örneğin rasgele değişimini örnek olarak yorumlayarak bütün "gerçek dünya sandalyeleri" nin bir özelliği). Böylece, numunenizi artırabilir ve bazı yeni malzeme ve renkler eklemeyi ya da modellerinizdeki değişken sayısını azaltmayı umursunuz. t plastik sarı sandalyeyi sandalye olarak tanımlar. Bu nedenle, modelinize fazla uydurdunuz, genel olarak sandalyelerin özellikleri gibi veri kümenizin özelliklerini eklediniz, (örneğin, "gürültüyü" "sinyal" olarak tanımladıysanız, örneğin rasgele değişimini örnek olarak yorumlayarak bütün "gerçek dünya sandalyeleri" nin bir özelliği). Böylece, numunenizi artırabilir ve bazı yeni malzeme ve renkler eklemeyi ya da modellerinizdeki değişken sayısını azaltmayı umursunuz.

Bu, daha fazla inceleme altında basit bir analoji ve çözüm olabilir, ancak genel bir kavramsallaştırma olarak çalıştığını düşünüyorum ... Bazı kısımların açıklığa kavuşturulması gerekiyorsa bana bildirin.


“Gürültü” ve “sinyal” fikrini ve fazladan takılan modelin gürültüyü tarif ettiği gerçeğini daha ayrıntılı olarak açıklayabilir misiniz, çünkü bunu anlamada sorun yaşıyorum.
quirik

4

Prediktif modellemede, mevcut olan ve gelecekteki verilere genelleştirilebilecek eğilimleri keşfetmek için eldeki verileri kullanmaktır. Modelinize küçük, önemli olmayan bir etkisi olan değişkenleri dahil ederek, bu fikri bırakıyorsunuz. Yaptığınız şey, örnekleminizde gerçek ve temel bir eğilim yerine rastgele gürültü nedeniyle var olan belirli eğilimleri göz önünde bulundurmaktır. Başka bir deyişle, çok değişkenli bir model, sinyali keşfetmek yerine gürültüye uyar.

İşte neden bahsettiğim hakkında abartılı bir örnek. Burada noktalar gözlemlenen veriler ve çizgi bizim modelimiz. Şuna bir bak, ne güzel bir model! Peki, trendi gerçekten keşfettik mi, yoksa sadece gürültüye uygun muyuz? Muhtemelen ikincisi.

görüntü tanımını buraya girin


4

Sporda, geçmiş sonuçları açıklamaya yönelik kalıpları gelecekteki sonuçları tahmin etmek için belirsiz ya da en az belirsiz bir güce sahip olmayan faktörlerle açıklamak için kullanılan kalıpları tanımlamak bir tür aşırı uyum şeklidir. Bu "kalıpların" ortak bir özelliği, çoğu zaman çok az sayıda olaya dayanmasıdır, böylece saf şans muhtemelen kalıp için en makul açıklamadır.

Örnekler şunları içerir ("alıntılar" benim tarafımdan yapılır, ancak çoğu kez benzerdir)

Antrenör büyülü kırmızı ceketi giymeye başladığından beri A Takımı tüm X maçlarını kazandı.

Benzer:

Maçlar sırasında kendimizi tıraş olmayacağız, çünkü bu geçmiş X oyunlarını kazanmamıza yardımcı oldu.

Daha az batıl inançlı, ama aynı zamanda fazladan takılma şekli:

Borussia Dortmund, bir önceki Bundesliga deplasman maçını kaybettiği iki golden fazla gol atamayan ve en az bir kere gol atan Ispanya rakibini İspanyol bir rakiple kaybetmedi.

Benzer:

Roger Federer, o yılki Avustralya Açık turnuvasında en azından yarı finallere ulaştığında, Avrupa Şampiyonlarına yaptığı tüm Davis Kupası maçlarını kazandı.

İlk ikisi oldukça açık saçma (en azından benim için). Son iki örnek örneklemde (yani geçmişte) mükemmel şekilde geçerli olabilir, ancak bu "bilginin" Dortmund'u 4 mağlup ettiği takdirde Madrid'i mağlup etme ihtimalini büyük ölçüde etkilemesine izin verecek bir rakibe karşı bahis yapmaktan memnuniyet duyarım: Bir önceki Cumartesi günü Schalke'de 1 veya Federer, o yıl Avustralya Açık'ı kazanmış olsa bile, Djokovic'i yeniyor.


3

İşte bir "gerçek dünya" örneği, araştırmada birinin karşılaştığı anlamında değil, istatistiki spesifik terimler olmadan gündelik kavramları kullandığı anlamında. Belki de bu şekilde söylenmesi, eğitimi başka alanlarda olan bazı insanlar için daha yararlı olacaktır.

Nadir bir hastalığı olan hastalar hakkında veri içeren bir veritabanınız olduğunu hayal edin. Tıp fakültesi mezunuyum ve bu hastalık için risk faktörlerini tanıyıp tanımayacağınızı görmek istiyorsunuz. Bu hastanede 8 hasta vakası oldu ve onlar hakkında 100 rastgele bilgi kaydı kaydettiniz: yaş, ırk, doğum sırası, ne olursa olsun çocukken kızamık olmuşlar. Ayrıca, bu hastalığı olmayan 8 hastanın verilerini kaydettiniz.

Risk faktörleri için aşağıdaki sezgisel yöntemi kullanmaya karar veriyorsunuz: eğer bir hastalık hastalıklı hastalarınızdan birinde verilen bir değeri alıyorsa, ancak kontrollerinizin 0'ında bir risk faktörü olarak düşüneceksiniz. (Gerçek hayatta daha iyi bir yöntem kullanırsınız, ancak basit tutmak istiyorum). Hastalarınızın 6'sının vejeteryan olduğunu (ancak kontrollerin hiçbirinin vejeteryan olmadığını), 3'ünün İsveçli atalarına sahip olduğunu ve ikisinin kekemeli bir konuşma yetmezliği olduğunu tespit ettiniz. Diğer 97 faktörün dışında, birden fazla hastada ortaya çıkan hiçbir şey yoktur, ancak kontroller arasında mevcut değildir.

Yıllar sonra, başka biri bu öksüz hastalığa ilgi duyuyor ve araştırmanızı çoğaltıyor. Diğer hastanelerle veri paylaşımı olan daha büyük bir hastanede çalıştığı için, 8 vakanızın aksine 106 vaka hakkında veri kullanabilir. Stutterers prevalansının hasta grubunda ve kontrol grubunda aynı olduğunu; kekemelik bir risk faktörü değildir.

Burada olan, küçük grubunuzun rastgele şans eseri% 25 kekemeye sahip olduğu. Sezgiseliniz, bunun tıbbi olarak alakalı olup olmadığını bilmenin hiçbir yolu yoktu. Modele dahil edilebilecek kadar "ilginç" verilerinde bir örüntü düşündüğünüzde karar vermeniz için kriterler verdiniz ve bu ölçütlere göre kekemelik yeterince ilginçti.

Modeliniz fazlaca donatıldı, çünkü yanlışlıkla gerçek dünyada gerçekten alakalı olmayan bir parametre içeriyordu. Örneğinize uyuyor - 8 hasta + 8 kontrol - çok iyi, ama gerçek dünya verilerine uymuyor. Bir model, örneğinizi gerçeği tanımladığından daha iyi bir şekilde tanımladığında, buna donanım eklenir.

Özelliği olan 8 hastadan 3'ünden birini seçmiş olsaydınız, olmazdı - ama gerçekten ilginç bir şeyi kaçırmak için daha yüksek bir şansınız olurdu. Özellikle, birçok hastalığın risk faktörü sergileyen küçük bir bölümünde meydana gelen tıpta, yapılması zor bir işlemdir. Ve bundan kaçınılması gereken yöntemler var (temel olarak ikinci bir örnekle karşılaştırın ve açıklama gücünün aynı kaldığını veya düşüp düşmediğini görün), ancak bu başka bir soru için bir konudur.



3

İşte, sürdürmeme yardım ettiğim ve sonra (başarısızlıkla) kaçınmaya çalıştığım aşırı canlandırma örneği.

Her biri 50'den fazla veri noktasına sahip olmayan birkaç bağımsız, iki değişkenli zaman serisine sahiptim ve modelleme projesi her birine bir vektör otoregresyon (VAR) yerleştirmeyi içeriyordu. Gözlemler arasında düzenlenme, varyans bileşenlerini tahmin etme veya benzeri bir şey yapılmaya çalışılmamıştır. Zaman noktaları tek bir yıl boyunca ölçülmüş, bu yüzden veriler her zaman serisinde sadece bir kez ortaya çıkan her türlü mevsimsel ve döngüsel etkilere maruz kalmıştır.

Verilerin bir alt kümesinde, verilerin geri kalanına kıyasla inanılmaz derecede yüksek bir Granger nedensellik oranı görülmüştür. Nokta kontrolleri, bu alt kümede bir veya iki gecikme yaşanmasına rağmen pozitif sivri uçların ortaya çıktığını, ancak her iki sivri doğrudan dış kaynaklı bir kaynaktan kaynaklandığı ve bir sivriğin diğerine neden olmadığı açıkça ortaya çıktı. Bu modelleri kullanan örneklem dışı tahminler muhtemelen oldukça yanlıştır, çünkü modeller fazladan takılı kalıyordu: çivileri "verinin geri kalan kısmına ortalayarak" düzeltmek "yerine, çivilerin gerçekte araba sürdüğü yeterince az gözlem vardı. tahminler.

Genel olarak, projenin kötü gittiğini düşünmüyorum, ancak olabilecek kadar faydalı olan sonuçlar ürettiğini sanmıyorum. Bunun sebebi, çok sayıda bağımsız VAR prosedürünün, sadece bir veya iki gecikmeyle bile, veri ve gürültü arasında ayrım yapmakta zorlanacak bir zaman olmasıydı ve bu nedenle sonuncusu hakkında bilgi vermek pahasına uyuyordu. eski.


1

Bu konudaki pek çok zeki insan --- istatistiklerde benden çok daha fazla bilgili. Fakat yine de meslekten olmayan örneğe kolay anlaşılır bir şey göremiyorum. Cumhurbaşkanlığı örneği, tipik fazladan takma açısından tasarıyı pek etkilemiyor, çünkü vahşi iddialarının her birinde teknik olarak fazla takılıyor olsa da, genellikle sadece bir unsuru değil, verilen gürültüyü örten bir model.

Wikipedia'daki bias-varyans tradeoff açıklamasındaki çizelgeyi çok beğendim: http://en.wikipedia.org/wiki/Bias%E2%80%93variance_tradeoff

(En alttaki grafik aşırı uydurma örneğidir).

Mumbo-jumbo gibi görünmeyen gerçek bir dünya örneği düşünmeye zorlanıyorum. Buradaki fikir, verinin ölçülebilir, anlaşılabilir değişkenlerin - kısmen rastgele gürültünün neden olduğu kısımdır. Bu gürültüyü bir model olarak modellemeye çalışmak size yanlışlık verir.

Klasik bir örnek, MS Excel'de REL2'ye dayalı SOLELY tabanlı modellemedir (ne kadar saçma olursa olsun, polinomları kullanan verilere kelimenin tam anlamıyla mümkün olduğunca yakın bir denklem / modele uymaya çalışıyorsunuz).

Diyelim ki dondurma satışlarını sıcaklığın bir fonksiyonu olarak modellemeye çalışıyorsunuz. "Gerçek dünya" verileriniz var. Verileri çiziyorsunuz ve R ^ 2'yi maksimize etmeye çalışıyorsunuz. Gerçek dünya verilerini kullanarak bulacaksın, en yakın uygunluk denklemi doğrusal ya da ikinci dereceden değil (mantıklı olacak). Neredeyse tüm denklemler gibi, eklediğiniz daha saçma polinom terimleri (x ^ 6 -2x ^ 5 + 3x ^ 4 + 30x ^ 3-43.2x ^ 2-29x) - verilere daha yakın. Peki bu, dondurma satışlarıyla sıcaklığı nasıl anlamlı bir şekilde ilişkilendirir? Bu saçma polinomu nasıl açıklarsın? Gerçek şu ki, gerçek model değil. Verileri değiştirdin.

Gürültü için hesaba katılmıyorsunuz - bu durum satış promosyonları veya kozmosta kanatlarını çırpan bir kelebek gibi diğer bazı değişkenler veya "gürültüler" nedeniyle olabilir (hiçbir zaman tahmin edilemez) --- ve sıcaklığa dayalı olarak modellenmeye çalıştı. Şimdi, eğer gürültünüz / hatanız sıfıra gelmiyorsa ya da otomatik olarak bağıntılıysa, vb. Varsa, orada daha fazla değişken olduğu anlamına gelir --- ve sonunda sonunda rastgele dağılmış gürültüye ulaşırsınız, ama yine de, elimden gelenin en iyisi açıkla.


2
Cumhurbaşkanlığı komik ilerleyen 'modeller' do tüm verilen gürültü uygun.
Ben Voigt

Çizgi roman, saçma kuralların tüm geçmiş başkanları doğru şekilde öngörmesine rağmen bence en fazla uyandıran senaryolara aykırı değil. Tahminlerin çoğunda iki değişkenli bir değişken öngörülmemektedir. Ayrıca, mizahi bir şekilde bir sonraki seçimlerde kırılacak olan kurala da değinmektedir - bir başka deyişle, üst üste binme modeli tüm zaman boyunca yanlış garanti edilmekte ve geleceğin mükemmel bir tahmincisi olmaktadır. Çoğu donatı modeli, fazlalık olmadığı için test edilebilecek 1 hatalı değişkene dayanmaz - genellikle modelde çok fazla değişkene dayanır, bunların hepsi de R ^ 2'yi azaltmak için atılır.
John Babson

0

Çoğu optimizasyon yöntemi, hiperparametreler gibi bazı geçiştirme faktörlerine sahiptir. Gerçek bir örnek:

Nmin=5,  finc=1.1,  fdec=0.5,  αstart=0.1,  fα=0.99.

Bu fazla uydurma mı , yoksa sadece belirli bir dizi soruna mı uyuyor?


0

Geçen yılki sınava verilen yanıtları ezberleyerek bir sınava çalışmak.


0

En sevdiğim, 1998'de Dünya Kupası futbol yarışmasından önce keşfedilen “3964 formülü”:

1970 ve 1994 yıllarında Brezilya şampiyonluğu kazandı. Bu 2 sayıyı toplayın, 3964 elde edersiniz; Almanya 1974 ve 1990'da tekrar kazandı ve 3964'e yükseldi; Arjantin’in 1978 ve 1986’da kazandığı aynı şey (1978 + 1986 = 3964).

Bu çok şaşırtıcı bir gerçektir, ancak herkes gelecekteki tahminlerini bu kurala dayandırmanın uygun olmadığını görebilir. Ve gerçekten de, kural 1998’deki Dünya Kupasını kazananların 1966 + 1998 = 3964’ten beri İngiltere olması ve İngiltere’nin 1966’da kazanması gerektiği şeklinde.


-2

Biraz sezgisel, ama belki yardımcı olur. Yeni bir dil öğrenmek istediğinizi varsayalım. Nasıl öğrenirsin Bir kurstaki kuralları öğrenmek yerine, örnekler kullanırsınız. Özellikle, TV şovları. Suç şovlarını seviyorsun ve birkaç polis şov dizisini izledin. Sonra başka bir suç şovu izler ve bundan bir dizi izlersiniz. Gördüğün üçüncü programa göre - hemen hemen her şeyi biliyorsun, sorun değil. İngilizce altyazılara ihtiyacınız yok.

Ama sonra yeni öğrendiğiniz dili bir sonraki ziyaretinizde sokakta deneyin ve “memur! Bu adam çantamı alıp o kadını vurdu!” Demekten başka bir şey hakkında konuşamazsınız. 'Eğitim hatanız' sıfırken, 'sınav hatası', dili 'fazla uydurma' nedeniyle, yalnızca sınırlı bir kelime alt grubunu inceleyerek ve bunun yeterli olduğunu varsayarak yüksektir.


8
Bu fazlaca değil, sadece bir dil altını öğrenmek. Aşırı suç, suçları izledikten sonra, suçla ilgili tüm konularda İngilizce ile örtüşen, ancak başka bir konu hakkında konuşurken tamamen saçma (ya da belki Çince) bir bütün, ama garip bir dil öğrendiğinizi gösterir.
amip
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.