Ekstrapolasyonun nesi yanlış?


68

İstatistik derslerinde oturumu ekstrapolasyonun neden kötü bir fikir olduğuna dair bir duruşma olarak oturduğumu hatırlıyorum. Ayrıca, bu konuda yorum yapan çevrimiçi çeşitli kaynaklar vardır. Burada bir de söz var .

Biri neden ekstrapolasyonun kötü bir fikir olduğunu anlamama yardımcı olabilir mi? Öyleyse, tahmin tekniklerinin istatistiksel olarak geçersiz olmadığı nasıldır?


3
@Firebug Mark Twain bunun hakkında söyleyecek bir şeyleri vardı. İlgili bölüm, cevabımın sonuna yakın istatistik.stackexchange.com/a/24649/919 adresinde verilmiştir .
whuber

1
@whuber Şu an hakkında düşünmek tam olarak ekstrapolasyon değil sanırım. Diyelim ki, özelliği bir hafta boyunca verileri tahmin etmek için bir algoritmayı düzgün şekilde eğitiyoruz ve doğrulıyoruz. Doğru yeniden örnekleme yapmak (ve ayarlanması, eğer ayarlanacak hiperparametreler varsa), o zaman neyin yanlış olduğunu göremiyorum, eğer bir cevabınız varsa ve bu cevabın güvenini de bilmelisiniz. Şimdi, algoritmanızı haftaya ve haftaya göre eğitirseniz, bir yılı geleceğe doğru olarak tahmin etmeyi bekleyemezsiniz. Karışıklık için üzgünüm.
Firebug

7
@Firebug Özür dilemenize gerek yok - düşünceleriniz yararlı açıklama bilgileri içeriyor. Onları okuduğumda, "extrapolate" in bir öngörme ayarında birden fazla yorumu olabileceğini öne sürüyorlar. Birincisi, zamanın bir "ekstrapolasyonunu" içermesidir. Ancak standart zaman serisi modellerine baktığınızda, özellikle zamanın açık değişkenler olmadığı durumlarda gelecekteki değerleri önceki değerler açısından tahmin ederler . Bu önceki değerler geçmiş değerlerin aralığında kaldığında , model hiçbir ekstrapolasyon gerçekleştirmez! Burada görünen paradoksun bir çözümü olabilir.
whuber


2
Zorunlu xkcd'nin ortaya çıkmasının ne kadar sürdüğünü hayal kırıklığına uğrattım
Duncan X Simpson

Yanıtlar:


89

Bir regresyon modeli genellikle ekstrapolasyon için kullanılır, yani modele sığdırmak için kullanılan tahmin değişkeninin değerleri dışında kalan bir girişe verilen cevabı tahmin eder. Ekstrapolasyon ile ilgili tehlike aşağıdaki şekilde gösterilmiştir. "true" değerinin azaldığı yerde tahmin edilen çizgiyi gösteren grafik

Regresyon modeli “yapım gereğidir” bir enterpolasyon modelidir ve doğru şekilde gerekmedikçe ekstrapolasyon için kullanılmamalıdır .


1
Bu, ekstrapolasyona karşı korkunç bir örnek. Düz regresyon çizgisi, veri noktalarına curvy gerçek işlevinizden çok daha iyi uyuyor.
horaceT

9
"Düz regresyon çizgisi veri noktalarına curvy gerçek işlevinizden çok daha iyi uyuyor" Bu ifade yanlıştır. Gerçek regresyon fonksiyonu için RSS, basit regresyon çizgisi için
RSS’den

Alınan nokta ve haklı olabilirsiniz. Ancak, noktalar kümesinden bakılırsa, birinin gerçek işlevi çıkarmasına imkân yoktur.
horaceT

27
Kesinlikle. Ve bu yüzden ekstrapolasyon kötü bir fikir olabilir.
Kostia

“Regresyon modeli“ inşaat yoluyla ”bir enterpolasyon modelidir” -> Sanırım enterpolasyonla tam olarak aynı sorunu yaşayabiliriz (gerçekleşmesi daha az olası olsa bile)
Metariat

88

Bu xkcd çizgi roman hepsini açıklar.

xkcd çizgi

Cueball (sopalı adam) veri puanlarını kullanarak, kadının önümüzdeki ayın sonunda "dört düzine" koca alacağını ileri sürdü ve bu ekstrapolasyonu toplu olarak düğün pastası satın alma sonucuna götürmek için kullandı.

Düzenleme 3: "Yeterli veri noktasına sahip değil" diyenlere göre , işte başka bir xkcd çizgi romanı :

xkcd çizgi

Burada, zaman içinde "sürdürülebilir" kelimesinin kullanımı, bir yarı-log arsa üzerinde gösterilmektedir ve veri noktalarının ileri sürülmesi, gelecekte "sürdürülebilir" kelimesinin ne kadar sıklıkla ortaya çıkacağına dair makul olmayan bir tahmin almaktadır.

Düzenleme 2: "Tüm geçmiş veri noktalarına da ihtiyacın var" diyenler için, bir başka xkcd çizgi romanı: xkcd çizgi

Burada tüm geçmiş veri noktalarımız var ancak Google Earth’ün çözünürlüğünü doğru bir şekilde tahmin edemiyoruz. Bunun da yarı log grafiği olduğuna dikkat edin.

Düzenleme: Bazen, en kuvvetli olanlar bile (r = .9979, bu durumda) korelasyonlar sadece düz yanlıştır.


Başka kanıtlar olmadan ekstrapolasyon yaparsanız, aynı zamanda korelasyonu ihlal etmeniz nedensellik anlamına gelmez ; istatistik dünyasında bir başka büyük günah.

Bununla birlikte, X'i Y ile fazladan değerlendiriyorsanız, X'i yalnızca Y ile doğru bir şekilde (gereksinimlerinizi karşılayacak kadar) tahmin edebildiğinizden emin olmalısınız. Neredeyse her zaman, X'i etkileyen birden çok faktör vardır.

Nassim Nicholas Taleb'in sözleriyle açıklayan başka bir cevabın bağlantısını paylaşmak istiyorum .


14
xkcd, karşılaşılabilecek her matematik / istatistik problemi hakkında şaka yapıyor, değil mi?
Ander Biguri,

24
Bu fikir enterpolasyona karşı bir argüman olarak da kullanılabilir: "dün gece 0,5 kocan vardı".
JiK,

3
@JiK Bildiğiniz tek şey şuanda bir şeye sahip olduğuysa ve iki gün önce hiçbir şeye sahip değildi, bu kötü bir tahmin değil ;-)
Dennis Jaheruddin

9
Sürdürülebilir sürdürülebilir Sürdürülebilir sürdürülebilir sürdürülebilir sürdürülebilir Sürdürülebilir sürdürülebilir. en.wikipedia.org/wiki/…
Meni Rosenfeld

1
daha fazla xkcd, insanlar!
noɥʇʎԀʎzɐɹƆ

24

"Tahmin, özellikle gelecekle ilgiliyse çok zor". Alıntı, bir biçimde birçok kişiye atfedilir . Aşağıdaki "extrapolation" da "bilinen aralığın dışında tahmin" ile ve tek boyutlu bir ortamda bilinen bir geçmişten bilinmeyen bir geleceğe ekstrapolasyon ile sınırlıyorum.

Öyleyse ekstrapolasyonda yanlış olan ne? İlk olarak, geçmişi modellemek kolay değildir . İkincisi, geçmişten bir modelin gelecek için kullanılıp kullanılamayacağını bilmek zor . Her iki iddiada da nedensellik veya ergodiklik, açıklayıcı değişkenlerin yeterliliği vb. İle ilgili oldukça derinlemesine sorular bulunmaktadır. Yanlış olan, çok fazla ek bilgi olmadan, farklı bağlamlarda düzgün çalışan tek bir ekstrapolasyon şeması seçmenin zor olmasıdır.

x

Anscombe dörtlüsü

Bununla birlikte, tahminler bir dereceye kadar giderilebilir. Diğer cevaplara ek olarak, birkaç bileşen pratik ekstrapolasyona yardımcı olabilir:

  1. npfp(n)pn
  2. Birkaç ekstrapolasyon modelini kullanabilir ve bunları birleştirebilir veya en iyisini seçebilirsiniz ( Tahminleri birleştirmek , J. Scott Armstrong, 2001). Son zamanlarda, optimum kombinasyonları üzerine bir takım çalışmalar olmuştur (gerekirse referanslar verebilirim).

Son zamanlarda, simülasyon alt sistemlerinin gerçek zamanlı bir ortamda iletişimine yönelik değer bulma değerleri için bir projeye katıldım. Bu alandaki dogma, ekstrapolasyonun kararsızlığa neden olabileceği yönündeydi. Aslında, yukarıdaki iki bileşenin birleştirilmesinin çok etkili olduğunu, fark edilebilir bir dengesizlik olmadan (henüz resmi bir kanıt olmadan ve halen gözden geçirilmekte olduğunu ) fark ettik . Ve ekstrapolasyon basit polinomlarla çalıştı, çok düşük hesaplama yükü ile işlemlerin çoğu önceden hesaplandı ve arama tablolarında saklandı.

Son olarak, extrapolation komik çizimi öne sürdüğü için, doğrusal regresyonun geriye dönük etkisi aşağıdadır:

Sevgi ve doğrusal regresyon ile eğlence


+1 Güzel cevap. Bu web sitesine göre , Bohr’un dediği gibi görünmüyor. Nadir ama genel bir Danimarka atasözü olması daha muhtemel görünüyor.
usεr11852, Reinstate Monic’in

@ usεr11852 Muhtemelen "hiç böyle demedi"? Bu yüzden “atfedilen” dedim, daha temkinli olmalı mıyım?
Laurent Duval

2
Ben demedim hiç bir parçasıdır. Bu yorumu yaptım, çünkü sözlerin bir Danimarka atasözü olması daha muhtemel göründüğü göz önüne alındığında, onu belli bir (son derece sembolik) olarak nitelendiren Dane biraz fazla fatura gibi görünüyor - özellikle de Bohr'un söylediğine dair hiçbir kayıt olmadığı söyleniyor. Asıl yazar, yarının yakalanması üzerine yorum yapan isimsiz bir balıkçı olabilir! Buradaki küçük adam için kök salıyorum! : D
usεr11852, Reinstate Monic’in

2
Alıntı efsaneleri de geçmiş olarak modellemek çok zor.
Laurent Duval

3
Kuşkusuz soru her iki kelimeyi de kullanır: bütün mesele, “öngörmenin” bir “dış değer bulma” biçimi olarak kabul edilip edilmeyeceğidir. Giriş yorumlarınıza göre, dış geleceği "geleceği modellemek" için geçmişi kullanmak gibi tanımlıyorsunuz. Her birinin açık ve belirgin tanımlarını sunana kadar cevabınız yanlış anlaşılabilir.
whuber

17

Her ne kadar bir modelin uyumu " iyi " olsa da, veri aralığının ötesindeki dış değerleme kuşkuyla ele alınmalıdır. Bunun nedeni, çoğu durumda ekstrapolasyonun (ne yazık ki ve kaçınılmaz olarak), verilerin gözlemlenen desteklerinin ötesindeki davranışlarıyla ilgili denenmeyen varsayımlara dayanmasıdır.

xÖut

Ek bir uyarı, birçok parametrik olmayan tahmin tekniğinin doğal olarak ekstrapolasyona izin vermemesidir. Bu problem, takılan çizgiyi tutturmak için daha fazla düğüm bulunmadığı yerlerde, spline düzleştirme durumunda belirgindir.

Ekpolasyonun kötülükten uzak olduğunu vurgulamama izin ver. Örneğin, İstatistiklerde yaygın olarak kullanılan sayısal yöntemler (örneğin Aitken'in kare saydam işlemi ve Richardson's Extrapolation ), gözlenen veriler için analiz edilen işlevin temel davranışının, işlev desteği boyunca sabit kaldığı fikrine dayanan esas olarak ekstrapolasyon şemalarıdır.


εΔ2

15

Diğer cevapların aksine, akılsız bir şekilde kullanılmadığı sürece dış değer bulma konusunda yanlış bir şey olmadığını söyleyebilirim. İlk olarak, fazla değerin şu olduğuna dikkat edin :

Orijinal gözlem aralığının ötesinde, bir değişkenin değerini, diğer değişkenle olan ilişkisine dayanarak tahmin etme süreci.

... bu yüzden çok geniş bir terim ve basit doğrusal ekstrapolasyondan doğrusal regresyona, polinom regresyonuna ve hatta bazı ileri zaman serisi tahmin yöntemlerine kadar birçok farklı metot bu tanıma uygundur. Aslında, dış tahmin, tahmin ve tahmin yakından ilişkilidir. İstatistiklerde genellikle tahminler ve tahminler yaparız . Bu aynı zamanda bahsettiğiniz bağlantıyı söyler:

İstatistiklerin 1. gününden itibaren, ekstrapolasyonun büyük bir hayır-hayır olduğunu, ancak tam olarak tahmin etmenin ne olduğunu öğretiyoruz.

Tahminde bulunmak için birçok ekstrapolasyon yöntemi kullanılır , ayrıca, bazı basit yöntemler küçük örneklerle oldukça iyi çalışır , bu yüzden karmaşık olanlardan daha çok tercih edilebilir. Sorun, diğer cevaplarda da belirtildiği gibi, ekstrapolasyon yöntemini yanlış kullandığınızda ortaya çıkar.

Örneğin, birçok çalışma, batı ülkelerinde cinsel başlangıç ​​yaşının zamanla azaldığını göstermektedir. ABD'deki ilk ilişkiye girme yaşı ile ilgili aşağıdaki komplolara bakınız. İlk ilişkinin yaşını tahmin etmek için kör bir şekilde doğrusal regresyon kullanırsak, bazı yıllarda sıfırın altına düşmesini öngörürüz (buna göre ilk evlilik ve ilk doğumdan sonra ölümden sonra gerçekleşir) ... Ancak, yapmanız gerekirse Bir yıllık tahmini tahmin, daha sonra doğrusal regresyonun eğilim için oldukça kesin kısa vadeli tahminlere yol açacağını tahmin ediyorum.

görüntü tanımını buraya girin

(kaynak guttmacher.org )

Tüm modeller yanlış , ekstrapolasyon da yanlış çünkü kesin tahminler yapmanıza izin vermiyor. Diğer matematiksel / istatistiksel araçlar olarak, yaklaşık tahminler yapmanıza olanak sağlayacaktır . Ne kadar doğru olacağının kapsamı, sahip olduğunuz verilerin kalitesine, sorununuza uygun yöntemleri kullanarak, modelinizi tanımlarken yaptığınız varsayımlara ve diğer birçok faktöre bağlıdır. Ancak bu, bu yöntemleri kullanamayacağımız anlamına gelmez. Yapabiliriz, ancak sınırlamalarını hatırlamamız gerekir ve verilen bir problem için kalitelerini değerlendirmeliyiz .


4
Regresyon için kullandığınız veriler 1980'lerin başında sona erdiğinde, ekstrapolasyonun o tarihten ne kadar uzun süre işe yarayacağını kolayca test edebilirsiniz.
gerrit

@gerrit Katılıyorum, ancak ne yazık ki uygun veri bulamadım. Fakat eğer biri bana gösterebilirse, böyle bir karşılaştırma için cevabımı güncellemekten memnuniyet duyarım.
Tim

Bu durumda, ilk birkaç yaşının son birkaç yılda artması nedeniyle ekstrapolasyon başarısız olur. (Ancak bununla ilgili veriler her zaman doğum yıllarını birkaç on yıl boyunca bekletir, bariz olması gereken nedenlerden dolayı.)
David Manheim

13

Nassim Taleb'in (Bertrand Russell'ın önceki bir örneğinin uyarlaması olduğu) örneklerini çok beğendim:

Her gün beslenen bir hindi düşünün. Her bir besleme kuşun, bir politikacının dediği gibi "ırkının en iyi çıkarlarını arayan" insan ırkının dost üyeleri tarafından her gün beslenmenin genel yaşam kuralı olduğu inancını arttıracaktır. Şükran Günü'nden önce Çarşamba öğleden sonraları, türkiye'de beklenmeyen bir şey olacak. Bir inanç revizyonuna uğrayacak.

Bazı matematiksel analoglar aşağıdaki gibidir:

  • Bir fonksiyonun ilk birkaç Taylor katsayısı bilgisi her zaman sonraki katsayıların varsayılan şeklinizi takip edeceğini garanti etmez.

  • Diferansiyel denklemin başlangıç ​​koşullarının bilgisi her zaman asimptotik davranışı hakkındaki bilgiyi garanti etmez (örneğin, Lorenz'in bazen "kelebek etkisi" olarak adlandırılan denklemler)

İşte konuyla ilgili güzel bir MO iplik .


3
… Ve elbette, Taleb ahlaki derse dikkat çekmek zorunda : “hindi olma”! Bu bağlamda: dikkatsiz bir dışlayıcı olma ve kocaların günahına boyun eğme.
JM, istatistikçi değil

@ uoɥʇʎPʎzɐɹC, istemedim ama teşekkür ederim!
JM bir istatistikçi değil

Çapraz onaylanmış itibar için gerçekten bir kullanımınız yok - ve kimse cevabınızı görmedi ve bu gerçekten iyi oldu. Keyfini çıkarın!
noɥʇʎԀʎzɐɹƆ

12

İsterseniz aşağıdaki hikayeye göz atın.

Ayrıca bir İstatistik kursunda oturduğumu da hatırlıyorum ve profesör bize ekstrapolasyonun kötü bir fikir olduğunu söyledi. Sonra bir sonraki sınıf sırasında bize yine kötü bir fikir olduğunu söyledi; Aslında, iki kez söyledi.

Dönemin geri kalanı için hastaydım, ama çok fazla malzemeyi özleyemediğimden emindim, çünkü geçen hafta bu adam kesinlikle insanlara tekrar tekrar kötü bir fikir olduğunu söylemekten başka hiçbir şey yapmamış olmalıydı. .

Garip bir şekilde, sınavda çok yüksek puan almadım.


6
Soru “ekstrapolasyonun nesi yanlış?” Diye soruyor. Ekstrapolasyonun neden kötü bir fikir olabileceği konusunda sebepler veren cevaplar arıyoruz.
Robert Long

8
@RobertLong: Bu aslında bir çeşit meta / şaka cevabı ve xkcd.com/605'e çok benziyor - yine de bir cevaptan daha iyi bir yorum olabilir.
Neil Slater

@NeilSlater: Yorumunuzu bir cevap olarak
yayınlamanız gerekirdi

@RobertLong: Bu böyle bir cevap. Sadece bir benzetme biçimine sahiptir.
einpoklum

2
Modelinizin üstel olduğu açık değil.
gerrit

6

Soru sadece istatistiksel değil, aynı zamanda epistemolojiktir. Ekstrapolasyon, doğa hakkında öğrenme yollarımızdan biridir, bu bir indüksiyon şeklidir . Diyelim ki bir malzemenin 0 ila 20 Santigrat derece arasındaki sıcaklıklarda elektriksel iletkenliği hakkında verilerimiz var, 40 santigrat derecedeki iletkenlik hakkında ne söyleyebiliriz?

Küçük örnek çıkarımı ile yakından ilgilidir: küçük bir örneklem üzerinde yapılan ölçümlerden tüm nüfus hakkında ne söyleyebiliriz? Bu Öğrenci t-dağılımları ile geldi Gosset tarafından Guiness , tarafından başlatıldı . Ondan önce istatistikçiler, örneklem boyutunun her zaman büyük olabileceğini varsayarak küçük örnekler hakkında düşünmeye zahmet etmediler. Guinnes'deydi ve gönderilecek bira partisiyle ne yapılacağına karar vermek için bira örnekleriyle uğraşmak zorunda kaldı.

Bu yüzden, pratikte (işletme), mühendislikle ve bilimde her zaman bir şekilde tahmin etmemiz gerekir. Küçük numuneleri büyük bir tanesine veya sınırlı girdi koşullarından daha geniş bir koşul kümesine, aşırı hızda olanlardan milyarlarca kilometre uzaklıktaki kara deliğe olanlara vb. , ekstrapolasyon tahminlerimiz ile gerçek ölçümler arasındaki tutarsızlıkları inceleyerek gerçekten öğrendiğimiz gibi. Genellikle tutarsızlıklar büyük veya tutarlı olduğunda yeni fenomenler buluruz.

dolayısıyla, ekstrapolasyon ile ilgili bir sorun olmadığını söylüyorum. Bu her gün yapmamız gereken bir şey. Bu sadece zor.


4

Ekstrapolasyonun kendisi mutlaka kötülük değildir, ancak enterpolasyonla geldiğinizden daha mantıksız sonuçlara ulaşan bir süreçtir.

  • Ekstrapolasyon genellikle örneklenen bölgeden oldukça uzak olan değerleri keşfetmek için yapılır. Eğer 0-10 arasında 100 değerin örneklerini alıyorum ve sonra sadece biraz 11 olacak şekilde biraz tahmin ediyorum, yeni noktam herhangi bir enterpolasyonun alabileceğinden herhangi bir veri noktasından 10 kat daha uzakta. Bu, bir değişkenin elden çıkması için daha fazla alan olduğu anlamına gelir (niteliksel olarak). Kasten küçük bir ekstrapolasyon seçtiğime dikkat edin. Daha da kötüye gidebilir
  • Ekstrapolasyon, ekstrapolasyon yapmak üzere tasarlanan eğri uydurmaları ile yapılmalıdır. Örneğin, birçok polinom uyumu ekstrapolasyon için çok zayıftır, çünkü örneklenen aralıkta iyi işleyen terimler, onu terk ettiğinizde patlayabilir. İyi ekstrapolasyon, örneklenen bölgenin dışında ne olduğuna dair "iyi bir tahminde" bağlıdır. Bu beni ...
  • Faz geçişleri nedeniyle ekstrapolasyon kullanmak genellikle çok zordur. Birinin tahmin etmek isteyebileceği pek çok işlem, örneklenen bölge üzerinde yeterince maruz kalmayan kararsız doğrusal özelliklere sahiptir. Ses hızı etrafındaki havacılık mükemmel bir örnektir. Havadaki bilgi aktarma hızına erişip aştığınızda, düşük hızlardan gelen birçok ekstrapolasyon ayrılır. Bu aynı zamanda, politikanın kendisinin politikanın başarısını etkileyebileceği yumuşak bilimlerde de sıklıkla görülür. Keynesyen ekonomi, ekonominin farklı enflasyon seviyelerinde nasıl davranacağını belirledi ve mümkün olan en iyi sonucu öngördü. Ne yazık ki, ikinci dereceden etkiler vardı ve sonuç ekonomik refah değil, ABD’nin gördüğü en yüksek enflasyon oranlarının bir kısmıydı.
  • İnsan ekstrapolasyonları sever . Genel olarak konuşursak, insanlar gerçekten birisinin bir kristal topun içine bakmasını ve onlara geleceği anlatmasını istiyor. Şaşırtıcı derecede kötü ekstrapolasyonları kabul edecekler, çünkü sahip oldukları tüm bilgiler. Bu, ekstrapolasyonu kendi başına fena hale getirmeyebilir, ancak kesinlikle onu kullanırken dikkate alınması gereken bir şeydir.

Ekstrapolasyonun en iyisi için Manhattan Projesi'ni düşünün. Oradaki fizikçiler gerçek şeyi inşa etmeden önce çok küçük çaplı testlerle çalışmak zorunda kaldılar. Testlere harcayacak kadar Uranyum yoktu. Ellerinden geleni yaptılar ve akıllılardı. Ancak, son test gerçekleştiğinde, her bilim adamının, patladığında ne kadar uzakta olmak istediklerine karar vermeleri gerektiğine karar verildi. Orada önemli olarak her bilim adamları onların testlerden oldukça uzak extrapolating biliyordum çünkü uzakta "güvenli" olduğunu ne kadar karşı görüş farklılıkları. Atmosferi nükleer bomba ile ateşe verebilecekleri önemsiz bir düşünce bile vardı;


3

Burada iyi cevapların birçoğu, sadece konunun çekirdeği olarak gördüğüm şeyi denemek ve sentezlemek istiyorum: Tahmin örneğine yol açan bu veri üretme sürecinin ötesinde tahmin etmek tehlikelidir. Buna bazen 'yapısal değişim' denir.

Öngörme, varsayımlarla birlikte gelir, temel olan, veri üretme sürecinin (önemli bir fark yaratmayacak kadar yakın), örneği oluşturan ile aynı olduğu (modelde değişikliklerini açıkça hesaba kattığınız rhs değişkenleri hariç) olmasıdır. . Yapısal bir değişiklik olursa (yani Taleb'in örneğinde Şükran günü), tüm bahisler kapalıdır.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.