“Tüm modeller yanlış, ancak bazıları yararlı” nın anlamı nedir?


76

"Temel olarak, tüm modeller yanlış, ancak bazıları kullanışlıdır."

--- Box, George EP; Norman R. Draper (1987). Ampirik Model Oluşturma ve Yanıt Yüzeyleri, s. 424, Wiley. ISBN 0471810339.

Yukarıdaki cümlenin anlamı tam olarak nedir?


13
Aynı kitapta daha önce bahsedilmiştir: Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.Belki bu daha yararlıdır.
us11r11852

Yanıtlar:


101

Bence anlamı en iyi iki bölüme bakarak analiz edilir:

“Tüm modeller yanlış”, yani her model yanlıştır çünkü gerçekliğin basitleştirilmesidir. Bazı modeller, özellikle "zor" bilimlerde, sadece biraz yanlış. Sürtünme ya da küçük cisimlerin yerçekimi etkisi gibi şeyleri görmezden gelirler. Diğer modeller çok yanlış - daha büyük şeyleri görmezden geliyorlar. Sosyal bilimlerde, çok fazla görmezden geliyoruz.

"Ancak bazıları yararlıdır" - gerçekliğin basitleştirilmesi oldukça yararlı olabilir. Evreni ve tüm çeşitli bileşenlerini açıklamamıza, tahmin etmemize ve anlamamıza yardımcı olabilirler.

Bu sadece istatistikte doğru değil! Haritalar bir tür modeldir; Onlar yanlış. Fakat iyi haritalar çok faydalıdır. Diğer yararlı ama yanlış modellere örnekler boldur.


20
+1 Çünkü haritaların analojisini seviyorum. Gelecekte kullanacağım!
us11r11852

4
"Zor" bilimlerdeki birçok model de oldukça uzaktır (dün, modelin hata çubuğunun içinde olduğu ölçümlerin yapıldığı bir seminere katıldım, ancak hata çubuğunun iki büyüklük sırası vardı).
gerrit

7
+1. Bence anahtar cümle "her model yanlış, çünkü gerçekliği basitleştiriyor". İnsanlar bunu sık sık unutur - örneğin, ekonominin saf eleştirilerinde (benim kendi eleştirilerim var, ama sadece "gerçekliğin sizin modelinizden daha karmaşık" olmasından daha karmaşık olmaları gerekiyor). Basitleştirmediysek, sizin için anlaşılması zor olan ham gerçekliğiniz var. Bu yüzden herhangi bir içgörü elde etmek için basitleştirmek zorundayız.
Peter Ellis,

13
1: 1 ölçekli mükemmel bir haritanın fantezisi, Lewis Carroll, Jorge Luis Borges ve Umberto Eco gibi birçok yazar tarafından kullanılmıştır. Aslında işe yaramayacaktı, çünkü sadece haritalandırdığı alan olarak karmaşık olacak ve anlaşılması kolay olmayacaktı (açılma ve okumaya koymanın zorluğundan bahsetme).
Nick Cox

2
Belki bir modelin biraz yanlış olması gerektiğini de ekleyebilirsiniz , çünkü aksi takdirde genelleşmeyecek ve başka bir yerde uygulanamayacaktır. Bunu daha da aşağıya söyleyen bazı cevaplar var. Ama şimdi hepsini okumak için çok fazla cevap var.
ziggystar

9

Bu, modelledikleri fenomenlerin kusursuz bir temsili olmayan modellerden faydalı bilgiler sağlanabileceği anlamına gelir.

İstatistiksel bir model matematiksel kavramları kullanan bir sistemin tanımıdır. Bu nedenle çoğu durumda, çıkarımsal prosedürünüzü kolaylaştırmak için belirli bir soyutlama katmanı eklersiniz (örn. Ölçüm hatalarının normalliği, korelasyon yapılarında bileşik simetri vb.). Öyle neredeyse imkansız tek bir model mükemmel gerçek bir dünya fenomeni kendimizi dünyanın öznel bir görünüme sahip verilmiş tarif etmek için (bizim duyu sistemi mükemmel değildir); Bununla birlikte, dünyamızın sömürdüğümüz belirli bir tutarlılık derecesine sahip olması nedeniyle başarılı istatistiksel çıkarım gerçekleşir. Yani bizim neredeyse her zaman yanlış modeller kanıtlarım faydalıdır .

(Yakında büyük bir cevap alacaksınız eminim ama bu konuda özlü olmaya çalıştım!)


Bu kullanışlı modellerin yaklaşık çözümler sunduğunu söyleyebilir miyiz?
gpuguy

2
@gpuguy: Yapabildiğinizden emin olun. John An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
Tukey'den

6
“Her zaman kesin olarak yapılabilen yanlış soruya verilen kesin cevaptan ziyade genellikle belirsiz olan doğru soruya yaklaşık bir cevap daha iyi.” John W. Tukey 1962 Veri analizinin geleceği. Matematiksel İstatistiklerin Annals 33: 1-67 (bkz. S.13-14) Başka zamanlarda da benzer şeyler söylediğinden şüphesiz ama bu her zamanki kaynak.
Nick Cox,

Teklifi doğrudan ilgili CV'nin teklif başlığından alabilirsiniz.
us11r11852

6
Benimkileri orijinal yayından kopyaladım.
Nick Cox,

6

Bu 2009 JSA konuşmasını Thad Tarpey tarafından Kutu geçişi hakkında yararlı bir açıklama ve yorum sağlamak için buldum. Modelleri gerçeğe yakın yaklaşımlar olarak görürsek, tüm modelleri doğru şekilde arayabildiğimizi savunuyor.

İşte soyut:

İstatistik öğrencileri, George Box'ın ünlü alıntılarına sık sık tanıtılıyor: “tüm modeller yanlış, bazıları faydalı.” Bu konuşmada, bu teklifin yararlı olsa da yanlış olduğunu savunuyorum. Farklı ve daha olumlu bir bakış açısı, bir modelin yalnızca ilgiden bilgi verilerini çıkarmanın bir aracı olduğunu kabul etmektir. Gerçek sonsuz karmaşıktır ve bir model sadece gerçeğe bir yaklaşımdır. Yaklaşım zayıf veya yanıltıcı ise, model faydasızdır. Bu konuşmada doğru modeller olmayan doğru modellere örnekler verdim. “Yanlış” bir model nosyonunun yanlış sonuçlara yol açabileceğini göstermektedir.


3

Benim için asıl içgörü şu açıdan yatmaktadır:

Bir modelin faydalı olması için doğru olması gerekmez.

Maalesef birçok bilimlerde, modellerin yeni keşiflere ve tahminlere izin vermek için gerçekliğin kesin temsilleri olması gerekmediği sık sık unutulur!

Bu nedenle, zamanınızı değişkenlerin sayısız değişkeninin doğru ölçülmesini gerektiren karmaşık bir model oluşturmak için harcamayın. Gerçek deha, işi yapan basit bir model icat eder.


3

Bir model, sonuçlarda herhangi bir rasgelelik varsa,% 100 doğru tahminler sağlayamaz. Belirsizlik yoksa, rastgelelik yoksa ve hata yoksa, o zaman bir modelden ziyade bir gerçek olarak kabul edilirdi. İlki çok önemlidir, çünkü modeller sıklıkla gerçekleşmemiş olayların beklentilerini modellemek için kullanılır. Bu neredeyse gerçek olaylarla ilgili bazı belirsizliklerin olduğunu garanti eder.

Mükemmel bilgi verildiğinde, teoride kesin olarak bilinen olaylar için mükemmel tahminler veren bir model oluşturmak mümkün olabilir. Bununla birlikte, bu olası durumlar göz önüne alınmasa bile, böyle bir model, hesaplama açısından kullanılamaz hale gelebilecek kadar karmaşık olabilir ve diğer faktörler değerlerin olaylarla nasıl değiştiğini değiştirdiğinden, yalnızca belirli bir anda doğru olabilir.

Belirsizlik ve rastgelelik çoğu gerçek dünya verilerinde mevcut olduğundan, mükemmel bir model elde etme çabaları boşuna bir alıştırmadır. Bunun yerine, hem veri hem de kullanımı için gereken hesaplama açısından kullanılabilecek kadar basit, yeterince kesin bir model elde etmeye bakmak daha değerlidir. Bu modellerin kusurlu olduğu bilinmesine rağmen, bu kusurların bazıları iyi bilinmektedir ve modellere dayalı karar alma için düşünülebilir.

Daha basit modeller, kusurlu olabilirler ancak birbirleriyle karşılaştırmak, birbirleriyle karşılaştırmak için daha kolay olabilirler ve çalışmak daha kolay olabilir çünkü daha az hesaplama gerektiriyorlardı.


3

Eğer yapabilirsem, bir yorumdan daha fazlası faydalı olabilir. Tercih ettiğim ifadenin versiyonu

(...) tüm modeller yaklaşık değerlerdir. Temel olarak, tüm modeller yanlış, ancak bazıları kullanışlıdır (...)

alınan cevap Yüzeyler, karışımları ve Ridge Analiz Box ve Draper (2007, s. 414, Wiley). Genişletilmiş alıntı baktığımızda bunun Kutu ne demek daha açık - istatistiksel modelleme hakkında yaklaşan gerçeği ve en bulma konusunda bu yüzden yaklaşım, tam asla uygun tahminini. Amacınız için uygun olan öznel bir şeydir, bu yüzden faydalı olan modellerden biri değil , modelleme amacına bağlı olarak muhtemelen bazılarıdır .


3

Kimse eklemediği için, George Box bir sonraki bölüme bir kitapta alıntı yapmak için alıntılanan aşamayı kullandı. Ne demek istediğini açıklamak için en iyi işi yaptığına inanıyorum:

PV=R,TPVTR,

Böyle bir model için, "Model doğru mu?" Sorusunu sormaya gerek yoktur. Eğer “gerçek” “gerçek” ise, cevap “Hayır” olmalıdır. Tek ilgi konusu “Model aydınlatıcı ve kullanışlı mı?” Dır.

Box, GEP (1979), "Bilimsel model kurma stratejisinde sağlamlık", Launer, RL; Wilkinson, GN, İstatistikte Sağlamlık , Academic Press, ss. 201-236.


2

Bunu bu şekilde düşünebilirsin. Bir nesnenin maksimum karmaşıklığı (yani entropi), Bekenstein sınırının bir tür şekline uyar :

ben2πR,Ecln2

ER,

Çoğu durumda bu büyük bir sayı:

2,58991·1042Ω=2ben107,79640·1041

Öyleyse, her hücredeki tüm parçacıklar için tüm dalga denklemleriyle "en iyi haritayı", yani bölgenin kendisini mi kullanmak istiyorsunuz? Kesinlikle hayır. Yalnızca hesaplamalı bir felaket değil, aynı zamanda önemsediğiniz şeyle ilgisi olmayan şeyleri modelleyeceksiniz. Tek yapmak istediğin, uyanık olup olmadığımı tanımlamaksa, elektron # 32458'in nöron # 844030 ribozom # 2305 molekül # 2'de ne yaptığını bilmenize gerek yoktur. Bunu modellemezseniz, modeliniz gerçekten "yanlıştır" dır, ancak uyanık olup olmadığımı belirleyebilirseniz modeliniz kesinlikle faydalıdır.


2

Bence Peter ve user11852 harika cevaplar verdi. Ben de (olumsuzlayarak) bir model gerçekten iyi olsaydı, muhtemelen aşırı giyinme (dolayısıyla genelleştirilemez) nedeniyle işe yaramaz olacağını eklerdim.


2
Fazla mesai noktası için +1. Naive Bayes ve lineer diskriminant analizleri gibi algoritmalar genellikle altta yatan modelin yanlış olduğunu bilseniz bile (örneğin spam filtreleme) çok iyi çalışır, çünkü parametreleri tahmin etmek için daha az veriye ihtiyaç vardır.
Dikran Marsupial

1

Asit yorumum şudur: Matematiksel bir modelin tüm faktörleri tam olarak tanımladığına inanmak ve ilgilendikleri bir olayı yöneten etkileşimleri çok basit ve kibirli olacaktır. Kullandığımız mantığın evreni anlamaya yeterli olup olmadığını bile bilmiyoruz. Bununla birlikte, bazı matematiksel modeller, bu fenomen hakkında sonuç çıkarmak için yararlı olan (bilimsel yöntem açısından) yeterince iyi bir yaklaşımı temsil eder.


1

Bir astrostatist (belki de nadir bir cins) olarak, Box'ın özdeyişinin ününü talihsiz buluyorum. Fiziksel bilimlerde, gözlemlenen bir olgunun altında yatan süreçleri anlamak için genellikle güçlü bir fikir birliğine sahibiz ve bu süreçler genellikle yerçekimi, kuantum mekaniği, termodinamik vb. Kanunlarından kaynaklanan matematiksel modeller ile ifade edilebilir. En uygun model, fiziksel özelliklerin yanı sıra model seçimi ve doğrulama parametrelerini de değiştirir. Avrupa Uzay Ajansı'nın Planck uydusundan bildirilen Mart 2013 tarihli bildiri yayınından çıkan çarpıcı bir vaka.'in Big Bang için 6 parametreli “LambdaCDM” modelini ikna edici bir şekilde kuran kozmik mikrodalga altyapısının ölçümleri. Box'ın belirdisinin, bu 29 makalede kullanılan çok çeşitli gelişmiş istatistiksel yöntemlerin herhangi bir yerinde uygulanacağından şüpheliyim.


1

Süreç modellerini odak noktası olarak kabul ederek yukarıdaki cevabı az önce değiştirdim. Açıklama şu şekilde yorumlanabilir:

“Tüm modeller yanlış”, yani her model yanlıştır çünkü gerçekliğin basitleştirilmesidir. Bazı modeller sadece biraz yanlış. Bazı şeyleri görmezden gelirler, Örneğin: -> gereksinimleri değiştirme, -> Son teslim tarihine kadar projenin tamamlanmasını görmezden gelme, -> müşterinin istediği kalite seviyesini göz önünde bulundurmama vb ... Diğer modeller çok yanlış daha büyük şeyler. Klasik yazılım süreç modelleri, daha az görmezden gelen çevik süreç modellerine kıyasla çok fazla dikkate almaz.

"Ancak bazıları yararlıdır" - gerçekliğin basitleştirilmesi oldukça yararlı olabilir. Genel projeyi ve tüm bileşenlerini açıklamamıza, tahmin etmemize ve anlamamıza yardımcı olabilirler. Modeller, özellikleri çoğu yazılım geliştirme programına karşılık geldiğinden kullanılır.


0

"Yararlı" teriminin başka bir yorumunu yapmak istiyorum. Muhtemelen Box'ın düşündüğü değil.

Karar vermeniz gerektiğinde ve bu, tüm bilgilerin sonunda kullanılacağı şeydir, o zaman başarınızı bir biçimde ölçmeniz gerekir. Belirsiz bilgileri olan kararlardan bahsederken, bu önleme genellikle fayda denir.

Bu yüzden daha faydalı kararlar vermemizi sağlayanlar olarak faydalı modelleri de düşünebiliriz ; hedeflerimize daha etkin bir şekilde ulaşmak için.

Bu, bir modelin doğru bir şekilde öngörüde bulunabilmesi gibi normal kriterlerin üstüne başka bir boyut ekler: Bir modelin birbirine karşı olduğu farklı yönleri tartmamıza olanak tanır.


-2

"Tüm modeller yanlış, ancak bazıları kullanışlıdır". Belki de şu anlama gelir: Bildiklerimizle elimizden gelenin en iyisini yapmalıyız + yeni öğrenmeyi mi arıyorsunuz?


4
(-1) GEP Kutusunun kastettiğini gösteren herhangi bir referans verebilir misiniz? Diğer cevaplardan öğrenebileceğiniz gibi, tamamen farklı bir şey ifade ediyordu.
Tim

OP belki de teklifi kabul ediyor ve ona yeni bir yorum getiriyor. Tim'in, Box'un az ya da çok olduğu gerçeğini, gerçeği kesin bir yorumlama olarak almadığını, ancak bazı modellerin verileri iyi tanımlayabileceğini kabul ediyorum.
Michael Chernick
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.