En ilginç istatistiksel paradokslar


Yanıtlar:


100

Bu başlı başına bir paradoks değil , ama en azından ilk önce şaşırtıcı bir yorum.

II. Dünya Savaşı sırasında, Abraham Wald ABD hükümeti için bir istatistikçiydi. Görevlerden dönen bombardıman uçaklarına baktı ve uçaklardaki kurşunların "yaralarının" şeklini analiz etti. O Donanma uçakları vardı alanları güçlendirmek önerilir hiçbir zararı.

Neden? İşyerinde seçim etkilerimiz var . Bu örnek, gözlenen alanlarda ortaya çıkan hasarın dayanabileceğini göstermektedir. Her iki uçak da el değmemiş alanlarda asla çarpılmadı, olası bir teklif olmadı veya bu parçalara yapılan grevler ölümcül oldu. Sadece dönen uçakları değil, düşen uçakları önemsiyoruz. Düşenler büyük olasılıkla hayatta kalanlara dokunulmamış bir yerde saldırı geçirdiler.

Orijinal notunun kopyaları için buraya bakınız . Daha modern bir uygulama için, bu Scientific American blog gönderisine bakın .

Bu blog gönderisine göre , I. Dünya Savaşı sırasında bir temayı genişletmek, teneke bir kaskın takılması standart bir şapkadan daha fazla kafa yarasına yol açtı . Yeni kask askerler için daha mı kötü oldu? Hayır; Yaralanmalar daha yüksek olmasına rağmen ölümler daha düşüktü.


3
Bunu daha önce birkaç yerde okuduğumu hatırlıyorum, fakat elimde bir referans yok. Ekleyebileceğiniz biri var mı?
kardinal

1
@cardinal, senin için bazı notlar buldum. Araştırma aslında ABD için yapılmışa benziyor
Charlie,

Bir yerlerde, bu örnek için varsayımsal bir uçağın bir dağılım grafiği var, ancak bulamıyorum.
Fomite

+1. Bu , belki de önyargıların en zararlı olanı olan Kurtuluş Yanlılığı'na bir örnektir . Cevap olarak genişledim.
Cliff AB,

47

Başka bir örnek ekolojik yanılsamadır .

Örnek:
Senatör Obama'nın bir devletin medyan geliri üzerindeki payını (binler cinsinden) gerileyerek oylama ile gelir arasında bir ilişki aradığımızı varsayalım. Yaklaşık 20'lik bir kesişim ve 0,61'lik bir eğim katsayısı elde ettik.

Pek çok kişi bu sonucu, daha yüksek gelirli insanların Demokratlara oy verme ihtimalinin daha yüksek olduğunu söyleyerek yorumlar; Gerçekten de, popüler basın kitapları bu tartışmayı yaptı.

Fakat bekleyin, zengin insanların Cumhuriyetçi olma ihtimalinin daha yüksek olduğunu düşündüm? Onlar.

Bu gerilemenin gerçekte bize anlattığı şey, zengin devletlerin bir Demokrat'a oy verme olasılığının yüksek olduğu ve yoksul devletlerin bir Cumhuriyetçi için oy kullanma olasılığının daha yüksek olduğu. Belirli bir eyalette , zengin halkın Cumhuriyetçi oy kullanma olasılığı daha yüksektir ve yoksul insanların Demokrat'a oy kullanma olasılığı daha yüksektir. Andrew Gelman ve ortak yazarların çalışmalarını görün .

Başka varsayımlar olmadan, bireysel seviye davranışları hakkında çıkarımlar yapmak için grup düzeyinde (toplu) veriler kullanamayız. Bu ekolojik yanlışlıktır. Grup düzeyinde veriler bize yalnızca grup düzeyinde davranış hakkında bilgi verebilir.

Bireysel seviyedeki çıkarımlara sıçramak için, istikrar varsayımına ihtiyacımız var . Burada, bireylerin oy kullanma seçenekleri, bir devletin medyan gelirine göre sistematik olarak değişmemektedir; Zengin bir eyalette X $ kazanan bir kişinin , Demokrat'a, fakir bir durumda X $ kazanan bir kişi olarak oy vermesi muhtemel olmalıdır . Ancak, Connecticut'taki tüm gelir seviyelerindeki kişilerin, aynı gelir seviyelerindeki Mississippi'deki insanlardan daha fazla Demokrat için oy kullanma olasılığı daha yüksektir . Dolayısıyla, tutarlılık varsayımı ihlal edilmiştir ve yanlış sonuca vardık ( toplama yanlılığı tarafından kandırıldık ).

Bu konu, David Freedman'ın son dönemlerinde sık sık kullanılan bir hobi idi ; örneğin bu makaleye bakın . Bu yazıda Freedman, grup verilerini kullanarak bireysel seviye olasılıkları sınırlamak için bir araç sunmaktadır.

Simpson'ın paradoksu ile karşılaştırılması
Bu CW'de başka bir yerde, @ Michelle, Simpson'un paradoksunu gerçekten olduğu gibi iyi bir örnek olarak önermektedir. Simpson'ın paradoksu ve ekolojik yanılsama yakından ilişkili, ancak belirgin. İki örnek verilen verinin özelliklerinde ve kullanılan analizde farklılık gösterir.

Simpson'un paradoksunun standart formülasyonu iki yönlü bir tablodur. Buradaki örneğimizde, bireysel verilerimiz olduğunu ve her birini yüksek veya düşük gelir olarak sınıflandırdığımızı varsayalım. Toplamın 2x2'lik bir beklenmedik durum tablosundan gelir elde edip geliriz. Düşük gelirli insanların payına oranla Demokrat için yüksek gelirli insanların payının daha yüksek olduğunu görmekteyiz. Her devlet için bir acil durum tablosu oluşturduk, ancak bunun tersini görüyoruz.

Ekolojik yanılsamada, geliri ikilik (veya belki de çok-büyük) bir değişkene indirmiyoruz. Devlet seviyesini elde etmek için, ortalama (ya da medyan) devlet gelirini ve devlet oy payını alıyoruz ve bir gerileme yapıyoruz ve daha yüksek gelirli devletlerin Demokrat'a oy vermesinin daha muhtemel olduğunu görüyoruz. Bireysel düzeydeki verileri tutarsak ve regresyonu duruma göre ayrı ayrı koyarsak, ters etkiyi buluruz.

Özet olarak, farklılıklar:

  • Analiz şekli : SAT hazırlık becerilerimizi takip ederek, Simpson'un paradoksunun ekolojik yanlışlıkların korelasyon katsayıları ve regresyon korelasyonu olduğu gibi beklenmedik durum tabloları olduğunu söyleyebiliriz.
  • Toplanmanın derecesi / verinin niteliği : Simpson'un paradoks örneği iki sayıyı karşılaştırırken (Demokrat oy oranı düşük gelirli bireyler için aynı olan yüksek gelirli kişiler arasında aynı), ekolojik yanlışlık bir korelasyon katsayısı hesaplamak için 50 veri noktası kullanır ( yani her bir durum) . Tüm hikayeyi Simpson'un paradoks örneğinden almak için, elli eyaletin her ikisinden iki sayıya (100 sayı) ihtiyacımız var, ekolojik yanlışlık durumunda ise bireysel düzeydeki verilere ihtiyacımız var durum düzeyinde korelasyonlar / regresyon eğimleri).

Genel gözlem
@NeilG, bunun sadece gözlenemeyen / ihmal edilen değişkenler konusunda herhangi bir seçim yapamayacağınızı, regresyonunuzdaki önyargılı sorunları söylediğini belirtti. Doğru! En azından regresyon bağlamında, neredeyse herhangi bir "paradoks" un, önyargılı değişkenlerin önyargılı olmasının sadece özel bir örneği olduğunu düşünüyorum.

Seçim önyargısı (bu CW'deki diğer yanıtıma bakın), seçimi yönlendiren değişkenler dahil edilerek kontrol edilebilir. Tabii ki, bu değişkenler genellikle gözlemlenmez, problemi / paradoksu yönlendirir. Sahte regresyon (diğer cevabım) bir zaman trendi ekleyerek aşılabilir. Bu vakalar, aslında, yeterli veriye sahip olduğunuzu ancak daha fazla tahminciye ihtiyaç duyduğunuzu söylüyor.

Ekolojik yanılsama durumunda, doğru, daha fazla tahminciye ihtiyacınız var (burada, duruma özgü eğimler ve yakalamalar). Ancak, bu ilişkileri tahmin etmek için grup düzeyinde değil, bireysel gözlemlerden daha fazla gözlem gerekir .

(Bu arada, seçim değişkeninin tedavi ve kontrolü mükemmel bir şekilde böldüğü aşırı bir seçiminiz varsa, verdiğim İkinci Dünya Savaşı örneğinde olduğu gibi, gerilemeyi tahmin etmek için daha fazla veriye ihtiyacınız olabilir; orada, düşürülen düzlemler.)


Tutarlılık varsayımını resmileştirmek nasıl mümkün olabilir ? Birinin modelinde eksik (nedensel) bir kafa karıştırıcı olmadığını varsaymak gibi geliyor.
Neil G,

2
Ayrıca, verilen örnek aynı zamanda Simpson'un paradoksunun bir örneğidir, çünkü devlet üzerindeki şart koşullanma gelir ile parti arasındaki ilişkiyi tersine çevirir. Ekolojik yanlışlıklar Simpson'un paradoksundan ne zaman farklıdır?
Neil G,

Ayrıca, bireysel düzeydeki derneklere veya nedensel ilişkilere dayanarak grup düzeyinde dernekler veya nedensellik hakkında çıkarımlar yapmanın da sadece kötü olduğunu: burada açıkça ifade edilen atomistik yanlışlıklar: [Diez-Roux, 1998] Diez-Roux, AV (1998). Bağlamı tekrar epidemiyolojiye getirmek: Çok seviyeli analizde değişkenler ve yanlışlar. Amerikan Halk Sağlığı Dergisi , 88 (2): 216-222.
Alexis,

43

Benim katkım Simpson'ın paradoksudur çünkü:

  • paradoksun nedenleri birçok insan için sezgisel değil
  • Bulguların neden insanları sade İngilizceye koymalarının yolu olduğunu açıklamak gerçekten zor olabilir.

    paradoksun dr versiyonu: bir sonucun istatistiksel önemi, verilerin nasıl bölümlendiğine bağlı olarak farklı görünmektedir. Sebep, sık sık karıştırıcı bir değişkenden kaynaklanıyor gibi görünmektedir.

Paradoksun bir başka güzel taslağı burada .


4
+1, kendim koymayı düşündüm. İlgilenenler için, Simpson'un paradoksu burada CV'de de tartışılmaktadır: stats.stackexchange.com/questions/21896
gung

3
Simpson'un paradoksuna bu matematikte değinilen bazı örnekler var .
Mike Spivey,

32

İstatistiklerde paradoks yoktur, yalnızca çözülmeyi bekleyen bulmacalar vardır.

Yine de en sevdiğim iki zarf "paradoks" . Sanırım karşınıza iki zarf koydum ve birinin diğerinden iki kat daha fazla para içerdiğini söyledim (hangisi değil). Sebebiniz aşağıdaki gibidir. Sol zarfın içerdiğini ve sonra% 50 olasılıkla sağ zarfın içerdiğini ve% 50 olasılıkla beklenen bir değer için içerdiğini varsayalım . Ancak elbette, zarfları basit bir şekilde tersine çevirebilir ve sol zarfın sağ zarfın değerinin katını içerdiği sonucuna varabilirsiniz . Ne oldu?x2x0.5x1.25x1.25


parlak paradoks - ilginç bir şekilde wikipedia'daki "ikinci" yorumlamaya gidersek ve yı hesaplamaya çalışırsak, anahtarlama tercihini önlemek için burada . P'yi çözmek, elde edeceğimiz anlamına gelir . Benzer şekilde hesaplayabiliriz, burada ve .... Bizzare! E[B|A=a]E[B|A=a]=a=2ap+a2(1p)p=Pr(A<B|A=a)pp=13E[A|B=b]=b=2bq+b2(1q)q=Pr(B<A|B=b)q=13
Olasılık

6
Oyunun izleyiciyle oynadığı bu paradoks hakkında gerçek paralarla (genellikle ev sahibi kuruma bir çek) sunum yaptım. Onların dikkatini çekiyor ...
whuber

Bunu çözdüğümü düşünün ... Paradoks, iki paradoks paradoksunun yanlış önerdiğini fark ettiğimizde çözülür :) üç olası miktar vardır: 0,5x, x ve 2x, zarflarda yalnızca iki miktar olduğunda (x ve 2x), ve 2) biz daha önce sol zarfın x içerdiğini biliyoruz (bu durumda sağ zarf% 100 kesinlikte 2x içerecektir!). İki zarfa rastgele atanan x ve 2x olası değerleri göz önüne alındığında, doğru zarfı, sol zarfı mı yoksa sağ zarfı mı seçtiğim 1.5x beklenen değerdir.
RobertF

3
@RobertF Durum daha karmaşık. Paranın iki zarfta aşağıdaki şekilde dağıtıldığı bilindiğini varsayalım. Başa inene kadar adil bir yazı tura atın ve madalyonun kaç kez atıldığını sayın. Bir zarfın içine 2 ^ n dolar, diğerine 2 ^ (n + 1) koyun. Artık çok kesin beklenti hesaplamaları yapabilir ve paradoksu koruyabilirsiniz.
Ittay Weiss

31

Uyuyan Güzel Sorunu .

Bu yeni bir buluş; Son on yılda küçük bir felsefe dergisinde tartışıldı. İki çok farklı cevabın ("Halfers" ve "Thirders") kesin savunucuları vardır. İnanç, olasılık ve koşullanmanın doğası hakkındaki soruları gündeme getiriyor ve insanların kuantum mekaniğindeki "birçok dünya" yorumunu (diğer tuhaf şeylerin yanı sıra) çağırmasına neden oldu.

İşte Wikipedia'dan ifade:

Sleeping Beauty gönüllülerine aşağıdaki deneyi yapmak için gönüllü olur ve aşağıdaki tüm ayrıntılarını açıklar. Pazar günü o uyuyor. Daha sonra hangi deneysel prosedürün uygulandığını belirlemek için adil bir para atılır. Madeni para gelirse, Pazartesi günü Güzellik uyandırılır ve görüşülür ve deney sona erer. Yazı tura gelirse, Pazartesi ve Salı günü uyandırılır ve görüşülür. Ancak Pazartesi günü tekrar uyumaya başladığında, önceki uyanışını hatırlayamamasını sağlayan bir amnezi indükleyici ilaç dozu verildi. Bu durumda, deney salı günü görüşme yapıldıktan sonra sona erer.

Her zaman Uyuyan güzel uyandı ve röportaj yaptı, diye sordu, "Madeni paranın indiği önerisi için şu anda güvenceniz nedir?"

Thirder pozisyonu SB'nin "1/3" (bu basit bir Bayes Teoremi hesaplamasıdır) yanıt vermesi ve Halfer pozisyonunun "1/2" demesi gerektiğidir (çünkü adil bir para için doğru olasılık budur! ). IMHO, tartışmanın tamamı sınırlı bir olasılık anlayışına dayanıyor, ancak görünen paradoksları keşfetmenin tam anlamı bu değil mi?

Prens Florimond Uyuyan Güzelliği Buluyor

( Gutenberg Projesi'nden örnek .)


Her ne kadar paradoksları çözmeye çalışacak yer olmasa da - sadece onları belirtmek için - İnsanları asılı bırakmak istemiyorum ve bu sayfanın çoğu okuyucusunun felsefi açıklamalarda gezinmek istemediğinden eminim. “Uyuyan Güzeller problemini düşünmek için ihtiyaç duyduğumuz bir şey” olan “Uyuyan Güzel problemini düşünmek için ihtiyacımız olan şey” olan ET Jaynes'den bir ipucu alabiliriz. İdealleştirilmiş bir sağduyu ifade eden açıkça tanımlanmış ilkeleri izleyerek faydalı makul bir mantık yürütme gerçekleştirir mi? ”Demek isterseniz, SB'yi Jaynes'in düşünce robotu ile değiştirin. Sen edebilirsiniz klonlamakBu robot (denemenin Salı kısmı için bir hayali amnezyak ilacı uygulamak yerine), böylece açıkça analiz edilebilecek SB kurulumunun açık bir modelini yarattı. Daha sonra istatistiksel karar teorisi kullanılarak standart bir şekilde bu Modelleme gerçekten orada ortaya koymaktadır iki burada (isteniyor sorular hilesiz bir para kafaları toprakları? Şansı nedir ve öyleydin gerçeğine koşullu sikke başlarını indi şans nedir klon uyandı kim? ). Cevap ya 1/2 (ilk durumda) ya da 1/3 (ikincisinde, Bayes Teoremi kullanılarak). Bu çözümde kuantum mekaniğinin hiçbir prensibi yoktu :-).


Referanslar

Arntzenius, Frank (2002). Uyuyan Güzel Üzerine Düşünceler . Analiz 62.1 sayfa 53-62. Elga, Adam (2000). Kendini konumlandırma inancı ve Uyuyan Güzel Problemi. Analiz 60 s, 143-7.

Franceschi, Paul (2005). Uyuyan Güzel ve Dünyayı Azaltma Sorunu . Ön baskı.

Groisman, Berry (2007). Uyuyan Güzel'in kabusu sona erdi .

Lewis, D (2001). Uyuyan Güzel: Elga'ya cevap . Analiz 61.3 sayfa 171-6.

Papineau, David ve Victor Dura-Vila (2008). Bir susuzluk ve bir Everettian: Lewis'in 'Kuantum Uyuyan Güzeline' bir cevap .

Pust, Joel (2008). Uyuyan Güzel üzerine Horgan . Synthese 160 s. 97-101.

Vineberg, Susan (tarihsiz, belki 2003). Güzelliğin Dikkatli Hikayesi .

Hepsi Web'de bulunabilir (veya en azından birkaç yıl önce bulundu).


1
Çözümü “temel birim” olarak formüle etmenin eşit derecede etkili olduğunu düşünüyor musunuz? Demek istediğim, baz ünitenin kişi mi yoksa röportaj mı olduğunu göz önünde bulundurmalısınız. İnsanların 1 / 2'si bir başa sahip olacak, ancak görüşmelerin 1 / 3'ü olacak. Ardından ana ünitemizi seçmek için soruyu ve cümleyi "Bu röportajın bir" kafa "sonucu ile ilişkilendirilme şansı nedir?" Şeklinde tekrar gözden geçirebiliriz.
Jonathan,

1
SB olmuştur kaç görüşmeler bilmiyor ve soru hakkındadır onun olasılık değerlendirmesi, değil denemecileri değerlendirmesinde. Onun bakış açısından, görüşme sayısı tespit edilemez.
whuber

2
Bence önce literatürdeki argümanları okumalısın, Aaron. (Bir susuzluk olduğumu itiraf ediyorum, ama sanırım buçuklar mantığınızı ikna edici bulmayacaklar. En azından, onlara argümanlarının neden kusurlu olduğunu göstermeniz gerekiyor.)
whuber

1
Adil nokta, @whuber, şimdi literatüre daha fazla baktım. Ellis'in Uyuyan Güzelini okuyorum : Elga'ya cevap . '4 bölümünün başında beni endişelendiren bu cümle. Benim tartışmam '. "Sadece merkezlenmiş veya merkezlenmemiş yeni ilgili kanıtlar güvenilirlikte bir değişiklik yaratır". Daha fazla düşüneceğim ve belki bunun hakkında tekrar blog yazacağım. Bu konuda yedi doktora öğrencisiyle uzun bir tartışma yaptım!
Aaron McDaid,

1
Uyuyan Güzel, uyandığında takvime bakabilir mi? Pazartesi, o zaman P (X = kafa) = 0.5 yanıt vermeli. Salı ise, o zaman P (X = kafa) = 0.
RobertF

25

St.Petersburg paradoksu yapar, sen kavram ve anlamı üzerine farklı düşünüyorum Beklenen Değer . Sezgi (çoğunlukla istatistiklere sahip kişiler için ) ve hesaplamalar farklı sonuçlar veriyor.


5
Sevdiğim başka bir şey, kendisine bir isim eklenmemiş, ancak benzer bir tada ve ilginç bir istatistiksel derse sahip olduğu için yeterince bilinmeyen görünüyor: sıfır, ortalama sıfır ve tekdüze bir dizi bağımsız rastgele değişken dizisi var. , dağılımda standart bir normal (tıpkı CLT gibi birleştiği şekilde sınırlı fark . Ancak, (veya favori pozitif numaranız). X1,X2,nX¯nN(0,1)Var(nX¯n)17
kardinal

@cardinal Bu konuyla ilgili bazı detayları ayrı bir cevap olarak yayınlama şansınız var mı?
Silverfish

@Silver Her ortalama sıfır ve varyans olan bir Normal dağılımı olsun . Ne olurdu için asimptotik gibi bakmak zorunda yakınsama için? Xif(n)fVar(nX¯n)
whuber

@whuber Herhalde şunu söylemeliyim ki, varyansı ; bu durumda ( bağımsızlığını kullanarak ) bizde yakınsayacaksa, dizisinin Cesàro toplanabilir olması gerekir mi? Xif(i)XiVar(nX¯n)=1ni=1nf(i)f(i)Var(nX¯n)
Silverfish

22

Jeffreys-Lindley paradoks bazı koşullarda tamamen çelişkili cevaplar verebilir hipotez testi frequentist ve Bayes yöntemleri varsayılan olduğunu gösteriyor. Kullanıcıları bu test yöntemlerinin tam olarak ne anlama geldiğini düşünmeye ve gerçekten bunun ne istediğini düşünmeye zorlamaktadır. Yeni bir örnek için bu tartışmaya bakın .


20

Ünlü iki kız yanıltması var:

İki çocuklu bir ailede , çocuklardan biri kızsa , her iki çocuğun da kız olma olasılığı nedir?

Çoğu insan sezgisel olarak söylüyor 1/2, ama cevap şu ki 1/3. Mesele, temelde, tek tip olarak , rastgele “bir kız kardeşi olan tüm kızlardan bir kızın” seçilmesi, “iki aileli ve en az bir kız çocuğu olan tüm ailelerden bir aileyi aynı şekilde seçmek ” ile aynı değildir .


Bu, sezgiyle dokunacak kadar basittir, anladıktan sonra, ancak anlaşılması daha zor olan daha karmaşık sürümler vardır:

İki çocuklu bir ailede, çocuklardan birinin Salı günü doğan bir çocuk olması durumunda, her iki çocuğun da erkek olma olasılığı nedir? (Cevap: 13/27)

İki çocuklu bir ailede, çocuklardan biri Florida adında bir kızsa , her iki çocuğun da kız olma olasılığı nedir? (Cevap: "Florida" nın son derece nadir bir isim olduğunu varsayarak 1/2'ye çok yakın)


Tüm bu bulmacalar hakkında daha fazla bilgi bu cevapta bulunabilir .
(Ayrıca: Salı günü doğan oğlan hakkında daha fazla bilgi, Florida adındaki kız hakkında daha fazla bilgi )


3
Cevap kesinlikle 1/3değil 2/3mi? Sadece bir tanesiGB, BG, GG
Martin Smith

3
"Salı günü doğmuş çocuk" makalesi güzel. Çok açık bir şekilde ifade edilen asıl mesele ("sorun az tanımlanmıştır"), cevabın, birinin benimseme olasılığı modeline bağlı olmasıdır. "13" yanıtının 13/27 olduğunu söylemek yanıltıcıdır (en iyi ihtimalle).
whuber

@Martin: heop whoops :)
BlueRaja - Danny Pflughoeft

2
Bu sorunların bu kadar kafa karıştırıcı olmasının sebebi, sorunun hipotez alanının ne olduğunu tespit etmenin çok zor olması için sorunun ifade edilmesidir. Bu da, “eşit derecede muhtemel” davaların gerçekte ne olduğu (ve dolayısıyla neyin sayılması gerektiği) konusunda kafa karıştırıcıdır.
olasılık

1
Arsız olmak gibi hissediyorum ve sorunun ifade edilme şeklinin gerçekten sadece çocukların sıraları açısından değiştirilebildiğini gösterdiğini - çocuğun bir kız olduğunu bilmek bize ilk mi yoksa ikinci çocuk mu olduğunu söylemediğini gösteriyor. . Bunun anlamı . Ama başka hiç bir şey! Dolayısıyla, gerçekten söyleyebileceğimiz, başka bir kızın olasılığının, . Sayısal bir değer elde etmek için verilen bilgilerle yapılamayan olasılıkları atamamızı gerektirir. p(B1G2)=p(G1B2)p(G1G2)2p(B1G2)+p(G1G2)
Olasılık

12

Üzgünüm ama kendime yardım edemiyorum (Ben de istatistiksel paradoksları seviyorum!).

Yine, belki de kendi başına bir paradoks değil , ihmal edilen değişkenlerin önyargılı bir başka örneği.

Sahte nedensellik / gerileme
Zaman eğilimi olan herhangi bir değişken, zaman eğilimi olan başka bir değişkenle de ilişkilendirilecektir. Örneğin, doğumdan 27 yaşına kadar olan kilom, doğumdan 27 yaşına kadar olan kilonuzla yüksek derecede korele olacak. Açıkçası, kilom sizin kilonuzdan kaynaklanmıyor . Olsaydı, daha sık spor salonuna gitmeni rica ediyorum, lütfen.

İşte ihmal edilen değişkenlerin açıklaması. Ağırlığım ve ağırlığınız , burada xtyt

xt=α0+α1t+ϵt andyt=β0+β1t+ηt.

Ardından, regresyon , " değişkeniyle ilişkilendirilen atlanmış bir değişkene - zaman eğilimine --- sahiptir . Bu nedenle, katsayısı önyargılı olacaktır (bu durumda ağırlıklarımız zamanla büyüdükçe pozitif olacaktır).x t γ 1

yt=γ0+γ1xt+νt
xtγ1

Zaman serisi analizi yaparken, değişkenlerinizin sabit olduğundan emin olmanız gerekir veya bu sahte nedensellik sonuçlarını alırsınız.

( Burada verdiğim kendi cevabımı küçük düşürdüğümü tamamen itiraf ediyorum .)


11

Benim favorilerimden biri Monty Hall sorunu. İlköğretim istatistik dersinde öğrendiğimi hatırlıyorum, babama, ikimizin de inançsız olduğu için rastgele sayıları simule ettiğimi ve sorunu denediğimizi söylediğimi hatırlıyorum. Şaşırtmamız için doğruydu.

Temelde sorun, bir oyun şovunda üç kapınız varsa, hangisinin ardında ödül diğeri ikisinin de hiçbir şey olmadığını, bir kapı seçip kalan iki kapının ikisinin de ödül kapısı olmadığını söylemesidir. ve eğer seçtiyseniz, mevcut kapıyı kalan kapıya çevirmelisiniz.

İşte bir R simülasyonuna bağlantı: LINK


7

Parrondo'nun Paradoksu:

Gönderen wikipdedia : olarak "Parrondo paradoksu, oyun teorisinde bir paradoks, tarif edilmiştir. Kaybetme stratejilerinin kombinasyonu bir kazanma stratejisi haline O 1996'da A'da paradoksu keşfetti yaratıcısı Juan Parrondo, adını daha açıklayıcı açıklamasıdır :

Her biri kazanma olasılığını daha yüksek kaybetme olasılığı olan oyun çiftleri var, bunun için oyunları sırayla oynayarak kazanma stratejisi oluşturmak mümkün.

Parrondo, fizikçi Richard Feynman'ın popüler hale getirdiği rastgele ısı hareketlerinden enerji çekebilecek bir makine hakkında bir düşünce denemesi olan Brown cırcırını analiziyle bağlantılı olarak bir paradoks tasarladı. Ancak, titizlikle analiz edildiğinde paradoks ortadan kaybolur. "

PB(W)=3/4+ϵPA(W)=1/10+ϵ

Ayrıca , iki IID ve korelasyonsuz seri alabileceğimizi ve bazı karışımların sıfır olmayan otokorelasyon ile sonuçlanan bir seri yaratabildiğini gösteren, alison karışımı olarak adlandırılan daha yakın bir ilişkili paradoks da var .


6

İki Çocuk Sorunu ve Monty Hall Sorununun paradoksu bağlamında sıklıkla dile getirilmesi ilginçtir. Her ikisi de ilk olarak 1889'da gösterilen, Bertrand'ın Box Paradox'u olarak adlandırılan ve her ikisini de temsil etmek için genelleştirilebilen açık bir paradoks göstermektedir. Bunu çok ilginç bir "paradoks" buluyorum çünkü aynı çok eğitimli, çok zeki insanlar bu iki soruna bu paradoksa göre zıt yollarla cevap veriyorlar. Ayrıca, çözünürlüğün zaman test edildiği Sınırlı Seçim İlkesi olarak bilinen köprü gibi kart oyunlarında kullanılan bir prensiple karşılaştırır.

Diyelim ki "kutu" diyeceğim rastgele seçilmiş bir öğeniz var. Her olası kutu iki simetrik özellikten en az birine sahiptir, ancak bazıları ikisine de sahiptir. "Altın" ve "Gümüş" özelliklerini söyleyeceğim. Bir kutunun sadece altın olma olasılığı P'dir; ve özellikler simetrik olduğundan, P aynı zamanda bir kutunun sadece gümüş olması ihtimalidir. Bu, bir kutunun sadece bir 2P özelliğine sahip olma olasılığını ve her iki 1-2P'ye sahip olma olasılığını sağlar.

Bir kutuya altın olduğu söylenir, ancak gümüş olup olmadığı söylenemezse, sadece altın P / (P + (1-2P)) = P / (1-P) olma ihtimalinin yüksek olduğunu söyleyebilirsiniz. Fakat o zaman, gümüş olduğu söylenirse, tek renkli bir kutu için aynı olasılığı belirtmeniz gerekir. Ve eğer bu olasılık P / (1-P) ise, sadece bir renge söylendiğinde, sana bir renk bile söylememiş olsa bile P / (1-P) olmalı. Ancak son paragraftan 2P olduğunu biliyoruz.

Bu belirgin paradoks, eğer bir kutu sadece bir renge sahipse, hangi rengin size söyleneceğine dair bir belirsizlik olmadığını göz önüne alarak çözülür. Ama eğer iki varsa, zımni bir seçim var. Soruyu cevaplamak için bu seçimin nasıl yapıldığını bilmek zorundasınız ve bu görünen paradoksun köküdür. Size söylenmediyse, yalnızca bir rengin rastgele seçildiğini varsayarsınız, bu da P / (P + (1-2P) / 2) = 2P cevabını verir. P / (1-P) 'nin cevap olduğu konusunda ısrar ediyorsanız, sadece rengin olmadığı sürece diğer rengin söylenmesinin mümkün olmadığını varsayıyorsunuzdur.

Monty Hall Probleminde renklerin analojisi pek sezgisel değil, P = 1/3. Aslında açılmamış iki kapıya dayanan cevaplar , ödüle sahip olma ihtimalinin eşit olması muhtemel olduğu için Monty Hall'ın bir seçeneği olsa bile yaptığı kapıyı açması gerektiğini varsayıyor. Bu cevap P / (1-P) = 1 / 2'dir. Rastgele seçmesine izin veren cevap, anahtarlamanın kazanma olasılığı için 2P = 2/3.

İki Çocuk Probleminde, analojimdeki renkler cinsiyetle oldukça iyi karşılaştırılıyor. Dört durumda, P = 1/4. Soruyu cevaplamak için, ailede bir kızın olduğuna nasıl karar verildiğini bilmemiz gerekir. Bu yöntemle ailedeki bir çocuk hakkında bilgi edinmek mümkün olsaydı, cevap P / (1-P) = 1/3 değil 2P = 1 / 2'dir. Florida adını veya “Salı günü doğmuş” ismini alırsanız bu biraz daha karmaşıktır, ancak sonuçlar aynıdır. Bir seçim varsa cevap tam olarak 1/2'dir ve sorunun çoğu ifadesi böyle bir seçim anlamına gelir. Ve 1/3'den 13/27'ye veya 1/3'den "neredeyse 1 / 2'ye" "değişmesinin" nedeni paradoksal ve sezgisel görünmüyor, çünkü hiçbir seçeneğin olmadığı varsayımını sezgisel değil.

Kısıtlı Seçim İlkesinde, aynı takımın Jack, Queen ve King gibi bazı eşdeğer kartların eksik olduğunu söyleyin. Her hangi bir kartın belirli bir rakibe ait olmasına rağmen şansı başlar. Ancak bir rakip bir oyun oynadıktan sonra, diğerlerinden herhangi birine sahip olma şansı azalır, çünkü o kartı o oynayabilirdi.


PG=PSP22P(1P)212PPG=PS=.8PGS=1.6PGS=.6P=.5

Üzgünüm, belki de mümkün olduğu kadar kısa olmaya çalışarak iyi açıklamadım. P, bir kutunun altın rengine sahip olması olasılığı değildi, sadece altın olması ihtimaliydi . Altın rengine sahip olma olasılığı 1-P'dir. Ve iki özellik simettik olsa da, bağımsız olmaları gerekmez, bu yüzden olasılıkları çoğaltamazsınız. Ayrıca, hiçbir kutu "hiçbiri" değildir. Bertrand her birinde iki jetonlu üç kutu kullandı: altın + altın, altın + gümüş ve gümüş + gümüş. Genellememde herhangi bir sayıda altın olan bir kutu "altın" dır.
JeffJo

+1, bu yardımcı olur. Şimdi "en az iki taneden biri" ifadesini ve "sadece" kelimesini gözden kaçırmış olmalıyım.
gung

6

[0,1]x,y[0,1]P(x=y)=0xy>xy<xy>x0.5


2
[0,1]yx

2

Ekolojik yanlışlığın basitleştirilmiş bir grafik gösterimini buluyorum (burada zengin Devlet / fakir Devlet oylama paradoksunu), Devlet nüfuslarını bir araya getirdiğimizde neden oy verme modellerinin tersine döndüğünü sezgisel bir düzeyde anlamama yardımcı oluyor:

görüntü tanımını buraya girin


3
Bu güzel bir örnek, ama bence bu Simpson'ın Paradoksu: en.wikipedia.org/wiki/Simpson%27s_paradox
Nick

1
@Nick: bu özel örnek aslında Simpson'un Paradoksundan farklıdır, ancak belirli bir durumda hangi yanlışlık / paradoksun uygulandığını bilmek zor olabilir, çünkü bunlar aynı istatistiksel olarak görünürler. Fark, SP'nin yalnızca alt grupları analiz ederken ortaya çıkan "yanlış bir etki" olmasıdır. Gösterilen bu eğilim, yalnızca alt grupları analiz ederken ortaya çıkan bir "gerçek etki" olduğu düşünülüyor. Bu durumda, işlenmemiş bir sayı olarak gelir toplamda oy kullanma modellerini etkilememekle birlikte, komşularınızla (eyaletinizin) elde ettiğiniz gelirin oy kullanma modellerini etkilediğini göstermektedir.
Jonathan

Bu, aşağıda tartışılan ekolojik yanlışlıktır.
Charlie

3
@Charlie 'aşağıda' ve 'yukarıda', sayfanın bir okuyucusunun sıralama şeklini (etkin / en eski / oylar) ve her durumda, sıralama ölçütlerinin bazılarının altındaki sıralamanın zaman içinde değişebileceği (varsayılan da dahil) işlevleridir . Bu nedenle, atıf yaptığınız tartışmayı yayınlayan kişiden bahsetmek, hatta hatta bağlantı vermekten bahsetmek daha iyi olur.
Glen_b

2

Bir krallığın kraliyet ailesindeki doğumlar hakkında bir veri aldığınızı varsayalım. Soy ağacında her doğum kaydedildi. Bu aileye özgü olan şey, ebeveynlerin sadece ilk çocuk doğdukları anda bir bebek sahibi olmaya çalıştıkları ve daha sonra çocukları olmadıklarıydı.

Yani verileriniz potansiyel olarak şuna benziyor:

G G B
B
G G B
G B
G G G G G G G G G B
etc.

Bu örnekteki kız ve erkeklerin oranı, bir erkek çocuğu doğurmanın genel olasılığını yansıtır mı (0,5)? Cevap ve açıklama bu başlıkta bulunabilir .


2
Bu cevap paradoks gibi değil, bulmaca gibi okur. Neden böyle yayınlamak istediğinizi hayal edebiliyorum, ancak bence bu cevabın paradoks olarak nitelenmesi ve bu konuya uyması için daha açık olmanız gerekir.
amip

2
Bu soru (kızlarla ve erkeklerle birlikte), çok sayıda cevap aldı - tamamen anlaşmaya varılmadı - istatistiklerine sordu . (Bir problemi ciddiye alarak ve daha gerçekçi bir şekilde düşünerek, bunu yapmak için gereken varsayımları keşfederek bir şey öğrendim.)
whuber

@whuber bağlantı için teşekkürler! Açıklamaya ekledim.
Tim

2

Bu Simpson'un Paradoksu'dur, ancak 'geriye doğru' olduğu kadar ileriye de, Judea Pearl'ün yeni İstatistik İstatistiki Nedensel Çıkarımı kitabından geliyor : Bir astar [^ 1]

Klasik Simpon'un Paradoksu şöyle çalışır: iki doktor arasında seçim yapmayı düşünün. En iyi sonuçlara sahip olanı otomatik olarak seçersiniz. Ancak, en iyi sonuçlara sahip olanı en kolay vakaları seçtiğini varsayalım. Diğerinin fakir kaydı, zor işlerin bir sonucudur.

Şimdi kimi seçtin? Zorlukla sınıflandırılan sonuçlara bakmak ve daha sonra karar vermek daha iyidir.

Tabakanın sonuçlarının sizi yanlış seçime götürebileceğini söyleyen madalyonun başka bir tarafı (başka bir paradoks) var.

Bu kez bir ilaç kullanmayı ya da kullanmamayı düşünün. İlaç toksik bir yan etkiye sahiptir, ancak terapötik etki mekanizması kan basıncını düşürmektir. Genel olarak, ilaç popülasyondaki sonuçları iyileştirir, ancak tedavi sonrası kan basıncını sınıflandırırken sonuçlar hem düşük hem de yüksek kan basıncı gruplarında daha kötüdür. Bu nasıl doğru olabilir? Çünkü istemeden sonucu üzerinde katmanlaşmıştık ve her sonucun içinde gözlemlenmesi gereken tek şey toksik yan etki.

Açıklığa kavuşturmak için, ilacın kırılmış kalpleri düzeltmek için tasarlandığını düşünün ve bunu kan basıncını düşürerek yapar ve kan basıncını katmanlaştırmak yerine sabit kalpleri katmanlaştırırız. İlaç çalıştığında, kalp sabittir (ve kan basıncı daha düşük olacaktır), ancak bazı hastalar da toksik yan etki görecektir. İlaç çalıştığı için, 'sabit kalp' grubunda, ilacı 'kırık' kalp grubunda alan hastalardan çok, ilacı alan daha fazla hasta olacaktır. İlacı alan daha fazla hasta, ilacı almayan hastalar için daha fazla hastaya yan etkiler ve görünüşe göre (ancak yanlış) daha iyi sonuçlar anlamına gelir.

İlacını almadan iyileşen hastalar çok şanslı. İlacı alan ve iyileşen hastalar, ilaca daha iyi olması için ihtiyaç duyanların ve yine de şanslı olanların bir karışımıdır. Sadece “kalpleri sabit” olan hastaları incelemek , ilacı almaları durumunda sabitlenmiş olan hastaları dışlamak anlamına gelir . Bu tür hastaları dışlamak, ilacı almamaktaki zararı dışlamak anlamına gelir; bu da , yalnızca ilacı almanın zararını gördüğümüz anlamına gelir .

Simpson'ın paradoksu, doktorunuzun yalnızca zor vakaları yapması gibi, tedavi dışında bir sonuç için bir neden olduğunda ortaya çıkar. Yaygın nedene göre kontrol etmek (zor ve kolay vakalara karşı) gerçek etkiyi görmemizi sağlar. İkinci örnekte, kasti olmayan bir sonucu kasten belirlemedik, bunun nedeni, gerçek cevabın toplamı tabakalı verilerde değil toplamda olmasıdır.

[^ 1]: Pearl J. İstatistiki Nedensel Çıkarım. John Wiley ve Oğulları; 2016


2

Benim "favorilerim" den biri, birçok araştırmanın yorumlanmasında beni çıldırtan şeylerden biri (ve sadece yazarlar tarafından değil, çoğu zaman yazarlar tarafından) Survivorship Bias .

Hayal etmenin bir yolu , deneklere çok zarar verebilecek bir etkisinin olduğunu , yani onları öldürmek için çok iyi bir şansı olduğunu varsayalım . Çalışmadan önce denekler bu etkiye maruz kalırsa , o zaman çalışma başladığında, halen canlı olan maruz kalanların alışılmadık derecede esnek olma olasılıkları çok yüksektir. İşyerinde kelimenin tam anlamıyla doğal seleksiyon. Böyle bir durumda, çalışma, pozlama ima aslında olduğu gibi .Bu genellikle yanlış olduğu (bütün sağlıksız olanları zaten ölmüş veya etkisine maruz olmanın durdurmak emin yaptı beri) o maruz hastalara sıra dışı sağlıklı gözlemleyecek iyi konular için. Bu, kısaltmanın yok sayılmasının bir sonucudur (yani, ölen ve çalışmayı başaramayan denekleri görmezden gelmek).

Benzer şekilde, çalışma sırasında etkiye maruz kalmayı bırakan denekler genellikle inanılmaz derecede sağlıksızdır: bunun nedeni sürekli maruz kalmanın muhtemelen onları öldüreceğini fark etmeleridir. Ancak çalışma sadece istifa edenlerin çok sağlıksız olduklarını gözlemliyor!

@ Charlie'nin İkinci Dünya Savaşı bombardıman uçakları hakkındaki cevabı bunun bir örneği olarak düşünülebilir, ancak birçok modern örnek var. Son bir örnek, günde 8+ fincan kahve içmenin rapor olduğunu gösteren çalışmalar.(!!) 55 yaşın üzerindeki bireylerde çok daha yüksek kalp sağlığıyla bağlantılıdır. Doktora sahip birçok insan, çalışmanın yazarları da dahil olmak üzere "kahve içmek kalbinize iyi gelir!" Olarak yorumladı. Bunu 55 yaşından sonra günde 8 bardak kahve içmeye devam etmek ve kalp krizi geçirmemek için inanılmaz sağlıklı bir kalbe sahip olmanız gerektiğinden okudum. Sizi öldürmezse bile, bir şey sağlığınız için endişe verici göründüğü an, sizi seven herkes (artı doktorunuz) derhal kahve içmeyi bırakmaya teşvik edecektir. Diğer çalışmalar, çok fazla kahve içmenin daha genç gruplarda hiçbir faydalı etkisinin olmadığını buldu, bunun olumlu bir nedensel etkiden ziyade bir hayatta kalma etkisi gördüğümüze dair daha fazla kanıt olduğuna inanıyorum. Yine de etrafta dolaşan birçok doktora var "


Yorumundan emin değilim. Norveç'te günde 8 bardak kahve içmek hiç olağandışı değildir, ortalama değer (çocuklar ve diğer acele olmayanlar dahil) günde iki bardak civarındadır. Finlandiya'da ortalama günde yaklaşık 2,5 fincandır. Günde 10 bardak daha mor içki içerdim, ama artık değil.
kjetil b halvorsen


-2

X, y ve z ilişkisiz vektörler olsun. Yine de x / z ve y / z ilişkilendirilecektir.


2
Bu neden bir paradoks? sezgisel görünüyor.
lcrmorin

2
Bu genellikle böyle olmasaydı şaşırırdım.
Glen_b

1
x/zx/zzX,Y,Z
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.