Aşağıda, Simpson paradoksunun varlığına dair 'resimle kanıt' olarak sunulan birçok görselleştirme ve muhtemelen terminoloji ile ilgili bir soru yer almaktadır.
Simpson Paradoksu, nümerik örnekleri tanımlamak ve vermek için oldukça basit bir olgudur (bunun olmasının nedeni derin ve ilginçtir). Paradoks, marjinal ilişkinin her koşullu ilişkiden farklı bir yöne sahip olduğu 2x2x2 olasılık tablolarının (Agresti, Kategorik Veri Analizi) mevcut olmasıdır.
Yani, iki alt popülasyondaki oranların karşılaştırılması her iki yönde de olabilir, ancak birleştirilmiş popülasyondaki karşılaştırma diğer yöne gider. Sembollerde:
Orada mevcut , öyle ki , bir + b
ama ve
Bu, aşağıdaki görselleştirmede doğru bir şekilde temsil edilir ( Wikipedia'dan ):
Bir fraksiyon basitçe karşılık gelen vektörlerin eğimidir ve örnekte daha kısa B vektörlerinin karşılık gelen L vektörlerinden daha büyük bir eğime sahip olduğunu görmek kolaydır, ancak birleştirilmiş B vektörü birleşik L vektöründen daha küçük eğime sahiptir.
Birçok formda, özellikle Simpson'ın bu wikipedia referansının önünde çok yaygın bir görselleştirme var:
Bu, karıştırmanın harika bir örneğidir, gizli bir değişkenin (iki alt popülasyonu ayıran) nasıl farklı bir desen gösterebileceği.
Bununla birlikte, matematiksel olarak, böyle bir görüntü, hiçbir şekilde Simpson'ın paradoksu olarak bilinen fenomenin temelinde olan beklenmedik durum tablolarının görüntülenmesine karşılık gelmez . Birincisi, regresyon çizgileri, bir beklenmedik durum tablosundaki verileri saymaz, gerçek değerli nokta seti verilerinin üzerindedir.
Ayrıca, regresyon çizgilerindeki eğimlerin keyfi ilişkisi olan veri kümeleri oluşturulabilir, ancak beklenmedik durum tablolarında, eğimlerin ne kadar farklı olabileceği konusunda bir kısıtlama vardır. Yani, bir popülasyonun regresyon çizgisi , verilen alt popülasyonların tüm regresyonlarına dik olabilir . Ancak Simpson'ın Paradoksunda, alt popülasyonların oranları, bir regresyon eğimi olmasa da, diğer yönde olsa bile, birleştirilmiş popülasyondan çok fazla uzaklaşamaz (tekrar, Wikipedia'dan oran karşılaştırma görüntüsüne bakın).
Benim için, bu ikinci görüntüyü Simpson paradoksunun bir görselleştirmesi olarak her gördüğümde şaşırtılmak yeterli. Ama her yerde (yanlış dediğim) örnekleri gördüğüm için, merak ediyorum:
- Acil durum tablolarının orijinal Simpson / Yule örneklerinden, regresyon çizgisi görselleştirmesini haklı çıkaran gerçek değerlere ince bir dönüşümü kaçırıyor muyum?
- Kesinlikle Simpson's karıştırıcı hatanın özel bir örneğidir. 'Simpson'ın Paradoksu' terimi şimdi karıştırıcı bir hatayla eşitlendi mi , böylece matematik ne olursa olsun, gizli bir değişken aracılığıyla yönündeki herhangi bir değişiklik Simpson'ın Paradoksu olarak adlandırılabilir mi?
Zeyilname: 2xmxn (veya sürekli olarak 2 m) tabloya genelleme örneği:
Eğer atış türü üzerinde bir araya getirilmişse, savunmacılar yaklaştıkça bir oyuncu daha fazla atış yapar gibi görünüyor. Atış tipine göre gruplanmış (sepetten gerçekten mesafe), daha sezgisel olarak beklenen durum meydana gelir, daha fazla atış yapılması savunucuların uzaklaşmasıdır.
Bu görüntü, Simpson'ın daha sürekli bir duruma (savunucuların mesafesi) genelleştirilmesi olarak düşündüğüm şeydir. Ama hala regresyon çizgisi örneğinin Simpson'ın bir örneği olduğunu henüz göremiyorum.