Aynı Ortalama, Farklı Varyans

Bir yarışta sekiz koşucunuz olduğunu varsayalım; münferit çalışma sürelerinin dağılımı Normal'dir ve her birinin ortalama saniyesi vardır . Birinci koşucunun standart sapması en küçük, ikincisi en küçük, üçüncü en küçük, vb. Sekiz büyüktür. İki soru beni şaşırtıyor: (1) Birincinin sonuncusunu geçme olasılığı nedir ve (2) yarışı kazanma olasılığı en yüksek olan nedir? $11$

Cevaplarım sırasıyla ve . Aynı ortalamayı paylaştıkları için olasılığı sadece , değil mi? İkinci kısmı nasıl titizlikle gösterebilirim ve tam bir kazanma olasılığı hesaplanabilir mi? Şimdiden teşekkürler. $1/2$ $8$ $\bar x_1-\bar x_8\lt 0$ $1/2$

— George Tedder
kaynak

(Rastgele değişken olarak modellenen ilk karşılaştıran @Silverfish son için) ( , bağımsız farz ), sadece dikkate almak gerekir . Bu sıfır ortalama ile simetrik bir sürekli dağılıma sahiptir. İlk vuruşların son şansı (simetri ve süreklilik açısından) iddia edildiği gibi eşit olan . Sonuncunun yarışı kazanma şansı daha yüksek olsa da, bir paradoks yoktur: çoğu zaman ilk atışın bittiği zaman, başka biri aslında yarışı kazanır.

X_{1}

$X_1$

X_{n}

$X_n$

X_{1}

$X_1$

Z = X_{1} - X_{n}

$Z=X_1-X_n$

Z < 0

$Z\lt 0$

1 / 2

$1/2$

— whuber

@whuber Teşekkür ederim, ne demek istediğimi bozmayı başardım - karışıklığı önlemek için kaldırılacak. 1/2 rakamı doğru, ancak ortalama sürelerini karşılaştırmanın cevabı yanlış ve popülasyon araçlarıyla karışıklığı davet ediyor gibi görünüyor. , fark .

\bar{x_{i}}

$\bar{x_i}$

X_{i}

$X_i$

— Silverfish

@Gümüş Bu, tanıdık geldiği için birisinin gösteriminin ne anlama geldiğini her zaman bildiğimizi varsaymanın tehlikesini vurgular. Amaçlanan anlam yeterince açıktı ve hiçbirinin muhtemelen herhangi bir şeyin ortalamasını temsil edemeyeceğini ima ettiğinden dolayı ( "ve" "üzerinde genel görünen) bu sorunu ele : bu bağlamda rastgele değişkenleri temsil etmek zorundalar kendileri ( ve yazdım ).

x_{1}

$x_1$

x_{8}

$x_8$

X_{1}

$X_1$

X_{n}

$X_n$

— whuber

Kesin bir olasılık hesaplanamasa da ( ile özel durumlar hariç ), yüksek doğruluk için hızlı bir şekilde sayısal olarak hesaplanabilir. Bu sınırlamaya rağmen, en büyük standart sapmaya sahip koşucunun en büyük kazanma şansına sahip olduğu kanıtlanabilir. Şekil durumu gösterir ve bu sonucun neden sezgisel olarak açık olduğunu gösterir: $n \le 2$

şekil

Beş koşucunun zamanları için olasılık yoğunlukları gösterilmiştir. Tümü ortak bir ortalamada sürekli ve simetriktir . (Ölçeklendirilmiş Beta yoğunlukları tüm zamanların pozitif olmasını sağlamak için kullanılmıştır.) Koyu mavi renkle çizilen bir yoğunluk çok daha fazla yayılmıştır. Sol kuyruğundaki görünür kısım, başka hiçbir koşucunun genellikle eşleşemeyeceği zamanları temsil eder. Nispeten geniş alanı ile bu sol kuyruk, dikkate değer olasılığı temsil ettiğinden, bu yoğunluğa sahip koşucu yarışı kazanma şansı en yüksektir. (Son olarak gelme şansları da en yüksek!) $\mu$

Bu sonuçlar sadece Normal dağılımlardan daha fazlası için kanıtlanmıştır: burada sunulan yöntemler simetrik ve sürekli dağılımlar için de aynı derecede geçerlidir . (Bu, çalışma sürelerini modellemek için Normal dağılımları kullanmaya itiraz eden herkes için ilgi çekici olacaktır.) Bu varsayımlar ihlal edildiğinde, en büyük standart sapmaya sahip koşucunun kazanma şansının en yüksek olması mümkün olmayabilir (Karşı örneklerin yapısını terk ediyorum) ancak yine de en yüksek SD'ye sahip koşucunun SD'nin yeterince büyük olması koşuluyla en iyi kazanma şansına sahip olacağını daha hafif varsayımlar altında kanıtlayabiliriz.

Şekil ayrıca, aynı sonuçların, bir dağılımın sadece bir tarafa dağılımını ölçen tek taraflı standart sapma analogları ("semivariance" olarak adlandırılır) dikkate alınarak elde edilebileceğini düşündürmektedir. Sola iyi dağılmış bir koşucunun (daha iyi zamanlara doğru), dağıtımın geri kalanında ne olursa olsun, kazanma şansı daha yüksek olmalıdır. Bu düşünceler , en iyi olma özelliğinin (grup halinde) ortalamalar gibi diğer özelliklerden nasıl farklı olduğunu anlamamıza yardımcı olur .

Let ikincilere kez temsil rastgele değişkenler. Soru onlar bağımsız ve Normalde yaygın ortalama ile dağıtılan varsayar . (Bu kelimenin tam anlamıyla imkansız bir model olmasına rağmen, negatif zamanlar için olumlu olasılıklar içerdiği için, standart sapmaların küçük olması şartıyla, yine de gerçekliğe makul bir yaklaşım olabilir .) $X_1, \ldots, X_n$ $\mu$ $\mu$

Aşağıdaki argümanı gerçekleştirmek için, bağımsızlık varsayımını , ancak dağılımlarının tarafından ve bu dağıtım yasalarının herhangi bir şey olabileceğini . Kolaylık sağlamak için, aynı zamanda dağıtım varsayalım yoğunluğu ile süreklidir . Daha sonra, gerektiğinde, Normal dağılımları içermeleri koşuluyla ek varsayımlar uygulayabiliriz. $X_i$ $F_i$ $F_n$ $f_n$

Herhangi bir ve sonsuz küçük , son koşucunun aralıkta bir zamana sahip olma şansı ve en hızlı koşucu olma şansı, ilgili tüm olasılıkların çarpımı ile elde edilir (çünkü tüm zamanlar bağımsızdır): $y$ $dy$ $(y-dy, y]$

Pr (X_{n} \in (y - d y, y], X_{1} > y, \dots, X_{n - 1} > y) = f_{n} (y) d y (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) .

$\Pr(X_n \in (y-dy, y], X_1 \gt y, \ldots, X_{n-1} \gt y) = f_n(y)dy(1-F_{1}(y))\cdots(1-F_{n-1}(y)).$

Tüm bu birbirini dışlayan olasılıklar üzerine entegre olmak

Pr (X_{n} \leq min (X_{1}, X_{2}, \dots, X_{n - 1})) = \int_{R} f_{n} (y) (1 - F_{1} (y)) \dots (1 - F_{n - 1} (y)) d y .

$\Pr(X_n \le \min(X_1, X_2, \ldots, X_{n-1})) = \int_{\mathbb R} f_n(y)(1-F_1(y))\cdots(1-F_{n-1}(y)) dy.$

Normal dağılımlar için bu integral olduğunda kapalı biçimde değerlendirilemez : sayısal değerlendirmeye ihtiyaç vardır. $n\gt 2$

şekil

Bu şekil, 1: 2: 3: 4: 5 oranında standart sapmalara sahip beş koşucunun her biri için integrali çizer. SD büyüdükçe, işlev sola doğru kaydırılır ve alanı büyür. Alanlar yaklaşık% 8: 14: 21: 26: 31'dir. Özellikle, en büyük SD'ye sahip koşucunun kazanma şansı% 31'dir.

Kapalı bir form bulunamasa da, hala sağlam sonuçlar çıkarabilir ve en büyük SD'ye sahip koşucunun kazanma olasılığının yüksek olduğunu kanıtlayabiliriz . değiştiği dağılımlardan birinin standart sapması olarak neler olduğunu incelememiz gerekiyor . Rasgele değişken , ortalamasının etrafında ile yeniden ölçeklendiğinde , ile çarpılır ve , olarak . Değişken bir değişikliği yapmak integrali olarak atlet şansı için bir ifade verir bir fonksiyonu olarak, kazanan : $F_n$ $X_n$ $\sigma \gt 0$ $\sigma$ $f_n(y)dy$ $f_n(y/\sigma)dy/\sigma$ $y=x\sigma$ $n$ $\sigma$

ϕ (σ) = \int_{R} f_{n} (y) (1 - F_{1} (y σ)) \dots (1 - F_{n - 1} (y σ)) d y .

$\phi(\sigma) = \int_{\mathbb R} f_n(y)(1-F_1(y\sigma))\cdots(1-F_{n-1}(y\sigma)) dy.$

Şimdi tüm dağılımlarının medyanlarının eşit olduğunu ve tüm dağılımların simetrik ve sürekli olduğunu, yoğunlukları . (Bu kesinlikle sorunun koşulları altında geçerlidir, çünkü Normal bir ortanca ortalamasıdır.) Değişkenin basit (bölgesel) değişimi ile bu ortak medyanın olduğunu varsayabiliriz ; simetri aracı ve tüm . Bu ilişkiler ayrılmaz over birleştirmek sağlayacak ayrılmaz ile işleyebilir vermek üzere $n$ $f_i$ $0$ $f_n(y) = f_n(-y)$ $1 - F_j(-y) = F_j(y)$ $y$ $(-\infty, 0]$ $(0,\infty)$

ϕ (σ) = \int_{0}^{\infty} f_{n} (y) (\prod_{j = 1}^{n - 1} (1 - F_{j} (y σ)) + \prod_{j = 1}^{n - 1} F_{j} (y σ)) d y .

$\phi(\sigma) = \int_0^{\infty} f_n(y)\left(\prod_{j=1}^{n-1}\left(1-F_j(y\sigma)\right)+\prod_{j=1}^{n-1}F_j(y\sigma)\right) dy.$

Fonksiyon ayırt edilebilirdir. İntegrali ayırt ederek elde edilen türevi, her terimin formda olduğu integrallerin toplamıdır $\phi$

y f_{n} (y) f_{i} (y σ) (\prod_{j \neq i}^{n - 1} F_{j} (y σ) - \prod_{j \neq i}^{n - 1} (1 - F_{j} (y σ)))

$y f_n(y) f_i(y\sigma)\left(\prod_{j\ne i}^{n-1}F_j(y\sigma) - \prod_{j\ne i}^{n-1}(1-F_j(y\sigma))\right)$

için . $i=1, 2, \ldots, n-1$

Dağılımlar hakkında yaptığımız varsayımlar , için için tasarlanmıştır . Bu nedenle, , sol üründeki her terim, doğru üründeki karşılık gelen terimini aşar, bu da ürünlerin farkının negatif olması anlamına gelir. Diğer faktörler açıkça negatif değildir çünkü yoğunluklar negatif olamaz ve . Biz sonucuna varabilir için , kanıtlayan şans o oyuncu standart sapmayla kazanç artar . $F_j(x) \ge 1-F_j(x)$ $x\ge 0$ $x=y\sigma\ge 0$ $y f_n(y) f_i(y\sigma)$ $y\ge 0$ $\phi^\prime(\sigma) \ge 0$ $\sigma \ge 0$ $n$ $X_n$

Bu, standart sapması yeterince büyük olduğu sürece, koşucu kazanacağını kanıtlamak için yeterlidir. Bu oldukça tatmin edici değildir, çünkü büyük bir SD fiziksel olarak gerçekçi olmayan bir modelle sonuçlanabilir (negatif kazanma sürelerinin kayda değer şansları vardır). Ancak tüm dağılımların standart sapmalarının dışında aynı şekillere sahip olduğunu varsayalım . Bu durumda, hepsi aynı SD'ye sahip olduğunda, bağımsız ve aynı şekilde dağıtılır: hiç kimsenin kazanma şansı herkesten daha büyük veya daha az olamaz, bu nedenle tüm şanslar eşittir ( ). Tüm dağıtımları koşucu göre ayarlayarak başlayın $n$ $X_n$ $X_i$ $1/n$ $n$ . Şimdi diğer tüm koşucuların SD'lerini kademeli olarak birer birer azaltın. Bu o, şans gerçekleştikçe tüm diğer koşucular şansı azaldı varken kazanç azaltmak olamaz. Sonuç olarak, en büyük kazanma şansı olan QED'e sahiptir . $n$ $n$

— whuber
kaynak

@Phonon Doğru. (Ancak, dağılımları örneklerden elde edilen tahminlerle karıştırmayın. Dağıtım, bir veri kümesi değil, matematiksel bir modeldir.) SD'yi faktörü ile artırmak , örneğin yatay ekseni eşit şekilde uzatır. (Toplam Olasılık Yasası ile) yoğunluk fonksiyonu bir birim alanı kapsayacağından, bu gerilme dikey eksenin gerilmesi ile telafi edilmeli ve böylece tüm alanlar korunmalıdır . Böylece, daha küçük SD'ler daha uzun piklere ve daha büyük SD'leri daha kısa piklere karşılık gelir.

λ

$\lambda$

1 / λ

$1/\lambda$

— whuber

Cevabınız için çok teşekkürler, mükemmel mantıklı. Dolayısıyla, bu anlamda tek başına en yüksek değerlerin bilgisi oldukça önemlidir.

— Phonon