Bugün Usain Bolt'tan daha hızlı biri var mı?


12

EDIT: Örnek bir istatistik verilen belirli bir popülasyonda "gerçek" bir maksimum olasılığını belirleme teknik konular ve metodoloji ile daha fazla ilgileniyorum. Hem açık hem de ince olan rekor kıran çizgi zamanlarından Bay Bolt'tan daha hızlı koşucu olasılığını tahmin etmekte sorunlar var. Durumun böyle olmadığını hayal ederek beni mizah edin.


Usain Bolt, 100 metrelik çizgi için ölçülen en hızlı insandır. Bununla birlikte, az sayıda sporcu göz önüne alındığında, "gerçek" en hızlı insan canlı bir yerde bir kanepede oturuyor ve asla rekabetçi bir koşu kariyeri denememiş gibi görünüyor.

Normal dağılımın kuyruklarındaki örnekler arasındaki farkın küçüldüğünü kullanmaya çalışıyorum. Bunu, Usain'i en hızlı 2., en hızlı 3. ve benzeri ile karşılaştırarak Usain Bolt'tan daha hızlı biri olması olasılığını hesaplamak için kullanıyorum.

Bunu yapmak için, ben bakımından normal bir dağıtımın CDF'nin türevini alarak "Usain Bolt" ötesinde var en büyük değeri hesaplamak için çalışıyorum o yükselterek, th (burada 7,000,000,000 veya numaranın hakkındadır "maksimum" dan küçük örnekler - bunun arkasındaki mantık, farklı dağılımlar arasında genelleşen Alman Tank Sorunu Wikipedia sayfasında açıklanmıştır ), örneğin:n nynn

0yfYN-(y)dy=λn0y[12[1+erf(y-μσ2)]]n-112πσ2e-(y-μ)22σ2dy

  1. Bu, Usain Bolt'tan daha hızlı birinin var olma olasılığını hesaplamanın geçerli bir yolu mu?

  2. "Diğer dağıtımlarda Alman Tank Sorunu" dışında bu tür bir soru için bir isim var mı?

  3. Bir dağılımın uç örneklerinden standart sapmayı tahmin etmenin iyi bir yolu var mı? Tüm zamanların en hızlı 100 metrelik çizgileri hakkında bilgi bulmak kolaydır, ortalamaları ve sapmaları bulmak zordur)

Konuda arka planı olmayan bir programcıya gösterdiğiniz sabır için teşekkür ederiz.


2
Sporcu olup olmadığınızı koşu hızınızdan bağımsız olarak kabul edersiniz. Hangi Tamam, ama tartışmalı.
bayerj

@bayerj Evet, bunun bir sonraki Olimpiyat yarışmacısını tahmin etmenin gerçekten kötü bir yolu olacağı açık. Ancak, genel olarak ilginç bir soru gibi görünüyor ve birisine acıma ve bana yardımcı olma umuduyla bunu en iyi şekilde cevaplamaya çalışıyorum.
ŹV -

1
Burada "hızlı (er)" olmanın kalitesi, yüksek hıza ulaşmanın gerçek kapasitesine değil, genetik bir potansiyele veya atletik yeteneğe atıfta bulunduğundan, sorulan soruyu kötü buluyorum.
Digio

@Digio Bazı şirket "Fubarco" normal olarak dağıtılmış seri numaralarına sahip bir dizi ürün olduğunu varsayarsak "daha hızlı" ile "daha yüksek seri numarası" değiştirin.
ŹV -

1
Bir soruyu örnek olmadan motive etmek genellikle iyi bir şeydir. Ancak, bu örnek insanları gerçekten sormaya çalıştığınız şeyden uzaklaştırıyor gibi görünüyor. Gerçekte karşılaştığınız durumu tartışmak için bunu düzenleyebilir misiniz?
gung - Monica'yı eski durumuna döndürün

Yanıtlar:


2

Diğer cevapların aksine, mevcut veriler verildiğinde Cıvata yetenekleri hakkında bir şeyler söyleyebileceğinizi iddia ediyorum. Her şeyden önce, sorunuzu daraltalım. En hızlı insanı soruyorsunuz, ancak en iyi kadın koşucu kadının en iyi erkek koşuculardan biraz daha yavaş olduğu erkek ve kadın için koşu hızlarının dağılımında bir fark olduğu için, erkek koşuculara odaklanmalıyız. Bazı veriler elde etmek için , son 45 yıldan 100'lü yılların en iyi yıl performanslarına bakabiliriz . Bu veriler hakkında dikkat edilmesi gereken birkaç nokta vardır:

  • Bunlar en iyi çalışma süreleridir, bu yüzden bize tüm insanların yeteneklerini değil, elde edilen minimum hızları anlatmazlar.
  • Bu verilerin dünyadaki en iyi koşucu örneklerini yansıttığını varsayıyoruz. Şampiyonalara katılmayan daha iyi koşucular olsa da, bu varsayım oldukça makul görünmektedir.

İlk olarak, bu verilerin nasıl analiz edilmeyeceğini tartışalım . Çalışma zamanlarını zamana karşı çizersek, güçlü bir doğrusal ilişki gözlemleyeceğimizi fark edebilirsiniz.

En iyi çalışma süreleri ve zaman

Bu, sonraki yıllarda ne kadar iyi koşucu gözlemleyebileceğimizi tahmin etmek için doğrusal regresyon kullanmaya yönlendirebilir. Ancak bu çok kötü bir fikir olacaktır, bu kaçınılmaz olarak yaklaşık iki bin yıl içinde insanların sıfır saniyede 100 metre koşabilecekleri ve bundan sonra negatif çalışma sürelerine ulaşacakları sonucuna götürecektir! Bu açıkçası saçmadır, çünkü kapasitelerimizin bir çeşit biyolojik ve fiziksel sınırı olduğunu hayal edebiliyoruz, bu bizim için bilinmiyor.

Bu verileri nasıl analiz edebilirsiniz? İlk olarak, minimum değerlerle ilgili verilerle uğraştığımıza dikkat edin, bu nedenle bu veriler için uygun modeli kullanmalıyız. Bu bizi aşırı değer teorisi modellerini göz önünde bulundurmaya yönlendirir (bkz. Örneğin Stuart Coles'in Aşırı Değerlerin İstatistiksel Modellenmesine Giriş kitabı). Bu veriler için genelleştirilmiş aşırı değer dağılımı (GEV) olduğunu varsayabilirsiniz . Eğer burada bağımsız ve aynı rastgele değişkenler dağıtılır, daha sonra 'in bir GEV'in dağılım göstermektedir. Minimayı modellemekle ilgileniyorsanız, örnekleriyse,Y=maksimum(X1,X2,...,Xn)X1,X2,...,XnYbenZ1,Z2,...,Zk-ZbenMinimas için bir GEV dağılımını takip eder. Böylece GEV dağıtımını çalışma hızı verilerine sığdırabiliriz, bu da oldukça iyi uyum sağlar (aşağıya bakın).

Çalışma hızları için GEV dağılımı

Modelin önerdiği kümülatif dağılıma bakarsanız, Usain Bolt'un en iyi çalışma süresinin en düşük olduğunu göreceksiniz.1%dağıtım kuyruğu. Dolayısıyla, bu verilere ve bu oyuncak örneği analizine bağlı kalırsak, çok daha küçük çalışma sürelerinin olası olmadığı (ancak açıkçası, mümkün olduğu) sonucuna varacağız. Bu analizdeki bariz sorun, en iyi çalışma sürelerinde yıldan yıla iyileştirmeler gördüğümüzü göz ardı etmektir. Bu bizi cevabın ilk bölümünde açıklanan soruna geri götürür, yani burada bir regresyon modelinin riskli olduğu varsayılır. Geliştirilebilecek başka bir şey, Bayesian yaklaşımını kullanabilmemiz ve fizyolojik olarak mümkün olan çalışma süreleri hakkında henüz gözlemlenmemiş olabilecek bazı veri dışı bilgileri açıklayabilecek şekilde bilgilendirici olabileceğimizdir (ancak bildiğim kadarıyla, şu anda bilinmemektedir). Son olarak, benzer aşırı değer teorisi spor araştırmalarında zaten kullanıldı, örneğin Einmahl ve Magnus (2008) tarafındanAşırı Değer Teorisi ile Atletizm Kayıtları .

Daha hızlı çalışma süresinin olasılığı hakkında değil, daha hızlı koşucu gözlemleme olasılığı hakkında soru soracağınızı protesto edebilirsiniz. Ne yazık ki, burada çok fazla bir şey yapamayız, çünkü bir koşucunun profesyonel bir atlet olma olasılığının ne olduğunu bilmiyoruz ve kaydedilen çalışma süreleri onun için mevcut olacak. Bu rastgele gerçekleşmez ve bazı koşucuların profesyonel sporcu olmasına ve bazılarının sevmemesine (veya birisinin koşmayı ve koşmayı sevmesine) katkıda bulunan birçok faktör vardır. Bunun için, koşucular hakkında ayrıntılı bir nüfus geneli verisine sahip olmalıyız, dahası, dağıtımın aşırı uçlarını sorduğunuzdan, verilerin çok büyük olması gerekir. Bu yüzden, diğer cevaplara katılıyorum.


1

İlk içgüdüm bu kötü bir fikir, ama neden biraz parçalayayım.

1) Gözlenemeyen bir değişkeni, gizli çalışma becerisini, gözlenebilir bir değişkenle, kaydedilen çalışma sürelerini ölçmek istersiniz. Sorun değil, ama: Alman tank probleminde, seri numaralarının hepsi aynı düzgün dağılımdan üretilir. Sorununuzda, gözlemlenebilir değişken çalışma sürelerinden gizli değişken beceriyi (7 milyar kişinin) çıkarmak zorundasınız. GTP'de birden fazla seri numarası bilinmektedir. Sorununuzda hiç veri toplamamışsınız ve sadece maks. (Cıvata) ile devam ediyorsunuz. Dahası, bu ölçülemez gizli becerinin, gerçek koşma süreleriyle, hiç koşmayan birinin Bolt'tan daha iyi olduğu noktaya kadar ilgisiz olduğunu varsayıyorsunuz. Sadece saçma görünüyor!

2) Sporcular popülasyonun rastgele örnekleri değildir. Birden fazla denemeyle dikkatlice seçilirler. Hiç koşamayabilecek herkesin muhtemelen hayatında en az bir kez birisini yarıştığını varsayarsak ve her bir kişi bunları ne sıklıkta veya ne kadar kazandıklarına bağlı olarak daha yüksek bir rekabete devam edip etmeyeceğine karar verdiyse ırklar --- o zaman Bolt'un gerçekten en hızlı insan olduğu akıl almaz görünmüyor.

Bunlar akla ilk gelen nedenlerdir. Dürüst olmak gerekirse, bununla bir aptallık işindesiniz. Bahsettiğiniz şeylerin "olasılığını" ölçmenin bir yolu yoktur.


Başka bir katılımcı da benzer açıklamalar yaptı ve şüphesiz ki Bay Bolt'un bu temelden daha hızlı birisinin var olma olasılığını tahmin etmenin çok kusurlu olduğu doğrudur. Bu aşırı değerlere dayalı tahminin teknik mantığının prensipte doğru olup olmadığını bilmek daha ilginç olacaktır.
ŹV -

3
Bağlamın çok fazla dikkat dağıtacağı için, aslında sormaya çalıştığınız şeyin kalbine ulaşmak için soruyu soyutlamayı öneririm. Bana bahsettiğiniz "normal dağılımın" neyi temsil ettiği hala net değil. Gerçek çalışma süreleri? Sporcuların koşu yeteneği?
dejenere kendir

-2

Cevap hayır.

Popülasyondan (sporcular) bir örnek olduğunu ve Bolt'un bu örnekte maksimum olduğunu varsayıyorsunuz. Yani, maksimum popülasyonun numune maksimumundan daha yüksek olma olasılığını arıyorsunuz. Bu sizin hipoteziniz.

Ya varsayımınız yanlışsa ve örneğin gerçekten de nüfus olduğunu varsa?

Koşabilen her insanın onu yenme şansı olduğunu makul bir şekilde tartışabilirim. Kimse yapmadı, bu yüzden Dünya nüfusunun gerçek maks.

Sporcuların rastgele bir örnek olmadığı açıktır. Umarım bu konuda bir soru yoktur. Tabii ki, bir sporcunun nasıl haline geldiği konusunda bir dereceye kadar rastgelelik var. Öte yandan, eğer bir atlet değilse o zaman atletik becerileri ve başarıları atlet ile karşılaştırılamaz. Birisinin Bolt kadar eğitim almış ve eğitimli olması koşuluyla birisinin POTANSİYEL olarak Bolt'tan daha hızlı koşabileceğini düşünebilirim. Bununla birlikte, atlet olmayan bir kişiyi çekme olasılığınız sıfırdır ve Cıvatayı 100 metrelik çizgide atletizm koşullarında yener.


Daha
doğrusu
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.