Min, ortalama ve maks arasındaki dağılımı hesaplama


10

Diyelim ki 10, 20 ve 25 gibi bazı veri kümelerinin minimum, ortalama ve maksimum değerlerine sahip olduğumu varsayalım:

  1. bu verilerden bir dağıtım oluşturmak ve

  2. Nüfusun yüzde kaçının ortalamanın üstünde veya altında olduğunu bilmek

Düzenle:

Glen'in önerisine göre, 200 örnek büyüklüğüne sahip olduğumuzu varsayalım.


(1) kolaydır, çünkü birçok çözüm vardır. (2) en iyi dağılım şekliyle ilgili bazı varsayımlar bağlamında yapılır, aksi takdirde elde edebileceğiniz tek şey matematiksel sınırlardır.
whuber

3
Şimdiye kadar burada yorumlarda ve cevaplarda tam anlamıyla alınıyorsunuz, ancak gerekli bir dikkat (tacit, bence, @ whuber'ın açıklamalarında), bu tür bilgilerle uyumlu olan ve yeterli bilgiye sahip olmamanız gereken çok fazla dağıtımın olması bunu iyi ya da güvenilir bir şekilde yapmak. Özellikle, örnek boyutunu bile bilmiyorsanız, belirsizlik hakkında düşünmek için çok fazla şey yapamazsınız.
Nick Cox

Nüfusun "ortalamanın üstünde ya da altında" oranını sorduğunuzda ... örnek ortalamasına ya da nüfus ortalamasına göre mi soruyorsunuz? Sürekli veya ayrık değişkenlerden mi bahsediyoruz? Örnek boyutunu biliyor muyuz?
Glen_b

Yanıtlar:


10

10, 20 ve 25 gibi bazı veri kümelerinin minimum, ortalama ve maksimum değerlerine sahibim:

bu verilerden bir dağıtım oluşturmak ve

Bu numune miktarlarıyla tutarlı olacak sonsuz sayıda olası dağılım vardır.

Nüfusun yüzde kaçının ortalamanın üstünde veya altında olduğunu bilmek

Bazı muhtemel haksız varsayımların yokluğunda, genel olarak değil - en azından anlamlı olacağı pek mantıklı değil. Sonuçlar büyük ölçüde varsayımlarınıza bağlı olacaktır (bazı özel düzenlemeler bazı yararlı bilgiler vermesine rağmen, değerlerin kendisinde çok fazla bilgi yoktur - aşağıya bakın).

Orantı sorusu üzerindeki cevapların çok farklı olabileceği durumlar bulmak zor değildir. Bilgiyle tutarlı çok farklı olası cevaplar olduğunda, hangi durumda olduğunuzu nasıl bilebilirsiniz?

Daha fazla ayrıntı yararlı ipuçları verebilir, ancak durduğu için (örnek boyutu olmadan bile, muhtemelen en az 2 veya 3, ortalama uç noktalar arasında yarım değilse), bu soruda çok fazla değer elde etmeyeceksiniz . Sınırları almaya çalışabilirsiniz, ancak çoğu durumda işleri çok fazla daraltmazlar.

* aslında ortalama bir uç noktaya yakınsa, numune boyutunda biraz daha düşük sınır elde edebilirsiniz. Örneğin min / ortalama / maks değeriniz için 10,20,25 yerine 10 24 25'iniz varsanen az 15 yaşında olması gerekirken, nüfusun büyük kısmının 24 yaşın üzerinde olduğunu; bu bir şey. Ancak, 10,18,25 dendiği takdirde, ortalamanın altındaki oran da olsa, örneklem büyüklüğünün ne olabileceğine dair yararlı bir fikir edinmek çok daha zordur.


2
@DJohnson Hiperbolik olduğunu düşünmüyorum - tam anlamıyla doğrudur (aslında onları listeleme yeteneğimiz birkaç binden sonra başarısız olabilir ve bunları listelemeye devam etme bakımımız birkaç düzine sonra başarısız olabilir, ancak bu altında çalışabileceğimiz başka varsayımlar da yoktur). İfademde yoğunlaşma niyeti yoktu - olası varsayımların gerçek genişliğini gerçekten göstermek için kasten seçildi. Ne yazmamı istersiniz?
Glen_b-Monica'yı Yeniden Başlat

3
1. Olasılıkları en fazla iki parametreyle sınırlamanın nedeni nedir? Veriler, örneğin üç parametreli lognormalden alınmışsa ne olur? Birçok durumda verilerden tüm parametreleri tahmin edemeyiz, ancak bu motive etmeye çalıştığım sorunun bir parçası (varsayımların tartışılmasıyla ilgilidir.) 2. Johnson ve Kotz, insanların adlandırdığı dağılımların bir alt kümesidir. / ile çalıştım, hangi varsayımların mümkün olduğuna uzaktan bağlı değil. Johnson ve Kotz'da olmayan çok sayıda dağıtım icat ettim ve ...
ctd

4
ctd ... Eminim hepsi burada dışlanmış değil. Belirtilmemiş parametre olmasa bile, sınırlı olmayan bir alt kümesi belirtilen bilgiler tarafından göz ardı edilmeyecek olan olası cdfs sonsuzluğu vardır.
Glen_b-Monica'yı yeniden kur

1
@Djohnson Kalan anlaşmazlığın kapsamı ne olursa olsun, yararlı yorumlarınızı takdir ediyorum. Gerçekten söylediklerimi en azından daha açık bir şekilde belirtip belirtmeyeceğimi (gerçek iddiamın kanıtlanabilir mi, gerekliydi, ama belki de en azından açıkça ifade edebilirim) ve orada farklı bir şekilde ifade edilip edilmeyeceğini düşüneceğim.
Glen_b-Monica'yı Yeniden Başlat

4
@DJohnson Koşulları yerine getiren iki farklı dağıtım alın: ikisinin herhangi bir karışımı söz konusu koşulları hala karşılayacaktır. Bu tam anlamıyla bir sonsuzluk: numaralandırılamaz olanı.
Elvis

8

Glen_b tarafından zaten belirtildiği gibi , sonsuz sayıda olasılık var. Aşağıdaki grafiklere bir göz atın, aynı min, maks ve ortalamaya sahip sekiz farklı dağılım gösterirler.

Sekiz farklı dağıtım

Birbirlerinden çok farklı olduklarına dikkat edin . Birincisi tekdüze, dördüncü olarak üçgen dağılımların bimodal bir karışımı, yedinci merkezde yoğunlaşmış en çok olasılık kütlesine sahiptir, ancak yine de min ve maks çok küçük bir olasılıkla mümkündür, sekiz ayrıktır ve minimum ve maksimumda sadece iki değere sahiptir, vb. .

Hepsi kriterlerinizi karşıladığından, simülasyon için herhangi birini kullanabilirsiniz. Ancak sübjektif seçiminiz simülasyonun sonucu üzerinde çok derin sonuçlar doğuracaktır. Söylemek istediğim, eğer min, max ve ortalama dağılım hakkında bildiğiniz tek şeyse, gerçek (bilinmeyen) dağılımı taklit etmek istiyorsanız, simülasyonu yapmak için yeterli bilgiye sahip değilsiniz.

Yani neler olduğunu sormanız gerek yok sen dağılımı hakkında biliyor musunuz? Ayrık mı yoksa sürekli mi? Simetrik veya çarpık mı? Unimodal veya bimodal? Dikkate alınacak çok şey var. Sürekli, üniform olmayan ve tek modlu değilse ve sadece min, maks ve ortalamaları biliyorsanız, olası bir seçenek üçgen dağılımdır - gerçek hayatta herhangi bir şeyin böyle bir dağılıma sahip olması pek olası değildir, ancak en azından basit bir şey kullanıyorsunuz ve şekli hakkında çok fazla varsayım dayatmamak.


Üçgen bir dağılım olduğunu varsayarsak, mevcut bilgilerimle de modu hesaplayabilirdim. Bu yardımcı olur mu?
user132053

1
@ user132053 sadece min, maks ve ortalamaya ihtiyacınız var. Üçgen dağılım ortalaması için formül (a + b + c) / 3 şeklindedir ve basit aritmetik kullanarak mod için çözebilirsiniz.
Tim

4

Standart sapmayı hesaplamak için aralık tabanlı bir kural istatistiksel literatürde yaygın olarak belirtilmiştir (burada bir referans ... http://statistics.about.com/od/Descriptive-Statistics/a/Range-Rule-For-Standard -Deviation.htm ). Temel olarak, (maks-min) / 4'tür. Çok kaba bir tahmin olduğu bilinmektedir.

Bilginin ve normal olarak dağıtılmış verileri varsaymaya istekli olduğu göz önüne alındığında , ortalama ve aralık tabanlı standart sapma olmak üzere iki sayıdan normal sapmalar oluşturulabilir. Bununla birlikte, bu dağılım birinci veya ikinci anda köklendiği sürece, bu iki bilgi parçasından herhangi bir veya iki parametreli dağılım üretilebilir.

SD / Ortalama oranı alınarak kaba bir varyasyon katsayısı da üretilebilir. Bu, verilerdeki birimsiz değişkenlik için bir proxy sağlayacaktır.

Hata daha doğru bir şekilde popülasyonun örnekleme dağılımını ifade eder ve tahmin için örnek büyüklüğünün ( n) bir ifadesini gerektirir . Açıklamanız bu ayrıntıyı sağlamıyor.


3
Dikkate değer bazı şeyler: (1) Ortalama potansiyel olarak (max-min) / 4 kuralını geçersiz kılması gereken daha fazla bilgi verir. (2) Üç parça bilgi verildiğinden, sadece iki parametreli bir aile kullanılarak genel olarak esneklik derecesi ayrılır.
whuber

@whuber Bu konuda iki yorum yazdınız. Harika olurdu, onları ayrıntılı olarak açıklayacak ve bir yanıt belirleyecek olsaydınız.
Mike Hunter
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.