Dağılma Ölçüleri Neden Merkeziyetten Daha Az Sezgiseldir?


11

İnsan anlayışımızda, sezgisel olarak varyans fikrini kavramada zorluk yaratan bir şey var gibi görünüyor. Dar bir anlamda cevap hemen: kare alma bizi refleksif anlayışımızdan uzaklaştırır. Ancak, problemler sunan sadece varyans mı , yoksa tüm verilerdeki yayılma fikri mi? Menzilde sığınıyoruzya da sadece minimum ve maksimumları belirtmekle kalmayıp, gerçek zorluktan kaçıyor muyuz? Ortalamada (mod veya medyan) merkezi buluyoruz, özet ... bir sadeleştirme; sapma, şeyleri etrafa yayar ve onları rahatsız eder. İlkel insan, dua etmek için üçgenleme yaparak hayvanların avlanmasında ortalamayı kesinlikle kullanacaktır, ancak sanırım daha sonra bir şeyin yayılmasını ölçmek için ihtiyaç duyduğumuzu hissettim. Aslında, varyans terimi ilk olarak 1918'de Ronald Mender tarafından "Mendel Kalıtımının Kabulü Üzerine Akrabalar Arasındaki Korelasyon" makalesinde tanıtılmıştır .

Haberleri takip eden çoğu insan, Larry Summers'ın matematik yetenekleri hakkında , muhtemelen Harvard'dan ayrılmasıyla ilgili olan talihsiz konuşmanın hikayesini duymuş olurdu . Özetle, her iki cinsiyetin de aynı ortalamaya sahip olmasına rağmen, matematik yeterliliğinin erkeklere göre kadınlara göre dağılımında daha geniş bir varyans önerdi. Uygunluk veya politik çıkarımlardan bağımsız olarak, bu bilimsel literatürde doğrulanmış gibi görünmektedir .

Daha da önemlisi, belki de iklim değişikliği gibi konuların anlaşılması - lütfen tartışmalar için tamamen çağrılmaya yol açabilecek konuları gündeme getirdiğim için beni affedin - genel nüfus tarafından varyans fikrine daha fazla aşina olunmasıyla yardımcı olabilir.

Bu yazıda gösterildiği gibi , burada @whuber'ın harika ve renkli bir cevabını içeren kovaryansı kavramaya çalıştığımızda sorun daha da artıyor .

Çok genel olarak bu soruyu kapatmak için cazip olabilir, ama biz olduğu gibi dolaylı olarak görüşüyorlar olduğu açıktır bu yazı matematik önemsiz olan, henüz kavramı, zor olmanın daha rahat bir kabul belying devam ediyor aralık olarak daha nüanslı fikir varyansına karşı .

Fisher'den EBFord'a yazdığı bir mektupta , Mendelian deneyleri hakkındaki şüpheleriyle ilgili tartışmalara atıfta bulunarak şunu okuduk: “Şimdi, veriler sahte olduğunda, insanların genellikle geniş şans sapmalarının sıklığını nasıl hafife aldıklarını çok iyi biliyorum . eğilim her zaman beklentileri çok iyi karşılamalarını sağlamaktır ... [Mendel'in verilerine göre] sapmalar şaşırtıcı derecede küçük. " Büyük RA Fisher böylece küçük numunelerde küçük sapmaların şüphe düşkün olduğunu yazıyor : "Bu Mendel çok iyi bekleneni tüm biliyordu bazı asistan tarafından aldatılmış olduğunu diğerleri arasında, bir olasılık olarak kalır."

Ve, az ya da yanlış anlaşılmaya olan bu yayılmaya karşı bu önyargının bugün devam etmesi tamamen mümkündür. Eğer öyleyse, merkezi kavramlarla neden dağılmadan daha rahat olduğumuzun bir açıklaması var mı? Bu fikri içselleştirmek için yapabileceğimiz bir şey var mı?

eiπ+1=0E=mc2

Nassim Taleb, kriz zamanlarından yararlanmaya yönelik kusurlu varyans anlayışını (iyi, gerçekten Benoit Mandelbrot'un ) algılamasını uygulayarak bir servet yarattı ve kavramı, varyans "epistemolojik olarak" , ortalamanın bilgi eksikliği hakkında bilgi eksikliğinin bir ölçüsü "- evet, bu ağız dolusu için daha fazla bağlam var ... Ve onun kredisi için, Şükran Günü Türkiye fikri ile daha da basitleştirdi . Yatırımın anahtarının varyansı (ve kovaryansı) anlamak olduğu söylenebilir.

Öyleyse neden bu kadar kaygandır ve nasıl düzeltilir? Formüller olmadan ... sadece yıllarca belirsizlikle başa çıkma sezgisi ... Cevabı bilmiyorum, ama bu matematiksel değil (zorunlu olarak, yani): örneğin, kurtosis fikrinin varyansa müdahale edip etmediğini merak ediyorum. Aşağıdaki grafikte, neredeyse aynı varyansla örtüşen iki histogramımız var; yine de, benim diz pislik reaksiyonu en uzun kuyrukları ve en yüksek tepe (yüksek basıklık) olan daha fazla "yayılmış" olmasıdır:


2
Varyansın daha çok anlaşılması zor çünkü bence kare. İnsanlar ortalama mutlak sapma konusunda çok fazla zorluk çekmiyor gibi görünüyor. (Genellikle bu fikri standart sapmaya kadar çalışmak için kullanırım.)
gung - Monica'yı eski

Birinin ne öğrendiğini öğrenmek zor, ancak başlığın öncülünün doğru olduğundan emin değilim. Örneğin, aralık da dahil olmak üzere farklılıklar, bazı açılardan ortalama veya medyan gibi özetlerden daha sezgisel görünmektedir . Hesaplar farklıdır; ancak ortalama klasik matematikte ortaya çıkmasına rağmen, verilerin özetlenmesi için kullanımı 17. yüzyılda sadece yavaş ve acı verici bir şekilde ortaya çıkmıştır.
Nick Cox

1
Umutlara göre, bu sorunun cevapları sorunla ilgili olmayan detaylara yönelmez - bu soru daha çok varyans ( daha fazla kareleme tartışmasının ilgili olabileceği) veya daha genel değişkenlik kavramı hakkında mıdır? (dağılım, yayılma, varyasyon - hangisi için olmaz)? [Ayrıca diğer insanların göreceli sezgisellik duygusu hakkında genel olarak ne ölçüde genelleme yapabileceğimizi de merak ediyorum]
Glen_b-Monica

İkincisi. Açıklığa kavuşturmalıyım. Genel olarak soru hakkında emin değilim. Kapatmaktan çekinmeyin.
Antoni Parellada

@Antoni Neden kapatmak isterim? Her iki form da iyi bir soru olurdu; sadece cevaplar farklı olurdu.
Glen_b-Monica'yı geri yükle

Yanıtlar:


9

Varyansın biraz daha az sezgisel olduğu hissini paylaşıyorum. Daha da önemlisi, bir ölçüm olarak varyans belirli dağılımlar için optimize edilmiştir ve asimetrik dağılımlar için daha az değere sahiptir. Ortalamadan ortalama mutlak fark benim görüşüme göre çok daha sezgisel değil, çünkü orta eğilimin ölçüsü olarak ortalamanın seçilmesi gerekiyor. Gini'nin ortalama farkını - tüm gözlem çiftleri arasındaki ortalama mutlak farkı tercih ederim. Sezgisel, sağlam ve etkilidir. Verimlilikte, veriler bir Gauss dağılımından geliyorsa, Gini'nin ona uygun bir yeniden ölçeklendirme faktörü ile ortalama farkı, örnek standart sapma kadar 0.98'dir. Veriler sıralandıktan sonra Gini'nin ortalama farkı için etkili bir hesaplama formülü vardır. R kodu aşağıda.

w <- 4 * ((1:n) - (n - 1)/2)/n/(n - 1)
sum(w * sort(x - mean(x)))

Dispersiyonu fazla vurgulama eğilimi var mı? Burada
Antoni Parellada

1
Geçerli bir dağılım ölçüsüdür. Eğer tanımını beğendiyseniz, hiçbir şeyi fazla vurgulamaz.
Frank Harrell

Kesinlikle. Yayınınızı bir öğrenme fırsatı olarak kabul ediyorum ve yorumum ilgi gösterme yolumdu. Sadece daha fazla okumak zorundayım. Teşekkür ederim!
Antoni Parellada

1
Yalnızca vektör xzaten sıralanmışsa.
Frank Harrell

4

İşte düşüncelerimden bazıları. Sorunuza bakabileceğiniz her açıya değinmiyor, aslında, ele almadığı çok şey var (soru biraz geniş hissettiriyor).

İş adamlarının Varyans'ın matematiksel hesaplamasını anlamaları neden zordur?

Varyans aslında şeylerin ne kadar yayıldığıdır. Bu anlaşılması yeterince kolaydır, ancak hesaplanma şekli bir meslekten olmayanlara karşı sezgisel görünebilir.

Mesele, ortalamadan farkların karesi alınmış (daha sonra ortalaması alınmış) ve daha sonra Standart Sapmayı elde etmek için kareköklü olmasıdır. Biz bu yöntem neden gerekli olduğunu anlamaya - Kenarlaşma değerleri pozitif hale getirmektir ve daha sonra orijinal birimleri almak için kare yatmaktadır. Bununla birlikte, bir meslekten biri, sayıların neden kare ve kare köklü olduğu ile karıştırılmalıdır. Bu kendini iptal ediyor gibi görünüyor (değil) yani anlamsız / garip görünüyor.

Onlara daha sezgisel olan şey, ortalama ile her nokta arasındaki (Mutlak sapma olarak adlandırılan) mutlak farkların ortalamasını alarak yayılmayı bulmaktır. Bu yöntem, kare ve kare köklenme gerektirmez, bu nedenle çok daha sezgiseldir.

Ortalama Mutlak Sapmanın daha basit olması, 'daha iyi' anlamına gelmediğini unutmayın. Kareler mi, Mutlak değerler mi kullanılıp kullanılmayacağı tartışması birçok tanınmış istatistiği içeren bir asırdır devam ediyor, bu yüzden benim gibi rastgele bir kişi burada görünüp daha iyi olduğunu söyleyemez. (Varyans bulmak için karelerin ortalaması elbette daha popüler)

Özetle: Varyans bulmak için Squaring, Mutlak farklılıkların ortalamasını daha basit bulmayı düşünen işsizlere daha az sezgisel görünüyor. Ancak, insanların kendini yayma fikrini anlamada bir problemleri olduğunu düşünmüyorum


3
Karenin etkisini göstermek için +1. Ama bence problem yayılmayı ölçmek için gerçek matematiksel yapının ötesine geçiyor. Daha radikal bir beyin sapı seviyesinde - merkezden uzakta doğal hissetmiyor; merkezi nokta.
Antoni Parellada

Ah, anlıyorum. Bunun 'yayılma' ya da yayılma bulmanın belirli matematiksel yolu hakkında olup olmadığından emin değildim. Korkarım eski ile size yardım edemem - kişisel olarak insanların yayılma kavramını anlamada çok fazla sorun
Yang Li

Yaparım. Belirsizliğin derecesini anlamak için büyük ölçüde varyansın bir sonucu olan bir ton problemim var. Sadece nedenini bilmiyorum.
Antoni Parellada

3

Sorunuz hakkındaki düşüncelerim burada.

Yukarıda bahsettiğim bir cevabı sorgulayarak başlayacağım ve sonra benim açımdan anlamaya çalışacağım.

Önceki hipoteze soru:

Kareler gerçekten Kare Ortalama Sapması gibi dağılım ölçümlerini anlamayı zorlaştırıyor mu? Meydanın matematiksel karmaşıklığı getirerek zorlaştırdığına katılıyorum, ancak cevap sadece kareler olsaydı, Ortalama Mutlak Sapmanın anlaşılması ve merkeziyetin ölçütleri kadar basit olurdu.

Görüş:

Dağılımın ölçülerini anlamamızı zorlaştıran şeyin, dağılımın kendisinin 2 boyutlu bir bilgi olduğunu düşünüyorum. Bir metrikte 2 boyutlu bir bilgiyi özetlemeye çalışmak , sonuç olarak karışıklığa neden olan kısmi bir bilgi kaybını ima eder .

Misal:

Yukarıdaki kavramı açıklamaya yardımcı olabilecek bir örnek aşağıdadır. 2 farklı veri seti alalım:

  1. Gauss dağılımını takip eder
  2. Bilinmeyen ve asimetrik bir dağılımı takip eder

Standart Sapma cinsinden dağılımın 1.0 olduğunu varsayalım.

Zihnim, küme 1'in dağılımını küme 2'den çok daha açık olarak yorumlama eğilimindedir. Bu özel durumda, dağıtımın 2 boyutlu şeklinin önceden dağıtım ölçüsünü anlamama izin verdiğini bilerek daha iyi anlamamın nedeni açıklanır. merkezi Gauss ortalaması etrafında olasılık terimleri. Başka bir deyişle, Gauss dağılımı bana dağılım ölçüsünden daha iyi tercüme etmek için ihtiyacım olan 2 boyutlu ipucunu verdi.

Sonuç:

Özetle, bir Sapma Ölçümünde yakalamanın somut bir yolu yoktur 2 boyutlu bir bilgide var olan her şeyi ölçün. Dağılıma doğrudan bakmadan dağılmayı anlamak için yaptığım şey, belirli bir dağılımı açıklayan birçok önlemi birleştirmektir. Aklımın dağılım ölçüsünün kendisini daha iyi kavraması için bağlam kuracaklar. Grafiklerden yararlanabilseydim, kutu grafikleri kesinlikle görselleştirmek için kullanışlıdır.

Bu konuda beni çok düşündüren harika bir tartışma. Fikrinizi duymaktan memnuniyet duyarım.


1
İyi düşünülmüş bir yanıt +1. Eklenecek hiçbir şeyim yok, ancak muhtemelen bakmaya değer başka nedenler olduğunu düşünüyorum.
Yang Li

1

İnsanların değişkenlikle (varyans, standart sapma, MAD veya herhangi bir şekilde) daha zor bir zaman geçirmeleri için basit bir nedenin, merkez fikrini anlayana kadar gerçekten değişkenliği anlayamamanız olduğunu düşünüyorum. Bunun nedeni, değişkenlik ölçümlerinin hepsinin merkezden olan mesafeye göre ölçülmesidir.

Ortalama ve medyan gibi kavramlar paralel kavramlardır, önce birini öğrenebilirsiniz ve bazı insanlar birini daha iyi anlayabilir ve diğer insanlar diğerini daha iyi anlar. Ancak yayılma merkezden ölçülür (merkezin bir tanımı için), bu yüzden önce gerçekten anlaşılamaz.


+1 Bu çok mantıklı - bu ikincil bir konsept ...
Antoni Parellada

@Greg Snow: 'doğru değil; Gini'nin Frank Harrells'in cevabından ortalama bir fark olduğunu görüyorsunuz, bu bir merkezden sapmayı ölçmez.
kjetil b halvorsen
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.