Sezgisel "varyans" anlama


81

Birine değişkenlik kavramını açıklamanın en temiz ve en kolay yolu nedir? Sezgisel olarak ne anlama geliyor? Eğer biri bunu çocuklarına açıklayacaksa, nasıl olur?

Bu, eklemlenmekte zorlandığım bir kavram - özellikle riske olan varyansla ilgili. Ben matematiksel olarak anlıyorum ve bu şekilde de açıklayabilirim. Fakat gerçek dünya fenomenini açıklarken, birisinin varyansı nasıl anladığını ve bunun 'gerçek dünyadaki uygulanabilirliğini' nasıl ifade edersiniz?

Diyelim ki rasgele sayılar kullanarak (bir kalıbı haddeleme veya bir excel levha kullanarak, önemli değil) bir hisse senedi yatırımını simüle ediyoruz. Rastgele değişkenin her bir örneğini, karşılığında 'bazı değişikliklerle' ilişkilendirerek bir miktar 'yatırım getirisi' elde ediyoruz. Örneğin.:

Bir 1 Haddeleme başına 0.8 değişikliğini ima $ yatırım 1, bir 5 başına 1,1 değişikliği $ vb 1 ve.

Şimdi, eğer bu simülasyon yaklaşık 50 kez (veya 20 veya 100) çalıştırılırsa, bazı değerler ve yatırımın nihai değeri elde edilir. Öyleyse, 'varyans' aslında yukarıdaki veri setinden hesaplamak istiyorsak bize ne söyler? "Görmek" ne demek - varyansın 1.7654 veya 0.88765 veya 5.2342 olduğu ortaya çıkarsa, bunun anlamı ne? Bu yatırım hakkında ne gözlemledim / gözlemleyebildim ?? Hangi sonuçları çıkartabilirim - insan terimiyle.

Lütfen soruyu standart sapma için de arttırmaktan çekinmeyin! Anlamanın 'daha kolay' olduğunu hissetmeme rağmen, bunu 'sezgisel' olarak netleştirmeye katkıda bulunacak bir şey büyük memnuniyetle karşılanacaktır!


3
Biz bu soruyu birleştirme olmamalı aynı birinin geçen yıl istendi?
whuber

1
@whuber Bunların birleştirilmesi gerektiğini düşünüyorum. Birkaç kez aynı soruya sahip olmak (buradaki bağlam farklı olsa bile) cevapların ortalama kalitesini düşürür.
Robin Girard

2
Birleştirilmesinde sorun yok ama varyansı nasıl hesaplayacağımı ve istatistiklerde de kullanılacağını biliyorum. Bu kavramı, onun hakkında hiçbir şey bilmeyen insanlara ifade edebilmek istiyorum ve bunu yapması çok uzun zaman alıyor ve dolayısıyla soruyu. Niyet SD, IMHO sorusundan oldukça farklı
doktora

2
Hiç birinizin bir Layman'ın anlayacağı şekilde cevap vermek için çok iyi bir iş çıkardığını sanmıyorum. Bir sürü varsayım yapıldığını görüyorum ve hemen hemen her cevap yorumlanması gereken bir şeyle bitiyor. Şikayet etmiyorum, sadece işaret etmeye çalışıyorum. Ben de soruyu basitçe cevaplayamıyorum. Belki de çok zor?

Aşağıdaki cevapların hiçbirinin burada soruyu cevapladığını sanmıyorum. Benim yorumladığım kadarıyla soru, büyük ya da küçük olduğu zaman sayı olarak varyansla ilgilidir. Örneğin, en üstteki cevap, küçük varyansa karşılık büyük varyansın ne anlama geldiği sorusunu ele almaktadır. Size makul bir şekilde görselleştiremediğiniz bir veri seti veririm, böylece sayılara güvenmek zorundasınız, varyansın büyük / küçük olup olmadığını nasıl anlayabilirsiniz?
user31415

Yanıtlar:


70

Önyargı ve varyans kavramını ortaya koyarken 'meslekten olmayanlara' vermeyi öğrendiğimle benzer bir analoji kullanırdım: dart tahtası analojisi. Aşağıya bakınız:

görüntü tanımını buraya girin

Yukarıdaki özel görüntü Makine Öğrenimi Ansiklopedisi'ne aittir ve görüntü içindeki referans Moore ve McCabe'nin "İstatistik Uygulamasına Giriş" dir .

DÜZENLE:

İşte oldukça sezgisel olduğuna inandığım bir alıştırma: Bir deste kart alın (kutudan çıkarın) ve desteyi yaklaşık 1 metre yüksekliğe bırakın. Çocuğunuzdan kartları alıp size iade etmesini isteyin. Sonra desteyi düşürmek yerine, mümkün olduğunca yükseğe fırlatıp kartların yere düşmesine izin verin. Çocuğunuzdan kartları alıp size iade etmesini isteyin.

İki deneme sırasında sahip oldukları göreceli eğlence, onlara sezgisel bir değişim hissi vermelidir. :)


1
Yani bunun anlamı nedir'? Birisi tahtadaki dartların istatistiksel varyansını görseydi, neyi sonuçlandırırdı? Sezgisel olarak konuşan düşük / yüksek varyansa sahip olmak ne demek ...
Doktora

1
Şöyle bir şey söyleyebilirim: Diyelim ki 4 dart fırlattık. Tek seferde kurulu dart kaldırmak için gereken ellerin sayısı dart pozisyonları artar (Not varyansı olarak artar: çok gayrı argüman burada orada böyle 3 dart gruplanmış ve son dart olması gibi karşıt örneklere bir dizi duvardaki yazı tahtası üzerinde 3 metre).

2
Diyagramınız ayrıca klasik hassasiyet ve doğruluğu ayırt etmenin yolunu da gösteriyor! Sadece bana vurdu!
Doktora

2
AAAAAAAAAAAH! Güzel egzersiz! Düşük / yüksek varyansa sahip olmanın ne demek olduğunu birisine göstermenin iyi yolu! Veri noktalarının ortalama değerinden (ortalama) ortalama uzaklık :)
PhD

2
(+1) Sapma ve sapma arasındaki farkı göstermek için dart tahtası-analog sadece brilliant
steffen

36

İstatistlere şakacıyla istatistik öğretirdim ve çok şey öğrendiklerini öğrendim.

Varyans veya standart sapma için varsayalım ki aşağıdaki şaka oldukça yararlıdır:

Şaka

Bir kez iki istatistikçi 4 feet ve 5 feet ORTALAMA derinlikli 3 feet'lik bir nehirden geçmek zorunda. Bu arada, üçüncü bir istatistikçi gelir ve “Neyi bekliyorsun? Nehri kolayca geçebilirsin” dedi.

Bu meslekten olmayan kişinin “ortalama” terimini bildiğini farz ediyorum. Onlara, bu durumda nehri geçecekleri aynı soruyu sorabilirsiniz.

“Durumda ne yapılacağına” karar vermede “sapma” olan ne eksik?

Her şey sunum becerilerinizle ilgili. Bununla birlikte, şakalar istatistikleri anlamak isteyen meslekten çok yardım eder. Umut ediyorum bu yardım eder!


1
Belki istatistiksel espriler ile iyi değilim (ben değilim :) gerçi başkaları ile oldukça iyi. Ama "durumda ne yapmalı" ile neyin kastedildiğini anlamadığımı sanmıyorum? Varyans hakkında bir fikriniz varsa, 'tam olarak' ne yapmalı? Kişi nasıl yorumlanmalı?
Doktora

6
@Nupul: Aslında, "durumda ne yapmalı" ya bir nehri geçip geçmeyecekleri anlamına geliyor? Varyansı (veya SD) biliyorsanız, kolayca karar verebilirsiniz. Varyansın 0,25 (SD = 0,5) olduğunu varsayalım, sonra nehrin güvenli bir şekilde geçebileceğini düşünün; çünkü aralık aralığı (bunu güvenle karıştırmayın) (3). Varyans 4 ise nehri geçmemek daha iyidir. Bu arada, sadece burada espriler keyfini stats.stackexchange.com/questions/1337/statistics-jokes
Biostat

Mükemmel! Anladım! :) Bu çok mantıklı. Aslında, çeşitli insanlardan gelen cevapları birleştirmek, anlayışı daha iyi çerçevelememe yardımcı oluyor ...
Doktora

Veya, köpekbalıkları 'ortalamada' insanları yemezlerse, çok karamsarlarsa (çok değişken davranışlar) bu çok az rahattır. Nehir analojisinde, sizi başınıza atacak bir adım atıp atmayacağınızla ilgili.
Dean Radcliffe

12

Varyanstan ziyade standart sapmaya odaklanacağım; varyans yanlış ölçektedir.

Ortalama, tipik bir değer olduğu gibi, SD de ortalamadan tipik (mutlak) bir farktır. Dağılımı ortalama olarak katlamak ve bunun ortalamasını almaktan farklı değildir.


1
Kabul. Diyelim ki SD'ye odaklanalım. Benim sorum hala birisinin SD'yi “yüksek SD iyi görünmüyor” dışında sezgisel olarak anlamasını nasıl sağladığını anlatıyor … SD'yi düzenli olmayan bir kişiye, varyansın karekökü olduğu için nasıl açıklayabilirim !!!
Doktora

@Nupul - İkinci paragrafımı oku: SD'yi ortalamadan tipik bir fark olarak açıklardım.
Karl

4
“Dağılımı ortalama olarak katlamak ve bunun ortalamasını almaktan farklı değil.” Bu yorum, yazınızın geri kalan kısmı gibi, standart sapmayı değil, ortalama mutlak sapmayı tarif ediyor gibi görünüyor.
Makro

3
@Macro - evet; SD'yi açıklamaya çalışırken, MAD tarafından yaklaşık olarak hesaplanırdı. Bence kök-karesi-kare-karesi üzerinden mutlak değere itiraz etmemek en iyisidir.
Karl

7

İnsanları sadece yayılma olarak varyansı düşünmelerini savunan yanıtların çoğuna katılmıyorum. Akıllı insanların (Nassim Taleb) belirttiği gibi, insanlar yayıldığını saptadıklarını düşündüklerinde, sadece MAD olduğunu varsayıyorlar.

Varyans, üyelerin ortalamadan ne kadar uzakta olduklarının bir açıklamasıdır ve her bir gözlemin önemini bu mesafeye göre yargılar. Bu, uzaktaki gözlemlerin daha önemli olarak değerlendirildiği anlamına gelir. Dolayısıyla kareler.

Sürekli bir tek biçimli değişkenin varyansının en kolay resim olduğunu düşünüyorum. Her gözlem kendisine çizilen bir kareye sahip olabilir. Bu kareleri istiflemek bir piramit yaratır. Piramidi yarıya indiriniz, yani ağırlığın yarısı bir taraftadır ve yarısı diğer taraftadır. Onu kestiğin yüz varyans.


2
Bu cevabın neden daha fazla beğenilmediğini bilmiyorum. İkinci paragrafta belirtilen nokta, varyansı anlamak ve bunu MAD'den farklılaştırmak için çok önemlidir, ki bu, doğru şekilde belirtildiği gibi, insanların “yayılma ölçüsü” hakkında söylendiğinde sezgisel olarak düşündükleridir. Ve kareleri matematiksel olarak anlamamış olsalar bile, bir noktaya ortalamadan mesafeye verilen ağırlığın doğrusal olarak büyümeyeceği fikrini anlamak mesleğin ötesinde değildir.
jeremy radcliff

3
Merak edenler için "MAD" = en.wikipedia.org/wiki/Median_absolute_deviation . Böyle bir kısaltmaların böyle bir konuda bilgi alması gerektiğini düşünmüyorum.

5

Belki bu yardımcı olabilir. Önceden özür dilerim, amatör olarak tamamen yanlış anlayabiliyorum.

1000 kişiden jöle fasulyesi ile doldurulmuş bir kavanoza kaç tane baklagil olduğunu doğru tahmin etmesini isteyin Şimdi, doğru cevabı bilmekle ilgilenmediğinizi düşünün (ki bu bazı kullanımlarda olabilir) ancak insanların cevabı nasıl tahmin ettiğini daha iyi anlamak istersiniz.

Değişkenlik, yatkın olmayan bir kişiye farklı cevapların yayılması olarak açıklanabilir (en yüksekten en düşüğe). Yeterli sayıda insan sorgulanacaksa doğru cevabın verilen 'misafirlerin' yayılmasının ortasında bir yerde durması gerektiğini ekleyerek devam edebilirsiniz.

Şimdi yargılama için daha değerli meslektaşlarımdan bazılarına atıfta bulunuyorum


5

Varyansı bulmaya çalışırken oturuyordum ve sonunda benim için yerine oturmasını sağlayan şey ona grafiksel olarak bakmaktı.

Dört -7, -1, 1 ve 7 noktalı bir sayı çizgisi çizdiğinizi söyleyin. Şimdi Y boyutu boyunca aynı dört noktaya sahip hayali bir Y ekseni çizin ve her çift için kareyi çizmek için XY çiftlerini kullanın. puan Her biri 49, 1, 1 ve 49 küçük kareden oluşan dört ayrı kareyle rüzgarlanır. Her biri, genel olarak 100 küçük kareden oluşan büyük bir 10 x 10 kare olarak temsil edilebilen genel kareler toplamına katkıda bulunur.

Varyans, bu daha büyük kareye katkıda bulunan ortalama karenin boyutudur. 49 + 1 + 49 + 1 = 100, 100/4 = 25. Yani 25 varyans olacaktır. Standart sapma, o ortalama karenin kenarlarından birinin uzunluğu veya 5 olacaktır.

Açıkçası bu analoji, varyans kavramının tam nüansını kapsamamaktadır. Popülasyon parametresini tahmin etmek için genellikle n-1 yerine n-1 bir payda kullandığımız gibi açıklanması gereken birçok şey var. Ancak, ayrıntılı bir varyans anlayışının geri kalanını sabitlemek için temel bir kavram olarak, basitçe çizerek böylelikle çok yardımcı olduğunu görebiliyorum . Varyansın, ortalamadan ortalama kare sapma olduğunu söylediğimizde ne demek istediğimizi anlamamıza yardımcı olur. Aynı zamanda, SD'nin bu ortalama ile ne gibi bir ilişkiye sahip olduğunu anlamada da yardımcı oluyor.


1
Çapraz Onaylanmış'a Hoş Geldiniz! Bu yaklaşımı sevdim, ancak noktaların 'sıfıra' yayıldığını vurgulamak daha da yararlı olabilir (yani, sıfır ortalamaları vardır) ve yayılımı orada bulunan bir "atom" ile ilgili olarak ölçüyorsunuz. (+1) ve sizden daha fazla cevap görmeyi dört gözle bekliyorum!
Matt Krause

4

Standart sapma ve varyans hakkında laymen öğreten birçok pratik yapın.

TL; DR; Ortalamaya olan mesafelerin ortalaması gibi bir şey. (Bu özlü versiyonda biraz kafa karıştırıcı ve yanıltıcıdır. Öyleyse makalenin tamamını okuyun)

Layman'ın ortalamaları bildiğini varsayıyorum. SD'yi tanımanın ve hataları tahmin etmenin önemi hakkında konuşuyorum (aşağıdaki PS'ye bakınız). Sonra yüksek matematik veya kutsal istatistik bilgisinin kullanılamayacağına söz veriyorum - sadece kuru bir mantık ve saf mantık.

  1. Sorun. Diyelim ki bir termometremiz var (işitsellere neyin daha yakın olduğuna bağlı olarak bir ölçüm cihazı seçiyorum).

    Aynı sıcaklıkta N ölçüm yaptık ve termometre bize 36.5, 35.9, 37.0, 36.6, ... gibi bir şey gösterdi (resme bakın). Gerçek sıcaklığın aynı olduğunu biliyoruz, ancak termometre her ölçümde bize biraz yalan söylüyor.

    Bu küçük pisliğin bize ne kadar yalan söylediğini nasıl tahmin edebiliriz?

    Ortalamayı hesaplayabiliriz (aşağıdaki resimdeki kırmızı çizgiye bakınız). İnanabilir miyiz? Ortalamadan sonra bile, ihtiyaçlarımız için yeterli hassasiyete sahip mi?

    Termometre değerleri ve ortalamaları

  2. En kolay yaklaşım . En uzak noktayı alabiliriz, ortalama ile kırmızı çizgi arasındaki mesafeyi hesaplayabiliriz ve şunu söyleyebiliriz ki, termometre bize bu şekilde yatmaktadır, çünkü gördüğümüz maksimum hatadır. Tahmin edilebilir, en iyi tahmin değildir. Resme bakarsak, puanların çoğu ortalama bir seviyede, sadece bir noktaya nasıl karar verebiliriz? Aslında bu tahminlerin kaba ve genellikle kötü olmasının nedenlerini belirleme konusunda pratik yapabilirsiniz.

  3. Varyans . O zaman ... tüm mesafeleri alıp ortalama mesafeyi hesaplayalım !

    (xix¯)x¯xi

    O zaman, ortalama mesafe formülünün her şeyi toplayıp N'ye böldüğünü düşünebiliriz:

    (xix¯)N

    Ama bir problem var. Örneğin kolayca görebiliriz. bu 36.4 ve 36.8, 36.6 ile aynı mesafede bulunmaktadır. ancak değerleri yukarıdaki formüle koyarsak, -0.2 ve +0.2 değerlerini alırız ve toplamları 0 olur, ki istediğimiz bu değildir.

    Tabeladan nasıl kurtulurum? (Bu noktada, meslekten olmayan kişiler genellikle "Mutlak değeri al" deyin ve "mutlak değeri almanın biraz yapay, başka bir yol nedir?" Önerisini alın.). Değerleri karıştırabiliriz! Sonra formül:

    (xix¯)2N

    Bu formüle istatistiklerde "Varyans" denir. Ve termometre (ya da her neyse) değerlerimizin yayılımını tahmin etmek için sadece maksimum mesafeyi almaktan çok daha iyi uyuyor.

  4. °C2°F2

    (xix¯)2N

    σ

Bu noktada bir meslekten olmayan kimse, buraya nasıl geldiğimizi ve standart sapma / varyansın nasıl çalıştığını oldukça net bir şekilde anlıyor. Bu noktadan sonra, örnekleme ve popülasyon hakkında da tanımlayan 68-95-99.7 kuralına gidiyorum, standart hataya karşılık standart sapma koşulları vb.

SD konuşma örneğini tanımanın PS Önemi:

Diyelim ki 1 000 000 dolara mal olan bir ölçüm cihazınız var . Ve size cevabı verir: 42. Birinin 42'ye 1 000 000 dolar ödediğini düşünüyor musunuz ? Phooey! Biri bu cevabın kesinliği için 1000 000 ödedi. Çünkü Değer - Hatalarını bilmeden hiçbir maliyeti yoktur. Hata için ödeme yaparsınız, değer için değil. İşte güzel bir hayat örneği.

Ortak hayatta çoğu zaman mesafeyi ölçmek için cetvel kullanıyoruz. Cetvel (ABD'de değilseniz) bir milimetre civarında size hassasiyet verir. Milimetrenin ötesine geçmek ve 0.1 mm hassasiyetle bir şey ölçmek zorunda kalırsanız ne olur? - Muhtemelen bir kumpas kullanırsın. Şimdi, en ucuz cetvelin (ancak yine de milimetre hassasiyetli) sente mal olduğunu, iyi pergelin onuncu dolara mal olduğunu kontrol etmek kolaydır. 1 hassasiyet için bir fiyatın 2 büyüklüğü. Ve bu, bir hata için ne kadar ödeme yaptığınızla ilgili çok olağandır.


2

Varyansı ve standart sapmayı açıklarken kullanılacak anahtar ifadenin "yayılma ölçüsü" olduğunu düşünüyorum . En temel dilde, varyans ve standart sapma bize verilerin ne kadar iyi yayıldığını söyler. Biraz daha doğru olmak gerekirse, hala meslekten olmayanlara hitap etse de, verilerin ortalamaya ne kadar iyi yayıldığını anlatıyorlar. Geçerken, ortalamanın bir "konum ölçüsü" olduğunu unutmayın . Uzlaşmacıya yapılan açıklamaları sonuçlandırmak için, standart sapmanın birlikte çalıştığımız verilerle aynı birimlerde ifade edildiği ve bu nedenle varyansın karekökünü kullandığımız vurgulanmalıdır. yani, ikisi bağlantılıdır.

Bence bu kısa açıklama işe yarayacak. Muhtemelen zaten bir giriş ders kitabı açıklamasına benzer.



-2

Genel ortalamadan ortalama pozitif fark diyebilirim.


1
L2
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.