Örnekleme dağılımını öğretme stratejileri


30

Tl; dr sürümü Örnekleme dağılımını (örneğin ortalama bir örnek olarak) giriş seviyesi bir lisans düzeyinde öğretmek için hangi başarılı stratejileri kullanıyorsunuz?

Arkaplan

Eylül ayında , David Moore tarafından Temel İstatistik Uygulaması'nı kullanan ikinci sınıf sosyal bilimler (temel olarak siyaset bilimi ve sosyoloji) öğrencileri için tanıtım istatistiği dersi vereceğim . Bu dersi öğrettiğim beşinci zaman olacak ve tutarlı bir şekilde yaşadığım bir konu , öğrencilerin örnekleme dağılımı nosyonuyla gerçekten mücadele ettikleridir . Çıkarımın arka planı olarak ele alınmıştır ve bazı başlangıç ​​hıçkırıklarından sonra sorun yaşamadıkları ihtimaline temel bir giriş izlemektedir (ve temel olarak, temel olarak- sonuçta, bu öğrencilerin birçoğu belirli bir kurs akışına kendi seçildi çünkü belli belirsiz bir "matematik" ipucu olan bir şeyden kaçınmaya çalışıyorlardı). Muhtemelen% 60'ının kursu minimum anlayışa bırakmadan bıraktığı, yaklaşık% 25'inin prensibi anladığı ancak diğer kavramlarla bağlantıların olmadığı ve% 15'inin tamamen anladığı anlamına geldiğini tahmin ediyorum.

Ana konu

Öğrencilerin sahip olduğu sıkıntı uygulamadadır. Kesin sorunun ne anlama geldiğini anlatmaktan başka ne olduğunu açıklamak zor. Geçen sömestrde yaptığım bir anketten ve sınav yanıtlarından, zorluğun bir kısmının iki ilgili ve benzer sondaj cümlesi (örnekleme dağıtımı ve örnek dağıtımı) arasındaki karışıklık olduğunu düşünüyorum, bu yüzden "örnek dağıtım" kelimesini kullanmıyorum artık, ama elbette bu, ilk başta kafa karıştırırken, biraz çabayla kolayca kavradığı ve yine de örnekleme dağıtımı kavramının genel karmaşasını açıklayamadığı bir şeydir.

(Ben olabileceğini fark beni ben rahatsız olasılık yapmak mantıklı olduğunu göz ardı düşünüyorum Ancak burada konuyla! At beri o ve benim öğretim bazıları ... Öğrencilerin almak gibi görünüyor ve genel herkes oldukça güzel cevap veriyor)

Ne denedim

Bilgisayar laboratuvarımızda, tekrarlanan gösterilerin yardımcı olabileceğini düşünerek zorunlu oturumlar hazırlamak için bölümümüzdeki lisans yöneticisi ile tartışmam gerekiyordu (bu dersi öğretmeye başlamadan önce herhangi bir hesaplama yapılmadı). Bunun genel olarak ders materyalinin genel olarak anlaşılmasına yardımcı olduğunu düşünmeme rağmen, bu konuya yardımcı olduğunu sanmıyorum.

Sahip olduğum tek bir fikir, hiç öğretmemek veya fazla kilo vermemek, bazıları tarafından savunulan bir pozisyon (örn. Andrew Gelman ). Bunu özellikle tatmin edici bulmuyorum çünkü en düşük ortak paydaya öğretmenlik yapma zorunluluğu var ve daha önemlisi, istatistiksel uygulama hakkında daha fazla şey öğrenmek isteyen güçlü ve motive öğrencileri reddediyorlar. ). Öte yandan, ortanca öğrenci örneğin p-değerlerini kavramış gibi görünüyor, bu yüzden belki de örnekleme dağılımını anlamalarına gerek kalmıyor.

Soru

Örnekleme dağılımını öğretmek için hangi stratejileri kullanıyorsunuz? Kullanılabilecek materyaller ve tartışmalar olduğunu biliyorum (örneğin, burada ve burada ve PDF dosyasını açan bu makale ) ancak insanlar için neyin işe yaradığına dair somut örnekler alabilir miyim (veya sanırım neyin işe yaramadığını bile merak ediyorum). bu yüzden denememeyi bileceğim!). Şimdiki planım, eylül için yaptığım kursu planlarken Gelman'ın tavsiyelerine uymak ve örnekleme dağılımını “önemsizleştirmek”. Bunu öğreteceğim, ancak öğrencilere bunun yalnızca bir tür FYI konusudur ve sınavda görünmeyeceklerine (belki de bir bonus sorusu dışında mı ?!) emin olacağım. Ancak, insanların kullandığı diğer yaklaşımları duymakla gerçekten ilgileniyorum.


Bunu merkezi limit teoremini göstermek için normal olmayan popülasyon dağılımlarıyla da yapabilirsiniz
user41270

üzgünüm bu aşağıdaki cevabım üzerine bir yorum olmalıydı.
user41270

Yanıtlar:


23

Benim düşünceme göre, örnekleme dağılımları istatistik 101'in ana fikridir. Tabii bu konuyu atlamak gibi atlayabilirsiniz. Ancak, öğrencilerin ne anlama geldiğine bakılmaksızın, sadece anlamadıkları gerçeğine çok aşinayım. Bir dizi stratejim var. Bunlar çok zaman alabilir, ancak örnekleme dağılımı fikrini anlamalarını sağlamak için diğer konuları atlamanızı / kısaltmanızı tavsiye ederim. İşte bazı ipuçları:

  • Açıkça söyleyin: Öncelikle, ilgilendiğimiz 3 farklı dağılım olduğunu belirtiyorum: nüfus dağılımı, örnek dağılımı ve örnekleme dağılımı. Bunu ders boyunca tekrar tekrar söylüyorum ve kurs boyunca tekrar tekrar söylüyorum. Her zaman bu terimler ben ayırt edici bir sonu vurgulamak ki: SAM- ple , samp- Ling . (Evet, öğrenciler bundan bıkmış durumda; aynı zamanda konsepti de alıyorlar.)
  • Resimleri kullanın (rakamlar): Bu konuda her konuştuğumda kullandığım bir takım standart figürlerim var. Farklı şekilde resimlendirilen ve tipik olarak etiketlenmiş üç dağıtıma sahiptir. (Bu şekilde gösterilen etiketler powerpoint slaytındadır ve kısa açıklamalar içerir, bu yüzden burada görünmezler, ama açıkçası: üstteki popülasyon, sonra örnekler, sonra örnekleme dağılımı.)
    görüntü tanımını buraya girin
  • Öğrencilere aktiviteler verin: Bu konsepti ilk kez tanıtırken, ya bir miktar yuvarlama (bazı çeyreklikler kaybolabilir) ya da bir grup 6-taraflı zar getirin. Öğrencilerin küçük gruplar oluşturmasını ve 10 değerlik bir küme oluşturmasını ve ortalamalarını almasını sağlayın. Sonra tahtada veya Excel ile bir histogram yapabilirsiniz.
  • Animasyonları kullan (simülasyonlar): Veri oluşturmak ve onu görüntülemek için R'ye bazı (komik olarak yetersiz) kodlar yazarım. Bu bölüm, Merkezi Sınır Teoremini açıklamaya geçtiğinizde özellikle yararlıdır. (Açıklamalara dikkat edin Sys.sleep(), bu duraklamalar bana her aşamada neler olduğunu açıklamak için bir dakika verir.)
N = 10
number_of_samples = 1000


iterations  = c(3, 7, number_of_samples)  
breakpoints = seq(10, 91, 3)  
meanVect    = vector()  
x           = seq(10, 90)  
height      = 30/dnorm(50, mean=50, sd=10)  
y           = height*dnorm(x, mean=50, sd=10)  

windows(height=7, width=5)  
par(mfrow=c(3,1), omi=c(0.5,0,0,0), mai=c(0.1, 0.1, 0.2, 0.1))  

for(i in 1:iterations[3]) {  
  plot(x,y, type="l", col="blue", axes=F, xlab="", ylab="")  
  segments(x0=20, y0=0, x1=20, y1=y[11], col="lightgray")  
  segments(x0=30, y0=0, x1=30, y1=y[21], col="gray")  
  segments(x0=40, y0=0, x1=40, y1=y[31], col="darkgray")  
  segments(x0=50, y0=0, x1=50, y1=y[41])  
  segments(x0=60, y0=0, x1=60, y1=y[51], col="darkgray")  
  segments(x0=70, y0=0, x1=70, y1=y[61], col="gray")  
  segments(x0=80, y0=0, x1=80, y1=y[71], col="lightgray")  
  abline(h=0)  

  if(i==1) {  
    Sys.sleep(2)  
  }  
  sample = rnorm(N, mean=50, sd=10)  
  points(x=sample, y=rep(1,N), col="green", pch="*")  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  xhist1 = hist(sample, breaks=breakpoints, plot=F)  
  hist(sample, breaks=breakpoints, axes=F, col="green", xlim=c(10,90),  
       ylim=c(0,N), main="", xlab="", ylab="")  
  if(i==iterations[3]) {  
    abline(v=50)  
  }  

  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
  sampleMean = mean(sample)  
  segments(x0=sampleMean, y0=0, x1=sampleMean,   
           y1=max(xhist1$counts)+1, col="red", lwd=3)  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  meanVect = c(meanVect, sampleMean)  
  hist(meanVect, breaks=x, axes=F, col="red", main="",   
       xlab="", ylab="", ylim=c(0,((N/3)+(0.2*i))))  
  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
}  

Sys.sleep(2)  
xhist2 = hist(meanVect, breaks=x, plot=F)  
xMean  = round(mean(meanVect), digits=3)  
xSD    = round(sd(meanVect), digits=3)  
histHeight = (max(xhist2$counts)/dnorm(xMean, mean=xMean, sd=xSD))  
lines(x=x, y=(histHeight*dnorm(x, mean=xMean, sd=xSD)),   
      col="yellow", lwd=2)  
abline(v=50)  

txt1 = paste("population mean = 50     sampling distribution mean = ",  
             xMean, sep="")  
txt2 = paste("SD = 10     10/sqrt(", N,") = 3.162     SE = ", xSD,  
            sep="")  
mtext(txt1, side=1, outer=T)  
mtext(txt2, side=1, line=1.5, outer=T)  
  • Bu kavramları dönem boyunca yerine getirin : Bir sonraki konu hakkında her konuştuğumuzda örnekleme dağılımı fikrini tekrar gündeme getiriyorum (genellikle çok kısa da olsa). Bunun için en önemli yer, ANOVA'yı öğrettiğiniz zamandır, boş hipotez vakası olarak, gerçekten aynı popülasyon dağılımından birkaç kez örneklediğiniz durum vardır ve grup grubunuz gerçekten ampirik bir örnekleme dağılımı demektir. (Buna bir örnek olarak, buradaki cevaba bakın: Standart hata nasıl çalışır? )

1
Bu iyi bir cevap (+1). Özellikle etkinliklerin ve simülasyonların bu konuyu öğretmek için çok faydalı olduğunu düşünüyorum. Giriş dersinde, öğrencilere istatistiğin örneklemden nasıl hesaplandığını ve örnekleme dağılımının histogramının bu kadar çok tekrarlarken nasıl şekillenmeye başladığını görselleştirmelerini sağlayan bir web uygulaması kullandık. Örneklem dağılımlarını anlama konusunda öğrencilere söylediklerimin çok daha fazlasını yaptığını düşünüyorum. :)
Makro

+1 Teşekkürler Gung, bu harika bir cevap! Çok "Bana codez gönderme" için teşekkürler (nb. Mac kullanıcıları değiştirmek windows(...)ile quartz(...)). Kavramı dönem boyunca güçlendirmekle ilgili düşünceniz özellikle yararlıdır. Bu kurallara uymanın gerçekten faydalı olacağını düşünüyorum.
smillig

(+1) "3-dağılımlar" mantra ve ilişkisel resim için. Hiç kimse bir kavramı önce, gerçekten de ayrı bir kavram olduğunu anlamadan anlayamaz .
Alecos Papadopoulos

Rice University'nin “ çevrimiçi istatistik kitabı ” sayfasını örneklem dağılımında çok faydalı buldum . Yıllarca süren orijinal sürümde bir Java uygulaması vardı, ancak son zamanlarda Javascript’te yenilediklerine sevindim. Çalışma şekli esasen diyagramınızla aynıdır.
Silverfish,

8

Örneklem dağılımının, test istatistiklerinin rastgele bir örneğe dayanarak dağıtılması olduğunu hatırlatmakta bazı şanslar oldu . Öğrencilere, örnekleme sürecinde ne olacağı konusunda önyargılı olduğunu - aşırı vakalara odaklanarak - düşündüm. Örneğin, örnekleme sürecimiz her zaman aynı (özel) altkümeyi seçerse "örnekleme dağılımı" neye benzerdi? Daha sonra, örnekleme sürecimiz yalnızca iki özel (özel) alt küme (her biri olasılık 1/2) seçtiyse "örnekleme dağılımı" nın nasıl olacağını düşünürdüm. Bunlar, örnek ortala (özellikle temel popülasyon için özel "özel" seçimler için) çalışmak oldukça kolaydır.

Bazıları (açıkça değil) bazı öğrenciler için bunun örneklem dağılımının nüfus dağılımından çok farklı olabileceği fikrine yardımcı olduğunu düşünüyorum. Michael Chernick'in, özellikle açıkça normal olmayan dağılımlarda da (simülasyonlar gerçekten yardımcı oluyor gibi görünüyor) bir miktar başarı ile bahsettiği merkezi limit teoremi örneğini kullandım.


Graham Cookson, "Zorlu bir istatistiksel kavram için en sevdiğiniz mesleğin açıklaması nedir?" Bölümünde cevap olarak verilen hoş bir sınıf alıştırması var. - bir topluluk wiki.
shoda

+1, rastgele olmayan örneklemelerin örnekleme dağılımının ne olacağı hakkında konuşmak iyi bir fikirdir.
gung - Reinstate Monica

+1 Altküme seçimi hakkında harika fikir! Sanırım bu @shoda atıfta bulunduğunuz bağlantıdır: stats.stackexchange.com/a/554/9249
smillig

7

Olasılık öğretisiyle tekrar başlıyorum. Biçimsel tanımların ve kuralların çoğuna girmiyorum (yeterli zaman değil), ancak simülasyonla olasılık gösteriyorum. Monty Hall problemi kullanmak için harika bir örnektir, simülasyonun (ve ardından mantığın takibi) geçiş stratejisinin kazanma olasılığını arttırdığını gösteriyorum. Simülasyonla, stratejileri değerlendirmek için oyunu birçok kez (risk veya ödül olmadan) oynayabildiğimizi ve daha iyi bir strateji seçmemizi (bu durumdaysak) seçmemize dikkat çektim. Daha iyi bir strateji seçmek kazanmayı garanti etmez, ancak bize daha iyi bir şans verir ve stratejiler arasında seçim yapmanıza yardımcı olur. Daha sonra, bunun kursun geri kalanına nasıl uygulanacağını, rastgele bir bileşenin bulunduğu stratejileri seçmemize yardım edeceğini söyledim.

Sonra örnekleme dağılımını tanıtırken tekrar simülasyonla başlıyorum ve stratejiler geliştirmek istediğimizi söylüyorum. Tıpkı Monty Hall problemi gibi, gerçek hayatta da sadece 1 örnek alabileceğiz, ancak bir strateji geliştirmemize yardımcı olacak bir grup örneği simüle edebiliriz. Daha sonra aynı popülasyondan (bu durumda bilinen popülasyondan) birçok numunenin simülasyonunu gösteriyorum ve simülasyonlardan öğrendiğimiz ilişkileri (numune araçlarının histogramı), yani gerçek ortalama etrafında kümelenmiş numune araçlarını (ortalama anlamına gelir) gösteriyorum. daha büyük numuneler için örnekleme dağılımının daha küçük standart sapması, daha büyük numuneler için daha normal olması. Strateji seçmek için simülasyon fikirlerini yinelemekten bahsettiğim süre boyunca, Monty Hall problemi ile aynı fikirleri göstermek yerine, oyun şovları yerine örnek araçları kullanıyorum. Daha sonra resmi kuralları gösteriyorum ve simülasyonlara ek olarak bunların matematiksel olarak kanıtlanabileceğini söylüyorum, ancak tüm sınıfa ispat vermeyeceğim. Matematiksel kanıtları gerçekten görmek istiyorlarsa, bir çalışma saatine kadar gelebileceklerini ve onlara matematiği göstereceğimi öneriyorum (giriş sınıflarından hiç kimse bu konuda beni almadı).

Sonra çıkarsamaya girdiğimizde, gerçek dünyada sadece 1 örnek alabileceğimizi söylüyorum, tıpkı oyunu sadece 1 kez oynayacağımız gibi (en fazla), fakat simüle etmeyi öğrendiğimiz stratejileri kullanabiliriz bize seçilen özellikleri (doğru olma şansı) verecek bir strateji (z testi, t testi veya CI formülü) geliştirmek için pek çok örnek. Tıpkı oyunda olduğu gibi, son sonucumuzun doğru olup olmadığını bilmiyoruz (ve genellikle daha sonra hala bilmiyoruz), fakat simülasyonlardan ve örnekleme dağılımından uzun vadeli olasılıkların ne kullandığını biliyoruz. Bu strateji.

Öğrencilerin% 100'ü mükemmel bir anlayışa sahip mi? hayır, ama bence daha fazlası, bir stratejiyi / formülü seçmek için simülasyon ve matematik kurallarını (bakmalarına gerek duymadıkları için sevindiklerine, sadece kitaba / eğitmene güvenin) kullanabileceğimiz konusunda genel bir fikir edindiklerini düşünüyorum. İstenilen özellikler


+1 Bu tavsiyeyi paylaştığınız için teşekkür ederiz. Sanırım örnekleme dağılımının ne olduğu hakkında ne öğretebileceğimiz ile tek bir örneklemden çıkarım için nasıl tahmin edilebileceği arasındaki bağlantıyı sorun olarak tespit ettiniz . Siz (ve buradaki diğer kişilerin) önerdiği gibi, bu ders boyunca tekrar tekrar kavramı tekrarlamaya devam etmek önemlidir, ancak çoğu zaman yapılmaz (en azından benim tarafımdan değil, muhtemelen istediğim her şeye sığacak kadar zor buldum, çünkü zaten kapsanan kavramlara geri dönelim!
smillig

3

Bu sizin açınızdan çok önemli ve iyi düşünülmüş bir konudur. Örnekleme dağılımı kavramının çıkarımı anlamada temel olduğunu ve kesinlikle öğretilmesi gerektiğini düşünüyorum.

Biyoistatistik alanında birçok giriş istatistiği dersi verdim. Örnekleme dağılımı kavramını öğretiyorum ve iyi olduğunu düşündüğüm yaklaşımlara sahibim ancak onlarla ne kadar başarılı olduğumu belirlemek için gerçekten iyi geri dönüşlere sahip değilim. Her neyse, burada ne yapıyorum.

İlk önce basit bir tanım vermeye çalışıyorum. Örnekleme dağılımı, örnek işlem birçok kez tekrarlanırsa test istatistiklerinin elde edeceği dağılımdır. Verilerin elde edildiği varsayıldığı nüfus dağılımına bağlıdır.

Bunun, verebileceğim kadar basit bir tanım olduğunu düşünmeme rağmen, bunun çok basit olmadığını ve çoğu zaman kavramın hemen anlaşılmayacağını fark ettim. Bu yüzden, tanımı ile söylenenleri pekiştiren temel bir örnekle bunu takip edin.

22

O zaman bunu merkezi limit teoremi olan önemli bir uygulama ile takip ederdim. En basit ifadeyle, merkezi limit teoremi, normal olmayan pek çok dağılım için, örnek ortalamasının örnekleme dağılımının, n örnek büyüklüğü büyük olduğunda, normal dağılıma yakın olacağını söyler. Bunu göstermek için, tek tip (yani iki modlu bir dağılım da bakmak iyidir) gibi dağılımları alır ve ortalama için örnekleme dağılımının 3, 4, 5, 10 ve 100'lük örneklem büyüklüğü için nasıl göründüğünü gösterir. dağılımın şekli küçük n için normal görünmeyen bir şeyden büyük n için normal bir dağılıma çok benzeyen bir şeye değişir.

Öğrenciyi, bu örnekleme dağılımlarının gerçekten bu şekillere sahip olduğuna ikna etmek, öğrencilerin çeşitli boyutlarda birçok örnek üreten simülasyonlar yapmalarını ve örnekleme araçlarını hesaplamalarını sağlar. Ardından, ortalamanın bu tahminleri için histogramları oluşturmalarını isteyin. Ayrıca bunun bir quincunx kartı kullanarak nasıl çalıştığını gösteren bir fiziksel gösteri uygulamanızı öneririm. Bunu yaparken, her bir seviyede sola veya sağa gitme ihtimalinin 1 / 2'ye eşit olduğu bağımsız Bernoulli denemelerinin toplamından nasıl örnekler ürettiğine dikkat çekiyorsunuz. Altta ortaya çıkan yığınlar, bu örnekleme dağılımı (binom) için bir histogramı temsil eder ve şeklinin, kuekerkeksin dibindeki çok sayıda top toprağı sonrasında yaklaşık normal göründüğü görülebilir,


Değerli önerileriniz için teşekkürler. Gerçek bir fiziksel gösteri fikrini gerçekten çok seviyorum ve kesinlikle bağımsız bir Bernoulli denemesinin toplamı ile olan bağlantısının biraz üstünde olmasına rağmen, bunun gibi (onları facebooktan yeterince uzun süre dikkatimi dağıtacağımı varsayarak) uygulamaya çalışacağım. kafalar! Teşekkürler.
smillig

1
Ancak deneyden normal dağılım şeklini görmek gerçekten göz açıcıdır. Bunlardan birini çocukken (yaklaşık 10 yaşındayken) Chicago'daki Bilim Müzesi'nde gösterdim. O zaman istatistikler hakkında hiçbir şey bilmiyordum ama eğriyi asla unutmadım.
Michael R. Chernick

1

Bir torbaya sayılardan oluşan bir popülasyonu koymanın iyi olacağını düşünüyorum (örneğin 1-10 arasında değişen). Kendi fayanslarınızı yapabilir ya da jetonlar, iskambil kartları vb. Kullanabilirsiniz.

Öğrencilerin gruplar halinde (5 veya daha fazla) oturmasını sağlayın ve her biri çantadan bir numara seçin. Her grup kendi grubunun ortalama değerini hesaplar. Onlara, nüfus ortalamasının daha önce işe yaramadığını söyleyin, bunu bir histograma çizin ve her grubun bir üyesini alın ve örnek ortalamalarını bunun etrafındaki bir historgrama çizin. Onları 'histogramı oluşturmak için' birkaç kez bu alıştırma yapmalarını sağlayın.

Daha sonra popülasyon ortalamasının etrafındaki örnek araçlardaki değişimi grafiksel olarak gösterebileceksiniz. Örneklemdeki popülasyon ortalamasına kıyasla varyasyonları hesaplayın. Öğrencinin böylesine pratik bir egzersiz yapmayı açıkça hatırladığını düşünüyorum ve örnekleme varyasyonu kavramı sonuç olarak onlara daha kolay geri dönecektir. Biraz çocuksu gelebilir ama öğrenciler sadece aktif bir şeyler yapmak için bir değişiklik yapmaktan hoşlanırlar ... bunu istatistiklerle yapmak için pek fazla fırsat yoktur.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.