Lisans öğrencilerine gösterilebilecek iyi örnekler nelerdir?


9

CS-odaklı lisans öğrencilerine bu dönemin ikinci yarısında istatistik asistanı olarak istatistik öğreteceğim. Öğrencilerin çoğu dersi aldılar ve konuyu öğrenmeye teşviki yoktu ve sadece büyük gereksinimler için aldı. Konuyu ilginç ve kullanışlı hale getirmek istiyorum, sadece B + 'yı geçmeyi öğrendikleri bir sınıf değil.

Bir saf matematik doktora öğrencisi olarak gerçek hayattaki uygulama konusunda çok az şey biliyordum. Lisans istatistiklerinin bazı gerçek hayattaki uygulamalarını sormak istiyorum. Aradığım örnekler (ruh olarak) şöyle:

1) Merkezi limit teoreminin gösterilmesi bazı büyük örnek veriler için yararlıdır.

2) Merkezi limit teoreminin uygulanamayacağına dair bir örnek verin (örneğin Cauchy dağılımını takip edenler).

3) Z-testi, t-testi veya bir şey kullanarak ünlü gerçek yaşam örneklerinde hipotez testinin nasıl çalıştığını göstermek.

4) Aşırı takmanın veya yanlış ilk hipotezin yanlış sonuçlara nasıl verilebileceğini göstermek.

5) P-değeri ve güven aralığının (iyi bilinen) gerçek yaşam vakalarında nasıl çalıştığını ve çok iyi çalışmadıklarını göstermek.

6) Benzer şekilde tip I, tip II hataları, istatistiksel güç, ret seviyesi α, vb.

Benim sorunum, olasılık tarafında (para atma, zar atma, kumarbazın harabesi, martingales, rastgele yürüyüş, üç mahkumun paradoksu, monty salonu problemi, algoritma tasarımında olasılık yöntemleri vb.) Birçok örneğim olsa da, bilmiyorum istatistik tarafında birçok kanonik örnek. Demek istediğim, bazı pedagojik değeri olan ciddi, ilginç örneklerdir ve gerçek yaşamdan çok ayrı görünen son derece yapay olarak yapılmamıştır. Öğrencilere Z-testi ve t-testinin her şey olduğu hakkında yanlış bir izlenim vermek istemiyorum. Ancak saf matematik geçmişimden dolayı, sınıfı onlar için ilginç ve kullanışlı hale getirmek için yeterli örnek bilmiyorum. Bu yüzden biraz yardım arıyorum.

Öğrencimin seviyesi I. ve II. Onlar olamaz hatta Gauss çekirdeği nasıl değerlendirileceğini bilmiyorum olarak standart normal varyansını tanım gereği 1 olduğunu gösteriyor. Bu nedenle, biraz teorik veya uygulamalı hesaplamalı (hipergeometrik dağılım, 1D rasgele yürüyüşteki arcsin yasası gibi) hiçbir şey işe yaramayacaktır. Sadece "nasıl" değil "neden" de anlayabileceklerine dair bazı örnekler göstermek istiyorum. Aksi takdirde, söylediklerimi gözdağıyla kanıtlayıp kanıtlayamayacağımdan emin değilim.


2
Bu durum biraz geniş ve çok odaklanmamış gibi görünüyor "lisans istatistiklerinin bazı gerçek yaşam uygulamaları" özellikle QA formatı için uygun değil. En iyi ihtimalle 'büyük liste' sorusu. (3) tek başına çok geniş ve odaklanmamış olabilir, ancak biraz yeniden yapılandırılmış bir müdaveci olabilir ve (4) biraz daha odaklanarak yeterince iyi durabilirse. (1) hiçbir durumda başarılı olamaz, çünkü merkezi limit teoremi bize neler olduğu hakkında hiçbir şey söylemez.n=100 veya n=1000 veya n=1010. Sonlu örneklem sonucu değildir.
Glen_b

3
(Ben o seviyede öğretmek değil beklemek) Berry-Esseen teoremi olabilir sonlu numuneler ile kullanılabilir. Elbette gayri resmi olarak, belirli dağılımların örnekleme araçları, örneklem büyüklüğü arttıkça daha normal hale gelir, ancak CLT aslında bununla ilgili bir şey söylemediğinden gerçekten "bu merkezi limit teoremi" diyemeyiz. Buna ek olarak, normal bir dağılıma sürekli olarak yaklaştıklarını göstermek için bir dizi örnek boyutuna ihtiyacınız vardır. Yalnızca zaman içinde toplanan verilerde yaygın olan gerçek dünya veri toplamada (bu nedenle, eğer iddianızı varsa, bazı zorluklarınız olabilir).
Glen_b

2
Gerçek bir veri var (bir deneyden - biraz yapay bir tane varsa) - 40000 jeton
tosses

1
Onlara örneklemin artan örneklemle belirli durumlarda nasıl davrandığı hakkında bir şeyler gösterebilirsiniz - bu oldukça yararlıdır; CLT'ye atfetmek kesinlikle doğru değildir. Bozuk para atma verileri bunun için yararlı olabilir (kendileri de benzer şekilde ürettikleri veriler gibi). Verileri almadan önce bağlantıdaki bilgileri okumak isteyebilirsiniz, çünkü verilerin önemli bir özelliği vardır (bu da ilk etapta toplama motivasyonudur).
Glen_b

1
Listelediğiniz hemen hemen her şeye örnekler, Freedman, Pisani ve Purves gibi iyi giriş istatistikleri metinlerinde verilmiştir . ( 10 ABD doları altında kolayca bulabileceğiniz Üçüncü Sürüm ile bağlantı kurdum . Herhangi bir sürüm iyi olacak; en son sürüm daha güncel örneklere sahip olabilir.)
whuber

Yanıtlar:


1

Bunun iyi bir yolu R ( http://www.r-project.org/ ) kurmak ve örneklerini öğretim için kullanmak olabilir. R'deki yardıma "? T.test" vb. Komutlarla erişebilirsiniz. Her yardım dosyasının sonunda örneklerdir. T.test için, örneğin:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

resim açıklamasını buraya girin


1

Örnek büyüklüğünün önceden belirlenmesi ve "yeterli anket gönderdim mi?" Gibi sorulara cevap bulmak için merkezi limit teoreminin uygulanmasını öneriyorum.

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf , merkezi limit teoreminin nasıl uygulanacağına dair güzel bir dünya örneği sunar. Didaktik bir strateji şöyle olabilir:

Bir teori

* Örnekleme dağılımı ile tahminin dağılımı arasındaki farkı netleştirin, örneğin bir zar atmanın "düz" dağılımı ile N zarının ortalamasının dağılımına karşı (R'yi kullanın veya öğrencilerin Excel çizim tekli ile oynamasına bile izin verin) değer dağılımları ve ortalama dağılımları)

* ortalamanın dağılımı için yüzdelik değerlerin formül tabanlı hesaplamasını göster (matematiğin derinliklerinde olduğunuzda, formülü türetmek isteyebilirsiniz) - bu nokta yukarıda bağlantılı sunumdaki 10-17 slaytlarına karşılık gelir

ve sonra (yukarıda bağlantılı sunumdaki 20. slaytta olduğu gibi):

B) uygulama

* merkezi limit teoreminin, ortalamanın tahminlerinde istenen kesinlikler için numune boyutlarının belirlenmesine nasıl yardımcı olduğunu gösterme

Bu uygulama B) benim tecrübelerime göre istatistikçi olmayan bir istatistikçi - ne tür sorulara cevap "yeterli veri var mı?"


1

CS öğrencilerine öğrettiğiniz için, Merkezi Limit Teoreminin güzel bir uygulaması, büyük bir veri kümesinden (yani> 100 milyon kayıt) ortalamaları tahmin etmek olabilir. Tüm veri kümesinin ortalamasını hesaplamanın gerekli olmadığını göstermek yerine, veri kümesinden örnek almak ve tüm veri kümesinden / veritabanından ortalamayı tahmin etmek için örnek ortalamayı kullanmak gerekli olabilir. Farklı alt gruplar için büyük ölçüde farklı değerlere sahip bir veri kümesini taklit etmek isterseniz bunu bir adım daha ileri taşıyabilirsiniz. Daha sonra öğrencilerin daha doğru tahminler elde etmek için tabakalı örneklemeyi keşfetmelerini sağlayabilirsiniz.

Yine, CS öğrencileri olduğundan, güven aralıkları elde etmek veya daha karmaşık istatistiklerin varyanslarını tahmin etmek için biraz önyükleme yapmak isteyebilirsiniz. Bu, istatistiklerin ve bilgisayarın hoş bir kesişimidir, çünkü bence ve konuya daha fazla ilgi gösterebilir.


1

Bir yorum yazarak başladım ama çok uzun oldu ...

Bunların CS öğrencisi olduğunu unutmayın. Onları matematikçilerinden memnun ettiğiniz şekilde memnun etmeyeceksiniz (σcebir) veya biyolog, doktorlar (biyolojik veya tıbbi veriler ve eski null hipotezlerini test etmek için klasik tarifler). Eğer dersin oryantasyonuna karar vermek için yeterli özgürlüğünüz varsa, temel kavramları öğrenmeleri önemliyse, tavsiyem radikal bir oryantasyon değişikliği yapmaktır. Tabii ki, diğer öğretmenler önceden tanımlanmış bazı görevleri yerine getirebilmelerini isterse, biraz sıkışıp kalırsınız.

Benim görüşüme göre, eğer bir "öğrenme" bakış açısıyla çıkarım sunarsanız ve "karar teorisi" ya da "sınıflandırma" bakış açısından testler sunarsanız, hoşunuza gideceklerdir - kısaca, gibi algoritmalar. Algoritma algoritmaları için!

Ayrıca, CS ile ilgili veri kümelerini bulmaya çalışın; Örneğin bir html sunucusuna yapılan bağlantıların süresi ve birim zaman başına talep sayısı birçok kavramın açıklanmasına yardımcı olabilir.

Simülasyon tekniklerini öğrenmeyi çok sevecekler. Lehmer jeneratörlerinin uygulanması kolaydır. CDf'yi tersine çevirerek onlara diğer dağıtımların nasıl simüle edileceğini gösterin. Eğer buna giriyorsanız, onlara Marsaglia'nın Ziggurat algoritmasını gösterin. Oh, ve Marsaglia'nın MWC256 jeneratörü küçük bir mücevher. Marsaglia'nın Diehard testleri (üniform jeneratörlerin adalet testi) birçok olasılık ve istatistik kavramını göstermeye yardımcı olabilir. Hatta olasılık teorisini "rastgele çiftler, oups, gerçekler demek istiyorum" akışlarına dayalı olarak sunmayı bile seçebilirsiniz - bu biraz arsız, ama büyük olabilir.

Ayrıca, sayfa sıralamasının bir Markov zincirine dayandığını unutmayın. Bu kolay bir mesele değil ama Arthur Engel'in sunumundan sonra (referansın olasılıksal abaküs olduğunu düşünüyorum - Fransızca okursanız, bu kitap kesinlikle bir zorunluluktur ), sevecekleri birkaç oyuncak örneğini kolayca sunabilirsiniz. . CS bilim öğrencisinin Discrete Markov zincirlerini çok daha fazla seveceğini düşünüyorumt-sertler, daha zor bir malzeme gibi görünse bile (Engel'in sunumu bunu kolaylaştırır).

Eğer konunuzda yeterince ustalaşırsanız, orijinal olmaktan çekinmeyin. Tamamen tanımadığınız bir şeyi öğrettiğinizde "klasik" dersler uygundur. İyi şanslar ve ders notlarını bırakırsanız lütfen bana bildirin!


1

Bunun bilgisayar bilimi öğrencileri olduğunu söylüyorsun. İlgi alanları nelerdir, bu temel olarak teorik bilgisayar bilimi mi yoksa öğrenciler çoğunlukla işe hazırlanmak için motive ediliyor mu? Ayrıca bize kurs açıklamasının ne olduğunu da söyleyebilirsiniz!

Ancak, bu sorulara cevabınız ne olursa olsun, (örneğin) web tasarımı gibi bilişim bağlamlarında ortaya çıkan bazı pratik istatistiklerle başlayabilirsiniz. Bu sitenin zaman zaman bununla ilgili, örneğin zaman içindeki Dönüşüm oranları veya dönüşüm oranının yanı sıra /stats/96853/comparing-sales-person-conversion-rates veya AB Test etmenin diğer faktörleri gibi soruları vardır .

Görünüşe göre web tasarımında yer alan kişilerden, bunlar gibi birçok soru var. Durum bir web sayfanız olması (bir şey satmanız). Anladığım kadarıyla "dönüşüm oranı", tercih edilen bazı görevlere (satın alma veya ziyaretçileriniz için sahip olduğunuz başka bir hedef gibi) devam eden ziyaretçilerin yüzdesidir. Ardından, web tasarımcısı olarak, sayfa düzeninizin bu davranışı etkileyip etkilemediğini soruyorsunuz. Böylece, web sayfasının iki (veya daha fazla) sürümünü programlayabilir, yeni bir müşteriye hangi sürümü sunacağını rasgele seçebilir ve böylece dönüşüm oranlarını karşılaştırabilir ve son olarak sürümü en yüksek dönüşüm oranıyla uygulamayı seçebilirsiniz.

Bu, bir karşılaştırma deneyinin tasarım problemidir ve yüzdeleri karşılaştırmak için istatistiksel yöntemlere ihtiyacınız olabilir veya belki de dönüşümlerin dönüştürülmesine / dönüştürülmesine karşı tasarımların olasılık tablosu. Bu örnek onlara bazı web geliştirme işlerinde istatistiklerin gerçekten yararlı olabileceğini gösterebilir! Ve istatistiksel açıdan, varsayımların geçerliliği hakkında birçok ilginç soruya açılıyor ...

Merkezi limit teoremi hakkında söylediklerinize bağlanmak için, yüzdelere normal olarak dağıtılmış gibi davranmadan önce kaç gözleme ihtiyacınız olduğunu sorabilir ve simülasyonu kullanarak çalışmalarını isteyebilirsiniz ...

Programcı türleri tarafından sorulan diğer istatistik soruları için bu sitede arama yapabilirsiniz ...


-2

İyi örneklerden önce, net tanımlara odaklanmanın daha iyi olduğunu öneriyorum. Deneyimlerime göre, lisans olasılığı ve istatistik, öğrencilerin hiçbirinin anlamadığı kelimelerle dolu bir derstir. Bir deney olarak, olasılık dersini yeni bitirmiş olan öğrencilere "rastgele değişken" in ne olduğunu sorun. Size örnekler verebilirler, ancak çoğunun size bunun net bir tanımını vereceğinden şüpheliyim. "Olasılık" tam olarak nedir? "Dağıtım" nedir? İstatistiklerdeki terminoloji daha da kafa karıştırıcıdır. Gördüğüm çoğu lisans kitabı bunu açıklamaktan çok kötü bir iş çıkarıyor. Örnekler ve hesaplamalar güzeldir, ancak açık tanımlar olmadan düşündüğünüz kadar yararlı değildir. Deneyimlerimden bahsetmişken, bu yüzden olasılık teorisi bir lisans olarak nefret ettim. Çıkarlarım bir olasılıktan olabildiğince uzaklaştırılmış olsa da, şimdi konuyu takdir ediyorum, çünkü sonunda tüm terminolojinin gerçekten ne anlama geldiğini kendime öğrettim. Bunun tam olarak sorduğunuz şeyden özür dilerim, ancak böyle bir sınıfa ders verdiğinizde bunun yararlı bir tavsiye olacağını düşündüm.


1
Kabul ettiğimden emin değilim - en azından çoğu durumda. Bazıları için, kavramsal anlayış, önerdiğiniz gibi, belirli örneklere uygulamadan önce gelebilir, ancak diğer öğrenciler için, kavramsal anlayış (özellikle karmaşık konular için) sadece özellikle aydınlatıcı bir örnek kullanılarak ortaya çıkabilir.
jsakaluk

Bir lisans öğreniminde lisansüstü matematiği okumakta ve problemleri orada çözmekte zorlanıyordum. Ne yaptığımı ve ne yapmam gerektiğini biliyordum. Olasılık teorisi veya istatistik, öğrendiğim derslerden "daha kolay". Ama ne yaptığımı ya da neden yapmak zorunda olduğumu bilmiyordum. Ders kitaplarının kendisi benim için tamamen yararsızdı. Onları okuduktan sonra kelimeleri gerçekten anlamadım. Tabii, hesaplamaları yapabilirim ama günün sonunda boş bir konu olarak gördüm. Eğer bu karışıklığa sahip olsaydım, fortiorti, matematik olmayan eğimli öğrenciler de yapar.
Nicolas Bourbaki

5
Bunun, muhtemelen çok parlak öğrencilere saf matematik derecesinde öğretmek için CS ana dallarına uygulamalı istatistik öğretmekten daha yararlı bir tavsiye olup olmadığını merak ediyorum.
Silverfish

@Silverfish Tavsiyemin sadece matematik öğrencileri için geçerli olup olmadığından emin değilim. Ölçü teorisinin dilini geliştirebilir ve teorinin içine girmeden olasılığın nasıl ifade edildiğini gösterebilir. Bu gerçekten temel analizden farklı değil. Çoğu kitap en azından terimlerini tanımlar, ancak onların teorisine girmezler. Öğrenciler istatistiğin ters olasılık problemi olduğunu anladıysa ve örneğin, rastgele bir değişkenin beklenen değerine yaklaştığı için ortalamaya "önem veririz", o zaman çok daha fazla takdir edebilirler.
Nicolas Bourbaki
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.