İstatistiksel sezgi / veri duygusu


20

Matematik öğrenimi gören ikinci sınıf bir lisans öğrencisiyim ve profesörlerimden biriyle matematiksel yetenek ve istatistiksel yetenek arasındaki fark hakkında iyi bir miktar konuşuyorum. Ortaya koyduğu en önemli farklılıklardan biri, gayri resmi olarak "sağduyu kısıtlamaları" olarak adlandıracağım bir dizi içinde çalışırken teknik yeteneğin bir kombinasyonu olarak açıkladığı "veri duygusu" idi, yani sorunun ortasında gerçekliği gözden kaçırmamak bir sürü teori. Bu, Gowers'ın blogunda görünen, neden bahsettiğime bir örnek:

İngiltere'nin çeşitli yerlerinde polis, trafik kazalarının nerede gerçekleştiği ile ilgili istatistikler topladı, kaza kara noktalarını belirledi, hız kameralarını oraya koydu ve daha fazla istatistik topladı. Hız kameraları kurulduktan sonra bu kara noktalardaki kaza sayısının düşme eğilimi vardı. Bu, hız kameralarının yol güvenliğini geliştirdiğini kesin olarak gösteriyor mu?

Müzakere oyunundaki randomize stratejiyi tartışan aynı kişi temelde bu sorunun cevabını zaten biliyordu. Hayır dedi, çünkü aşırı vakaları seçerseniz, deneyi tekrar çalıştırırsanız daha az aşırı olmasını beklersiniz. Söyleyecek çok şey olmadığı için bu sorudan hızla geçmeye karar verdim. Ama insanlara sahip olduğum bir plandan bahsettim, bu sahte bir telepati deneyi yapacaktı. Onlara telepatik olarak ışınlamaya çalışacağım 20 madeni para sonucunu tahmin etmelerini isterdim. Daha sonra en iyi üç sanatçıyı ve en kötü üçünü seçerdim ve paraları tekrar atarım, bu sefer en iyi olanlardan en kötü olanlara cevapları vermeme yardım etmelerini isterdim. İnsanlar performansların gelişmesinin beklendiğini ve bunun telepatiyle hiçbir ilgisi olmadığını kolayca görebiliyorlardı.

Sorduğum şey, bu "veri duygusu" hakkında, konuyla ilgili herhangi bir yayın yoluyla, varsa veya diğer kullanıcıların bu beceriyi geliştirmede yardımcı olduğunu buldukları şey hakkında daha fazla bilgi edinmektir. Bu sorunun açıklığa kavuşturulması gerekiyorsa özür dilerim; eğer öyleyse, lütfen sorularınızı gönderin! Teşekkürler.


İstatistiklerle nasıl yalan söyleneceği başlamak için harika bir yerdir.
MånsT

Drunkard's Walk, istatistikleri erişilebilir, sağduyulu bir çerçeveye de yerleştirir.
Marcus Morrisey

Yanıtlar:


10

Önce hafif bir matematik yapmamamız gerektiğini söyleyebilirim. İstatistik teorisinin geliştirilmesinde önemli bir araçtır ve istatistiksel yöntemler teori ile doğrulanır. Teori ayrıca neyin yanlış olduğunu ve hangi tekniklerin daha iyi olabileceğini de söyler (örneğin daha verimli). Bence matematik bilgisi ve düşüncesi iyi bir istatistikçi olmak için önemli (neredeyse gerekli). Ama kesinlikle yeterli değil. Yorumlarda atıfta bulunulan kitapların iyi olduğunu düşünüyorum. Bazılarını vereyim.

Veri Algılama: Keşifsel Veri Analizi ve Veri Madenciliği için Pratik Bir Kılavuz

Veri Algılama II: Veri Görselleştirme, İleri Veri Madenciliği Yöntemleri ve Uygulamaları için Pratik Bir Kılavuz

İstatistiksel Düşünme: İş Performansını Artırma

İşletme ve Sanayide İstatistiğin Rolü

İstatistiklerde Kariyer: Rakamların Ötesinde

Hahn ve Snee'nin kitapları özellikle değerli ve ilginçtir, çünkü bunlar matematiksel becerilere ve pratik deneyime sahip ünlü endüstriyel istatistikçilerdir.


7
Bağlantılar ve yorumlar için teşekkürler. Genel olarak cevapların [manuscript title](uri) bağlantı işaretlemesi kullanılarak geliştirilebileceğini düşünüyorum . Uzun bir günden sonra, uzun köprülerle cevaplarla karşılaşmanın bilinçaltı sarsıcı olabileceğini ve ne yazık ki bir okuyucuyu başka türlü iyi bir cevaba karşı önyargıya sokabileceğini düşünüyorum.
jthetzel

@jthetzel Bir bağlantıdaki URL'nin yerini alan bir isme sahip olmanın neden daha iyi olduğunu görebiliyorum. Zamanım olduğunda bunu yapmayı öğreneceğim. Kolay olduğunu biliyorum. Ama üç ya da dört bağlantı verdim. bağlantıyı tıklayıp ne olduğunu görmek neredeyse hiç zaman almaz. bu yüzden birçok topluluk üyesinin neden bu kadar önemli olduğunu anlamıyorum.
Michael R.Chickick

6

Bahsettiğiniz örnekte, asıl mesele nedensel çıkarımdır. Nedensel çıkarım için başlamak için iyi bir yer, Andrew Gelman'ın bu üçlü kitap incelemesi ve burada incelenen kitaplar. Nedensel çıkarım hakkında bilgi edinmenin yanı sıra, keşifsel veri analizinin, tanımının ve tahmininin değerini de öğrenmelisiniz.

Sosyal bilimcilerin birbirlerinin yayınlanan çalışmalarda, bloglarda , seminerlerde ve kişisel konuşmalardaki araştırmalarını eleştirdiklerini öğrenerek inanılmaz bir miktar öğrendim - öğrenmenin birçok yolu var. Bu siteyi takip edin ve Andrew Gelman'ın blogu.

Tabii ki, veri hissi istiyorsanız, gerçek verilerle çalışmak için pratik yapmanız gerekir. Genel veri algılama becerileri vardır, ancak bir sorun alanına özgü, hatta daha spesifik olarak belirli bir veri kümesine özgü veri hissi de vardır.


5

Güzel, ücretsiz bir kaynak Chance News Wiki . İnsanların veri ve istatistikleri nasıl yorumladığı konusunda iyi ve kötü noktaların tartışılmasıyla birlikte gerçek örneklerden alınan birçok örnek vardır. Genellikle tartışma soruları da vardır (görüşün motivasyonunun bir kısmı öğretmenlere öğrencilerle tartışmak için gerçek dünyadan örnekler vermektir).


5

Harika bir soru için +1! (Şimdiye kadar tüm cevaplayanlara + 1'leyin.)

Veri duygusu diye bir şey olduğunu düşünüyorum, ama mistik bir şey olduğunu sanmıyorum. Ben kullanacağım benzetmektir. Yolda ilerlerken, diğer arabalarda neler olduğunu biliyorsunuz . Örneğin, önünüzdeki adamın yan sinyalini kullanmasa bile, dönmesi gereken sokak işaretini aradığını biliyorsunuz. Yavaş, aşırı temkinli sürücüyü otomatik olarak tanımlar ve farklı durumlarda nasıl tepki vereceğini tahmin edersiniz. Olabildiğince hızlı yarışmak isteyen genci tespit edebilirsiniz. Tüm otomobillerin neler yaptığına dair tanıma tabanlı bir anlayışa sahipsiniz . Bu, veri anlamıyla tamamen aynıdır. Deneyimden geliyor, çokdeneyim. Teoriyi yeterince biliyorsanız, sadece gerçek veri kümeleriyle oynamaya başlamanız gerekir. DASL gibi bir siteyi keşfetmek ilginizi çekebilir . Ancak bir koşul, yalnızca bir veri kümesi yükleme, bir test çalıştırma ve bir p değeri elde etme konusunda deneyim sahibi olmamanızdır. Verileri keşfetmeniz, muhtemelen farklı şekillerde çizmeniz, bazı modellere uymanız ve neler olduğunu düşünmeniz gerekir. (EDA'nın burada ortak bir konu olduğuna dikkat edin.)

Bu süreç hakkında muhtemelen açık olmayan bir gerçek, veri duyusunun belirli bir topikal alana lokalize olabileceğidir. Örneğin, deneysel veriler ve ANOVA'larla çalışma konusunda çok fazla deneyim elde edebilirsiniz, ancak zaman serisi verilerine veya hayatta kalma verilerine baktığınızda neler olup bittiğini iyi hissetmezsiniz.

Son derece yararlı bulduğum bir strateji daha ekleyeyim: Bence küçük (istatistiksel) bir programlama öğrenmek için zaman ayırmaya değer. Çok iyi olmak zorunda değilsiniz ("komik olarak verimsiz" kod yazmak için bilinir). Bununla birlikte, bazı temel prosedür kodlarını yazdığınızda (diyelim ki R), simüle edebilirsiniz . Çok basit simülasyonlar bile yapabilmenin ne kadar yardımcı olabileceğini fazla vurgulamak benim için zor olurdu. Bunu kullanabileceğiniz bir şey, çalışmalarınız sırasında keşfedebileceğiniz bazı mülkleri okuduğunuzda. Örneğin, bir logit veya probit modelinin bir veri kümesi için daha iyi olup olmadığını ampirik olarak belirlemenin zor olduğunu biliyorsanız (soyut olarak), bunun basit simülasyonlarını kodlayabilirsinizve fikri daha iyi anlamak için onlarla oynayın. Bu aynı zamanda size biraz farklı bir deneyim sunacak ve aynı zamanda veri anlayışınızı geliştirmenize yardımcı olacaktır.


+1 Simülasyonlardan öğrenmenin değerini vurgulamak için.
whuber
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.