Her istatistikçi hangi teorileri bilmelidir?


30

Bunu çok temel, asgari ihtiyaçlar açısından düşünüyorum. Bir endüstri (akademik olmayan) istatistikçinin düzenli olarak bilmesi, anlaması ve kullanması gereken temel teoriler nelerdir?

Akla gelen büyük bir büyük sayılar yasasıdır . İstatistiksel teoriyi veri analizine uygulamak için en gerekli olan nedir?

Yanıtlar:


41

Açıkçası, büyük sayılar yasasının sektörde büyük bir rolü olduğunu sanmıyorum. Maksimum olasılık tahminleri ve testleri (omniimportant GLM'ler ve özellikle lojistik regresyon da dahil olmak üzere), önyükleme gibi genel prosedürlerin asimptotik gerekçelerinin anlaşılması yararlıdır, ancak bunlar, kötü bir örnek sorununa varabilmek yerine, dağıtım meseleleridir. .

Bahsedilen konuların ötesinde (GLM, çıkarım, önyükleme), en yaygın istatistiksel model doğrusal regresyondur, bu yüzden doğrusal modelin tam olarak anlaşılması şarttır. ANOVA'yı endüstri hayatınızda asla yönetemezsiniz, ancak bunu anlamadıysanız, istatistikçi olarak adlandırılmamalısınız.

Farklı endüstriler var. Farmasötik olarak, randomize denemeler ve lojistik regresyon olmadan geçim sağlayamazsınız. Anket istatistiklerinde, Horvitz-Thompson tahmincisi ve yanıt vermeyen ayarlamalar olmadan bir yaşam sağlayamazsınız. Bilgisayar bilimi ile ilgili istatistiklerde, istatistiksel öğrenme ve veri madenciliği olmadan geçimini sağlayamazsınız. Kamu politikası düşünce kuruluşlarında (ve gittikçe artan bir şekilde eğitim istatistikleri) nedensellik ve tedavi etkisi tahmin edicileri olmadan (ki giderek artan bir şekilde randomize denemeler içeren) geçim sağlayamazsınız. Pazarlama araştırmasında, psikometrik ölçüm teorisi ile iktisat geçmişine sahip olmanız gerekir (ve ikisini de tipik bir istatistik departmanı teklifinde öğrenemezsiniz). Sanayi istatistikleri, ana akım istatistiklere uzaktan bağlı olan ancak kendine özgü altı sigma paradigmasıyla çalışır; deney materyallerinin tasarımında daha güçlü bir bağ bulunabilir. Wall Street'in malzemesi, stokastik hesaplamaya kadar finansal ekonometri olacaktı. Bunlar ÇOK farklı becerilerdir ve "endüstri" terimi "akademi" den daha zayıf bir şekilde tanımlanmıştır. Kimsenin aynı anda yukarıdakilerin iki veya üçünden fazlasını bildiğini iddia edebileceğini sanmıyorum.

Bununla birlikte, "endüstride" (sizin için ne anlama gelirse) evrensel olarak gerekli olan en önemli beceriler, zaman yönetimi, proje yönetimi ve daha az istatistiksel açıdan anlayışlı müşterilerle iletişim kurmak olacaktır. Bu nedenle, kendinizi sektöre yerleştirmeye hazırlamak istiyorsanız, işletme okulu derslerinde bu konularda ders alın.

GÜNCELLEME: Orijinal yayın Şubat 2012'de yazılmıştır; Bu günlerde (Mart 2014), muhtemelen sanayide sıcak bir iş bulmak için "istatistikçi" yerine "veri bilimcisi" demelisiniz ... ve bu kendi kendini ilan etmeyi takip edecek Hadoop'u daha iyi öğrenmelisiniz.


1
Mükemmel cevap. Sektördeki istatistikçiler arasındaki büyük farklılıklardan bazılarını vurguladığınız için teşekkür ederiz. Bu, sorumu motive etmeye yardımcı oluyor çünkü birçok insanın bir istatistikçinin ne olduğu / yaptığı hakkında farklı bir fikri olduğuna inanıyorum. Sanırım bunların nerelerde kesiştiklerini bulmaya çalışıyordum. Ayrıca, işletme konuları ve bunların ne kadar önemli oldukları hakkındaki son paragrafınızı gerçekten takdir ediyorum. Harika noktalar var ama kabul etmeden önce konuşmaya herhangi birisinin ekleyebilecek olup olmadığını görmek istiyorum.
bnjmn

Endüstri İstatistikleri'nin çalıştığını söylediğiniz bu “tuhaf Altı Sigma paradigmaları”, “ana istatistiklere uzaktan bağlı” olarak şaşkınım. Bu alt alanların tümü arasında bulunan terminolojideki farklılıkları bir kenara bırakmak bana tamamen ortodoks gibi geliyor.
Scortchi - Eski Monica

4
109

Yeterince adil: Ölçüm sistemleri analizi (puanlayıcılar arası anlaşma, gösterge tekrarlanabilirliği ve tekrarlanabilirlik çalışmaları), istatistiksel süreç kontrolü, güvenilirlik analizi (aka hayatta kalma analizi) ve deneysel tasarım (fraksiyonel) faktörü tasarımları, yanıt yüzeyi metodolojisi. ) endüstriyel istatistiklerin karakteristiği idi.
Scortchi - Eski Monica

12

Önyargılı sapma tradeoffı ile ilgili hususların iyi anlaşıldığını düşünüyorum . Çoğu istatistikçi, bir noktada, bir tahmincinin varyansı ya da model parametrelerinin, önyargının ikincil bir düşünce olduğu kadar yüksek olması için yeterince küçük bir veri kümesini analiz eder.


11

Süper açık olanı belirtmek için:

Merkezi Limit Teoremi

pp

Bootstrapping


8

Bunun çok sayıların yasası ya da merkezi limit teoremi gibi bir şeye çok benzer olduğunu söyleyemem, ama nedensellik hakkında çıkarımlar yapmak çoğu zaman merkezi olduğundan, Judea Pearl'ün nedenselliği modellemek için yapılandırılmış grafikleri kullanma konusundaki çalışmasının insanların aşina olması gereken bir şey olduğunu anlamak ile. Deneysel ve gözlemsel çalışmaların neden sağladıkları nedensel çıkarımlara göre farklılık gösterdiğini anlamanın bir yolunu sunar ve gözlemsel verilerle ilgilenmenin yollarını sunar. İyi bir genel bakış için, kitabı burada .


2
Rubin'in karşı taraflar çerçevesi de var; Ayrıca yapısal eşitlik modellemesi ve ekonometrik enstrümantal değişken teknikleri de var. Bunların bir kısmı, En Çok Zararsız Ekonometri'de tanımlanmış, istatistikçi olmayan kişilerce yazılmış en iyi istatistik kitaplarından biri.
StasK

7

Ele alınacak esas problemin sağlam bir şekilde anlaşılması, herhangi bir istatistiksel yaklaşım kadar önemlidir. Sektördeki iyi bir bilim insanının, problemlerine makul bir çözüm bulmak için bu tür bir bilgiye sahip olmayan bir istatistikçiden daha muhtemeldir. Temel bilgiye sahip bir istatistikçi yardımcı olabilir.


6

Tuhaf istatistiklerin varyansının nasıl hesaplanacağı ve asimptotik göreceli etkinliklerinin nasıl bulunacağı, değişken değişikliklerin önerilmesi ve verimlilik artışlarının "doğru olanı tahmin ederek" açıklanması için Delta Yöntemi. Bununla birlikte, Jensen'in GLM'leri anlama konusundaki Eşitsizliği ve yukarıdaki gibi dönüşümlerde ortaya çıkan garip yanlılık türleri. Ve şimdi bu önyargı ve varyanstan bahsedilir, önyargı varyans takası kavramı ve öngörülen doğruluğun nesnel bir ölçüsü olarak MSE.


6

Kanımca, uygulayıcı için istatistiksel çıkarım çok önemlidir. Çıkarımın iki kısmı vardır: 1) Tahmin ve 2) Hipotez testi. Hipotez testi önemlidir. Tahminlerde çoğunlukla benzersiz bir prosedür olduğu için, maksimum olabilirlik tahmini takip edildi ve en istatistiksel paket mevcuttu (bu yüzden karışıklık yok).

Sık sık uygulayıcıların soruları, farkın veya nedensellik analizinin önemli testlerinin etrafındadır. Bu bağlantıda önemli hipotez testleri bulunabilir .

Doğrusal modeller hakkında bilgi edinmek, GLM veya genel olarak istatistiksel modelleme nedensellik yorumlaması için gereklidir. Veri analizinin geleceğinin Bayesian çıkarımını içerdiğini sanıyorum.


0

Geçici çıkarım şarttır. Ve bu temel sorunu nasıl çözebilir, zamanda geriye gidemez ve birisine tedavi veremezsiniz. Modern istatistik öğrencisinin kurucusu olan rubin ile ilgili makaleleri okuyun.) .... Bu sorunu ele almak için ne öğrenmek, uygun randomizasyon ve büyük sayılar yasasının işlerin nasıl rastgele yapıldığını söylediğini, Hipotez testi, Potansiyel sonuçlar (hetroscastisty varsayımına karşı tutar) ve eksiklik ile harikadır, eşleştirme (eksiklik için harika ancak potansiyel sonuçlar daha iyidir, çünkü daha yaygındır, demek istediğim, neden sadece bir karmaşık şeyi öğrenebiliyorken bir ton karmaşık şey öğreniyorum), Bootstrap, Bayesçi istatistik (Bayesian regresyon) , naif Bayesian regresyonu, Bayesian faktörleri) ve Papometrik olmayan alternatifler.

Normalde pratikte sadece bu genel adımları izleyin,

Önceki bir yorum ile ilgili olarak, genel olarak önce bir ANOVA ile başlamalısınız (rastgele etkiler veya sabit etkiler, ve sürekli türleri kutulara dönüştürmelisiniz) daha sonra bir regresyon kullanmalısınız (eğer dönüştürür ve değiştirirseniz bazen bir ANOVA kadar iyi olabilir ama asla onu geçemezsiniz). Hangi spesifik tedavilerin anlamlı olduğunu görmek için (çoklu t testi yapmak ve Holm metid gibi bir düzeltme kullanmak için uygulanan) bir regresyon kullanın.

Bazı şeyleri önceden tahmin etmeniz gereken durumlarda, bayas regresyonunu kullanın.

% 5'den fazla eksiklik potansiyel sonuçları kullanır

Veri analizinin bir başka dalı da belirtilmesi gereken denetimli makine öğrenmesidir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.