Deneyimli bir geliştirici için istatistiklerle nereden başlamalı


47

2015 yılının ilk yarısında Makine Öğrenimi dersini yaptım (Andrew Ng, BÜYÜK kurs). Ve makine öğrenmenin temellerini öğrendi (doğrusal regresyon, lojistik regresyon, SVM, Nöron Ağları ...)

Ayrıca 10 yıldır bir geliştiriciyim, bu nedenle yeni bir programlama dili öğrenmek sorun olmaz.

Son zamanlarda, makine öğrenmesi algoritmalarını uygulamak için R öğrenmeye başladım.

Ancak, öğrenmeye devam etmek istersem daha resmi bir istatistik bilgisine ihtiyaç duyacağımı, şu anda bunun resmi olmayan bir bilgisine sahip olduğumu fark ettim ancak bu kadar sınırlı, örneğin, birkaç doğrusal modelden hangisini doğru bir şekilde belirleyemediğimi daha iyi olurdu (normalde bunun için R-kare kullanma eğilimindeyim, ama görünüşe göre bu çok iyi bir fikir değil).

Bana göre istatistiklerin temellerini öğrenmem gerektiğine çok açık gözüküyor (üniversitede okudum ama çoğunu unuttum), nerede öğrenmeliyim, lütfen tam kapsamlı bir kursa ihtiyacım olmadığını, sadece bir şeyi unutmayın. Bir ay içinde yeterince bilgiyi öğrenmemi sağlıyor, böylece daha fazla istekli ve daha fazla öğrenebilirim :).

Şimdiye kadar " Gözyaşı olmayan İstatistikler ", başka bir öneri hakkında okudum mu?


2
İstatistikler için: Casella, G. ve RL Berger (2002): İstatistiksel Çıkarım, Duxbury. Ekonometri İçin: Hayashi, F. (2000): Ekonometri, Princeton Üniversitesi Yayınları. Başka bir bakış açısı için: stats.stackexchange.com/questions/91863/…
Guilherme Salomé

referencesEtiketi ekledim . Bu konuyla ilgili ilk isabet sayfasını taramak isteyebilirsiniz .
Glen_b

3
Bunun kapatılması gerektiğini anlamıyorum. Yine de, CW yapmak için bir argüman görüyorum.
gung - Reinstate Monica

2
Benim bakış açıma göre, olasılık teorilerini tanımadan istatistik öğrenmeye başlarsanız bilgi önyargılı olacaktır.
Metariat

2
Bir tane uyarı kelimesi eklemek istiyorum. Bunu zaten bir dereceye kadar anladığına eminim, ama sadece söylemek istiyorum. Ben MD / Doktora öğrencisiyim. MD derecem ile birlikte dahili tıp pratiği yapmayı düşünüyorum. Doktora için biyoistatistiği inceliyorum. Bilmenizi isterim ki, bir ay içinde tıpta ustalığa sahip olmaktan 1 ay içinde istatistik ustalığı elde edemezsiniz. Hiçbir şekilde sizi istatistik öğrenmekten caydırmaya çalışıyorum. Tam tersi, umarım bunu muhteşem bir şekilde anlarsınız. Fakat sadece şunu anlayın, örneğin bir geliştirici olmak istemekten daha az ilgili değil.
Vincent Laufer

Yanıtlar:


26

Nasıl devam edeceğiniz konusunda size temel bir yol haritası öneririm:

Bonus:

Bu tür yol haritaları için harika bir site, şahsen web'deki en iyi Veri Bilimi kaynaklarından biri olarak kefil olacağım Metacademy .

Gitxiv , Data Science hakkındaki Arxiv araştırma makalelerini ilgili açık kaynak uygulamaları / kütüphaneleriyle birleştiren bir başka güzel site.


2
OP, Ng'nin kursuna çoktan başladı, soruyu en başta sormasını isteyen de buydu.
Aksakal,

4
@Aksakal Ben farkettim. Ancak, yol haritasının bir parçası olarak dahil. Gerçekten bir fark yaratmaz, bu yüzden bunun da dahil olmak üzere bu yazıyı okuyan diğerlerine yardımcı olacağını düşündüm.
Dawny33,

12

Think Stats (Think İstatistikleri) veya Think Bayes'i kontrol ettiniz mi - bunlar programcılara ve bol miktarda Python koduna yönelik hazırlanmış (ücretsiz) istatistik kitaplardır.

Eğer öğrenme ilgilenen eğer Ayrıca, Ar sonra CRAN gibi size kontrol etmek isteyebilirsiniz (ücretsiz) pdf'lerden, bir yeri vardır R kullanma Olasılık Giriş ve İstatistik . Ayrıca birçok insanın gerçekten sevdiği R'yi kullanan bir Coursera kursu var (onlar da kontrol etmek isteyebileceğiniz bu ders kitabını kullanıyorlar ve DataCamp'ta laboratuvarları var sanırım ).

Ayrıca, birkaç Stats konusunu tazelemek istiyorsanız, Khan Academy'de her zaman birkaç video izleyebilirsiniz .


Düşünceler İstatistikleri ve Düşünceler Bayes'i severim ama kasıtlı olarak, kod aracılığıyla yapılacak işleri almak için resmi istatistik teorisinin çoğundan kaçınırlar. Konuyla ilgili sezgisel bir kavrama elde etmek için harika, ancak amacınız temel teoriyi anlamaksa iyi değil.
Marius

@ Marius: Ne demek istediğini biliyorum. Bununla birlikte, zaten bir programcı olduğu için ve ayrıca aradığı şeyden daha fazlası olabileceğini düşündüğü için "küçük, basit ve hızlı bir şey" istediğini düşündüğü için de düşünüyordum.
Steve S

8

Eğer uzak bir geçmişte bile olsa, bu listedeki problemleri çözebildiyseniz , uygulamalı istatistikleri "doğru" incelemeye çalışmalısınız. Size basit bir iki adım algoritması vereceğim.

İlk olarak, olasılık teorisi ile hızlanın. Çok güzel kitaplar var. Benim favorim Feller tarafından yazılmış klasik kitap . Buna "Giriş" denir, ancak başlıktan kanmayın, gitmek istediğiniz kadar derin, ancak çok iyi yazılmış ve sadece yüzeyi inceltmek istiyorsanız basit.

İkinci adım istatistiktir. Yine, bir sürü harika kitap var. Size Gujarati "Basic Econometrics" (Dördüncü Baskı) adlı iyi bir giriş metni olan bir tane vereceğim. Ekonometri, ekonomiye uygulanan istatistiklerdir . Bir referans için, herkesin veri bilim adamının önümüzdeki 10 yılda en seksi iş olacağını söyleyen bir adam Berkeley ekonomisti Hal Varian olduğunu söyledi . Bir çok makine öğrenme materyali temel istatistiklere, gerilemelere vb. Dayanmaktadır. Bu kitapta kapsanan her şey ve hepsini okumak zorunda değilsiniz, bölümleri kendi düzeninize göre seçebileceğiniz şekilde yazılmıştır.

Ng'nin dersi bu metinleri okurken hızlıca doldurduktan sonra ne kadar boşluk kaldığını görünce şaşıracaksınız.

Bir uygulayıcı olarak, bu iki adımdan sonra çok fazla teori gerekmez. Bu alandaki kitapları okuyarak ML tekniklerini öğrenmeye devam edebilirsiniz. Olasılık ve istatistiklere başlangıçta fazla derin olmamak önemlidir. Kodunuzu ilk önce ML'ye yönlendirin ve ilerledikçe boşlukları doldurun.


4

Herkes neredeyse evrensel olarak lisansüstü istatistik programlarında kullanılan Casella & Berger'i öneriyor. Kötü bir referans kitabı değil, ancak ilk 4-5 bölümü taramaktan daha fazlasını yapacağımdan emin değilim. Veri analizi yapmak için “istatistik” e geçmeden önce Neyman-Pearson tipi bir testin nasıl kurulacağı teorisine ihtiyacınız olduğunu sanmıyorum.

Bunun yerine, öğrenme yöntemlerine odaklanacağım. Yüksek lisans programım , sık testler için Uygulamalı Doğrusal İstatistik Yöntemleri kullandı ve oldukça iyi bir kapsamlı referanstı, ancak kendi kendine öğretme açısından en ulaşılabilir kitap olmayabilir. MIT'den veya kurstan bir ders ya da iki derse başlamak için daha iyi bir yol olabilir, çünkü kitap okumaktan daha fazla örnekle daha geniş bir bakış açısı elde edersiniz.

Bayes için en sık kullandığım kitap , köpek yavrusu resimleriyle gelen Bayesian Veri Analizi yapmaktır (bu, kitabı diğer Bayesian tanıtım kitaplarına göre daha üstün kılar). Kitabı kendim hiç kullanmadım, ama aradım ve oldukça iyi görünüyor - Gelman'ın kitabından çok daha iyi, ki Bayesian istatistiklerinde iki dersten sonra biraz anlaşılmaz buldum - açıklamalar korkunç.


1
C & B'nin ilk 5 bölümü aslında hiç istatistik değil, arka plana benzer ... Bir istatistik kavramı bölüm 6'nın başında ele alınmaktadır! Daha da önemlisi, öğrenme yöntemleri muhtemelen bu belirli kişiye yardımcı olmayacaktır. İstatistiği uygulayabilmesine yardımcı olacak, onu anlamamış, bu da ihtiyacı olan şey. eğer ileri matematiksel eğitim almışsa, muhtemelen bir dereceye kadar atlayabilir, ancak cevabı şu anda ML'nin temelini anlamadığını, matematiğinin sınırlayıcı olduğunu (en azından bana) şiddetle önerdiğini gösteriyor. C&B başlamak için kötü bir yer olmayabilir.
Vincent Laufer

1
Bunlar istatistik olmayabilir, ancak herhangi bir modelleme yapmak için olasılık dağılımlarına ilişkin arka plan önemlidir - örneğin bir bernoulli dağılımının ne olduğunu ve lojistik regresyonunu anlayabilmeniz için önce onun özelliklerinin ne olduğunu bilmeniz gerekir. Hala C & B'ye zaman zaman atıfta bulunuyorum, ancak o kitabı kullandığım sınıfın dışında bölüm 6'nın ötesinde bir şey kullandığımı sanmıyorum.
srvanderplas

1
Söylediklerinize tamamen katılıyorum, ancak asıl nokta yerine basma ile ilgili - bu ilk önce basamağı eklemek benim hatam. Her halükarda, asıl nokta, başkalarının önerdiği gibi, OP'nin yapması gereken, teorik matematik ve istatistiği daha iyi anlamaktır. hayır, gönderim yerinde daha fazla istatistiksel test uygulamak için herhangi bir yardıma ihtiyacı olduğunu gösteriyor mu? Bunu yapabilir. onları daha derinlemesine anlamak istiyor. Bunun için, C&B uygulama odaklı hazırlık konusunda daha fazla el öğrenmekten daha iyidir.
Vincent Laufer

3

Bu tam bir cevap olarak tasarlanmamıştır, sadece bir öneri. İstatistikler hakkında daha fazla bilgi edinmek istiyorsanız (vakıf), şunları okuyabilirsiniz:

Casella, G. and R. L. Berger (2002): Statistical Inference, Duxbury

Bu istatistikçiler için oldukça standart bir kitaptır ve çok ilginç sonuçları vardır. Teoremlerin tüm ispatlarını gözden geçirmenize gerek yoktur, ancak sonuçlarla daha güvende hissetmek için bazı alıştırmalar yapmak isteyebilirsiniz.

Ekonometri hakkında daha fazla bilgi edinmek istiyorsanız (veri modelleri), şunlara bir göz atabilirsiniz:

Hayashi, F. (2000): Econometrics, Princeton University Press

Başka biri aslında sorduğuna benzer bir şey sordu ve güzel bir cevap aldı: "Casella & Berger" dan sonra ne yapmalı .

Ayrıca, eğer bu kitapları okumayı gerçekten düşünüyorsanız, bir ekonometri dersinin bu ders programı size ne okunacağına (CB ve Hayashi) ne zaman ve ne zaman okuyacağınıza ilişkin oldukça iyi bir yönlendirme ve hız kazandırabilir.


Öneriniz için teşekkürler, ancak bahsettiğiniz ilk kitap yaklaşık 660 sayfadır ... Daha büyük kitaplar okudum, fakat basit, hızlı ve küçük bir şey var, böylece temel bir kavrayışa sahip olabilir miyim?
Juan Antonio Gomez Moriano,

3
Casella ve Berger size istatistik teorisinin bir kısmını verecekler , ancak veri analizi hakkında çok az şey öğreneceksiniz.
Glen_b

1
@JuanAntonioGomezMoriano ne kadar küçüktünüz? Ben her zaman bir başlangıç ​​noktası olarak istatistiklerle yalan söyleyişinin hayranıydım .
icc97 13:15

(-1) OP'nin istediği şeyin tam tersi, istatistiklere matematiksel veya teorik bir yaklaşım tercih eden biri için mükemmel seçimler gibi sesler.
Gala,

1
İstatistiklerle ilgili daha “resmi” bir bilgiye ve temel bilgilere ihtiyacı olduğunu söyledi.
Guilherme

2

Orijinal sorudan bu yana çıkan yeni bir kitap önerebilirim: İstatistiksel Yeniden Düşünme: CRC Press, Richard McElreath tarafından R ve Stan Örnekleriyle Bir Bayesian Kursu .

Çok iyi yazılmış ve bir Bayesian yaklaşımı kullanıyor. Bu çok etkileşimlidir ve problemleri çözmek istersiniz ya da ikiye katlanır ve kaybolmaya başlayabilirsiniz.

Çok temel başlar ve çok seviyeli modellerle biter ve bazı istatistiksel bilgilere sahip olan ancak genel olarak kendilerine öğretildiği gibi istatistiklerle rahat hissetmeyen oldukça gelişmiş bilim insanlarına yöneliktir. Bu yüzden tam bir başlangıç ​​kitabı olduğunu söyleyemem, ama çok basit başlıyor ve harika bir yay ve stile sahip.

Başlığın "Stan" kısmı genel amaçlı bir Bayesian örnekleme aracıdır. Temel olarak, otomatik olarak C ++ 'a derleyen ve çalıştırılabilir bir dosyaya derlenen bir programlama dilidir. (Bayesci çıkarım, alternatiflerden farklı olarak geneldir, böylece genel bir araca sahip olabilirsiniz.)


1

Sizin için yararlı olacak çok geç olsa bile, bu cevabı gelecek nesillere vereceğimi düşündüm. Larry Wasserman'ın Tüm İstatistikleri , makine öğrenimi, diğer bilim dallarında veya resmi istatistik eğitimi almayan matematik - yani tam olarak şu anki durumunuzdaki kişiler için - kurs olarak tasarlanmıştır. Benzer bir resmi istatistik eksikliğine sahip olduktan sonra, birkaç arkadaş ve ben ortaokuldan geçmek için bir çalışma grubu oluşturduk. Sanırım bu deneyimden gerçekten faydalandım.

Wasserman'ın grafik modeller ve önyükleme gibi tipik "olasılık ve istatistiksel çıkarım" ders materyalinin ötesine attığı ilave konular, özellikle makine öğreniminde çalışan biriyle ilgilidir. Kitabın, Casella & Berger gibi bir şeye kıyasla oldukça özlü olabileceğini söylemeliyim, bu nedenle bazı parçalar için daha fazla ayrıntı veya motivasyon istiyorsanız (özellikle deliller), diğer okuma materyalleriyle desteklemeniz gerekebilir. Bununla birlikte, kitabın çok sayıda pratik problemle açıkça yazılmış olduğunu da gördüm ve bu mükemmel bir hızlı referans.

Bir ay çok fazla değil. Yine de çok agresif bir adım attıysanız, bence bu yazının bir döneminden kesinlikle çok yararlanabileceğinizi düşünüyorum: mesela yaz boyunca kendi çalışma grubumuzu yaptık. Bu özellikle, Ch tarafından vurulacağınız lineer modelleme ile ilgileniyorsanız geçerlidir. 13-14.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.