İstatistikçilerin makine öğrenmesini öğrenmesi önemli mi?


22

Makine öğrenmesi, istatistikçiler hakkında bilgi sahibi olmak için önemli bir konudur mu? Makine öğreniminin istatistik olduğu anlaşılıyor. İstatistik programları (lisans ve yüksek lisans) neden makine öğrenmesi gerektirmiyor?



2
Bilmiyorum, ancak makine öğrenmesi yapan herkesin istatistik öğrenmesi gerektiğinden eminim.
Dave

Yanıtlar:


18

Makine Öğrenmesi, yüksek boyutlu uygulamalı istatistiklerin uzmanlaşmış bir alanıdır. Ayrıca, özellikle lisans düzeyinde değil, aynı zamanda bir dereceye kadar lisans düzeyinde de iyi bir nicel program için gerekli olmayan önemli bir programlama altyapısı gerektirir. Sadece istatistiğin tahmin yönüne uygulamalıdır, oysa matematiksel istatistiklerin yanı sıra çıkarımsal ve betimleyici uygulamalı istatistikler dikkat gerektirir. Pek çok program, öğrencilere makine öğrenmesine (örneğin CMU) çok fazla maruz kalma şansı sunuyor, ancak genel olarak endüstriyel istatistikçiler, bazı yüksek profilli teknik işleri yasaklayarak bu araçları uygulama şansını nadiren alıyor.

Geçenlerde iş piyasasında pozisyonları öğrenme birçok veri bilimcisi ve makineyi gördük, ben arka plan öğrenme bir makine gerektirmez "istatistikçi" genel iş tanımını düşünüyorum, ama yok temel istatistikler, çıkarım ve iletişimin kusursuz bir anlayış gerektirir: Bunlar gerçekten bir lisansüstü istatistik programının çekirdeği olmalıdır. Makine öğrenimi ve veri bilimi ayrıca iş unvanları ve disiplinler olarak nispeten yenidir. İstatistiği istihdam edenlerin, problem çözme stratejilerini, 10 ila 20 yıl içerisinde etkinliğini sürdürmek için çoğunlukla işletme / eczacılık / biyoloji girişimlerinde bırakıldığı takdirde, makine öğrenmeye yönelik olarak sallamalarını istemek, bir kötüye kullanım olacaktır.

Son olarak, makine öğreniminin muazzam bir istatistik anlayışı sağladığını hissetmiyorum. İstatistikler temel olarak disiplinler arası bir alandır ve sizin seçtiğiniz teknik metodolojiyi tam olarak neden seçtiğinizi alanınızdaki teknik olmayan uzmanlarla iletişim kurmak ve ikna etmek önemlidir. Makine öğrenimi, uygulamalı uygulamaların çoğunda, standart araç ve tekniklerden yalnızca aşamalı olarak daha iyi performans vaat eden, yüksek düzeyde teknik bir alandır. Denetimli ve denetimsiz öğrenmedeki yöntemlerin çoğu uzman olmayanlar (ve hatta daha az eğitimli uzmanlar) tarafından "kara kutu" olarak algılanmaktadır. Belirli bir öğrenme yöntemi seçimlerini savunmaları istendiğinde, düz düşen ve uygulanan sorunlu motive edici koşulların hiçbirine dayanmayan açıklamalar vardır.


1
Düz düşen açıklamalar ile tam olarak ne demek istediğinizi biraz daha ayrıntılı olarak açıklayabilir misiniz (örnekler olabilir?)?
cbeleites, Monica

10
Doğrusal bir ayırt edici analiz, destek vektör makineleri ve bir GLM LASSO arasındaki farkları doktora mantıklı bir şekilde tarif edemiyorum. Bu yüzden, dikkatli bir şekilde ayarlanmış değişkenleri bir avuç kullanarak meme kanseri risk tahmini için lojistik bir regresyon modeli kurdum. Sunulduğunda, doktorlar derhal etki büyüklükleri hakkında aydınlatıcı bir tartışma başlattılar. "Bilim" modelimin ayrımcılığı, daha sofistike ML teknikleriyle (validasyon örneğindeki önyüklemeye dayalı AUC için% 90 CI'lerin üst üste binmesiyle) çok karşılaştırılabilirdi ve böyle bir vaka raporuna sahip tek kişi ben değilim!
AdamO

4
@cbeleites, hiç bir zaman en iyi üniversite cebirinde matematik bilgisine sahip, sağlam bir kişiyle iletişim kurmak zorunda kaldınız mı? SVM, doktorların anlayacağı şekilde etki büyüklüğü üretmez; Sınırın genişliği, onlar için çok kullanılan alışılmadık oranlardan farklı olarak onlar için anlam ifade etmiyor. Müşterinin dilini konuşamıyorsanız, zamanlarını ve paralarını size harcamazlar.
StasK

2
@GraemeWalsh harika nokta. Yapısal denklem modellemesinde veya Granger'in isimsiz nedenselliğinde olduğu gibi, öngörücü çıkarım için sofistike kestirim modellerini kullanma kavramıyla büyük mücadele ediyorum. Bence bu alanda yapılacak çok iş var. Örneğin, sezgisel olarak, yarı-parametrik modelleme ile marjinal yapısal modeller arasında büyük bir benzerlik olduğunu biliyorum, ancak farklılıkların nerede bulunduğundan emin değilim.
AdamO,

2
@Jase Netflix yarışmasının kazananlarından gelen davetli makaleye bir göz atmalısınız. Raporları çok benzerdi, hatta geniş bir model yelpazesinde posterior ağırlıkları koşan Bayesian modeli ortalamalarında bile, Pca'nın her koşulda hakim bir posterior ağırlığa sahip olduğunu gözlemlediler. Bu onların eşdeğer olduğunu söylemek değildir, ancak beni sadelik ve ml arenasının sunduğu modellerden daha basit modelleri tercih ettiren doğruluk arasında bir denge vardır. Birisi benzer şekilde sofistike parametrik modellerin parametrik olmayanlara benzer şekilde nasıl performans gösterdiğini düşünebilir.
AdamO

14

Pekala, lisans programlarımızda birlikte çalıştığımız bir veya iki kişiden öğrendiklerimizin gözünü kapattığımız görüşümüzle istatistiklerin filinden bahsedelim ...

Statik programlar uygun gördüklerini, yani öğrencilerin programda geçirecekleri sınırlı bir süre boyunca öğrenmelerini istedikleri en önemli şeyin ne olduğunu gerektirir. Bir dar alana ihtiyaç duyulması, eşit derecede önemli olduğu iddia edilebilecek diğer bazı alanlara elveda öpülmesi anlamına gelir. Bazı programlar ölçü teorik olasılık gerektirir, bazıları gerektirmez. Bazıları yabancı dil gerektiriyor, ancak çoğu program gerektirmiyor. Bazı programlar Bayesian paradigmasını çalışmaya değer tek şey olarak kabul eder, ancak çoğu yapmaz. Bazı programlar istatistikçiler için en fazla talebin anket istatistiklerinde olduğunu (en azından ABD'de olduğu gibi) bilmektedir, ancak çoğu yoktur. Biostat programları parayı takip eder ve SAS + 'a tıp ve eczacılık bilimlerine kolayca satacak yöntemleri öğretir.

Tarımsal deneyler tasarlayan veya telefon anketleri yoluyla anket verilerini toplayan veya psikometrik ölçekleri doğrulayan veya bir CBS'de hastalık insidans haritaları üreten bir kişi için makine öğrenmesi, günlük olarak üzerinde çalıştığı istatistiklerden çok uzak bir bilgisayar bilimi soyut sanatıdır. temeli. Bu insanların hiçbiri öğrenme destek vektör makineleri veya rastgele ormanlardan herhangi bir acil fayda görmeyeceklerdir.

Sonuçta, makine öğrenmesi, diğer istatistik alanlarına güzel bir tamamlayıcıdır, ancak çok değişkenli normal dağılım ve genelleştirilmiş doğrusal modeller gibi ana akım şeylerin önce gelmesi gerektiğini savunuyorum.


5

Makine öğrenmesi verilerden bilgi edinme / öğrenme ile ilgilidir. Örneğin, DNA Microarray verilerinden (örneğin kanserler veya diyabet) belirli bir hastalık tipinde rol alabilecek birkaç gen seçebilen makine öğrenme algoritmaları ile çalışıyorum. Bilim adamları daha sonra bu genleri (öğrenilmiş modeller) gelecekte erken teşhis için (görünmeyen numunelerin sınıflandırılması) kullanabilirler.

Makine öğrenimi ile ilgili çok fazla istatistik vardır ancak istatistik gerektirmeyen makine öğrenim dalları vardır (örneğin genetik programlama). Bu durumlarda istatistiklere ihtiyacınız olacak tek zaman, makine öğrenimini kullanarak kurduğunuz bir modelin diğer bazı modellerden istatistiksel olarak anlamlı derecede farklı olup olmadığını görmek olacaktır.

Benim düşünceme göre, istatistikçiler için makine öğrenmeye giriş avantajlı olacaktır . Bu, istatistikçilere istatistik uygulamalarının gerçek dünya senaryolarını görmelerine yardımcı olacaktır. Ancak, zorunlu olmamalıdır . Başarılı bir istatistikçi olabilir ve tüm hayatınızı makine öğrenmeye yaklaşmak zorunda kalmadan geçirebilirsiniz!


2
Modelinizin performansını her raporladığınızda istatistiklere ihtiyacınız olduğunu söyleyebilirim. Mabe, mesleğimin analitik kimya olduğundan, önemli kurallardan birinin "güven aralığı olmayan bir sayı" olmadığıdır.
cbeleites

1
@cbeleites Sana katılıyorum. Demek istediğim, istatistikçilerin mutlaka makine öğrenmesi uzmanı olmaları gerekmiyordu! Makine öğrenmeyi öğrenmeden
geçebilirler

1
@cbeleites veya multimodal esasators durumunda çoklu güven aralıkları (örneğin, Sivia ve Skilling Data Analysis ).
alancalvitti
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.