İki Kültür: istatistik vs. makine öğrenmesi?


420

Geçen sene Brendan O'Connor’tan “İstatistikler ile Makine Öğrenmesi, savaş!” Başlıklı bir blog yazısı okudum . İki alan arasındaki farklardan bazılarını tartıştı. Andrew Gelman buna olumlu cevap verdi :

Simon Blomberg:

R'nin servet paketinden: Kışkırtıcı bir şekilde, “makine öğrenmesi, modellerin ve varsayımların kontrol edilmesiyle ilgili bir istatistiktir”. - Brian D. Ripley (makine öğrenmesi ile istatistik arasındaki fark hakkında) useR! 2004, Viyana (Mayıs 2004) :-) Sezon Selamları!

Andrew Gelman:

Bu durumda, belki de modelleri ve varsayımları daha sık kontrol etmekten kurtulmalıyız. O zaman belki insanların öğrendiği makinenin çözebileceği bazı problemleri çözebiliriz ama çözemeyiz!

Ayrıca oldu : "İki Kültür İstatistiksel Modelleme" kağıt istatistikçiler veri modelleme çok ağır güveniyor ve bu makine öğrenme teknikleri yerine güvenerek ilerleme kaydettiklerini iddia 2001 yılında Leo Breiman tarafından öngörü doğruluk modellerinin.

Bu eleştirilere cevaben istatistik alanı son on yılda değişti mi? Do iki kültürün hala var ya istatistikleri, sinir ağları ve destek vektör makineleri gibi makine öğrenme teknikleri kucaklamak büyüdü?


21
Teşekkürler @robin; CW yaptı. Her ne kadar bunu tamamen "tartışmacı" olarak görmeme rağmen; birbirlerini bilgilendiren iki alan var (bu bir gerçek) ve soru, son on yılda birlikte ne kadar geliştikleri sorusudur.
Shane,

16
Üçüncü bir kültür ekleyin: veri madenciliği . Makine öğrenicileri ve veri madencileri oldukça farklı diller konuşuyor. Genellikle makine öğrenicileri, veri madenciliğinde neyin farklı olduğunu anlamıyor. Onlara göre, sadece denetimsiz öğrenme; veri yönetimi konularını görmezden geliyorlar ve buzzword veri madenciliğini makine öğrenmesine de uyguluyorlardı , bu karışıklığı daha da arttırdı.
Anony-Mousse


2
Wasserman'in blogunda ilginç bir tartışma .

2
Bana öyle geliyor ki, ML ile istatistikler arasındaki bağ yeterince vurgulanmıyor. Pek çok CS öğrencisi, temel günlerinde istatistikler hakkında bir şey öğrenmeyi göz ardı eder, çünkü ML görevlerini yerine getirmeyi temel alan sağlam bir istatistiğin kritik önemini anlamadılar. Belki dünyadaki birçok CS departmanının bile hareket etmesi yavaş olacaktır. Çok pahalı bir hata olduğu ortaya çıktı ve umarım CS'deki istatistik bilgisinin önemi hakkında daha fazla farkındalık vardır. Temelde ML = Bir çok açıdan istatistikler.
xji

Yanıtlar:


195

Sanırım ilk sorunuzun cevabı sadece olumlu. Son 10 yılın İstatistik Bilimi, JASA, İstatistik Annals dergisini alın. Bu alanda şu anda daha az aktif olmasına rağmen, yükseltme, SVM ve sinir ağları hakkında makaleler bulacaksınız. İstatistikçiler Valiant ve Vapnik'in çalışmalarını benimsemişlerdir, ancak diğer tarafta bilgisayar bilimcileri Donoho ve Talagrand'ın çalışmalarını emmiştir. Artık kapsam ve yöntemlerde fazla bir fark olduğunu sanmıyorum. Breiman'ın CS insanlarının sadece ne işe yarıyorsa onu kullanarak kaybı en aza indirmekle ilgilendikleri iddiasını asla almadım. Bu görüş, Sinir Ağları konferanslarına katılımından ve danışmanlık çalışmalarından büyük ölçüde etkilenmiştir; fakat PAC, SVM'ler, Artırma tüm sağlam temellere sahiptir. Ve bugün, 2001'den farklı olarak, İstatistikler sonlu örneklem özellikleriyle daha fazla ilgilidir,

Ancak yakın zamanda gitmeyen üç önemli farkın olduğunu düşünüyorum.

  1. Metodolojik İstatistik raporları hala oldukça resmi ve tümdengelimlidir, ancak Makine Öğrenimi araştırmacıları ekli bir kanıtla gelmese bile yeni yaklaşımlara daha toleranslıdır;
  2. ML topluluğu, konferanslarda ve ilgili işlemlerde yeni sonuçları ve yayınları paylaşırken, istatistikçiler dergi yazıları kullanıyor. Bu, İstatistik alanındaki ilerlemeyi ve yıldız araştırmacıların tanımlanmasını yavaşlatır. John Langford bir süre önce bu konuda güzel bir yazı vardır ;
  3. İstatistikler halen (şu an için) anket tasarımı, örnekleme, endüstriyel İstatistikler vb. Gibi ML ile ilgilenmeyen alanları kapsamaktadır.

20
Harika yazı! Vapnick'in istatistik olarak doktora yaptığını unutmayın. Talagrand adını bilen çok fazla bilgisayar bilimcisi olduğundan emin değilim ve% 0.01'inin talagrand'ın bir sonucunu hafızayla ifade edebildiğinden eminim :)? Valiant'ın çalışmalarını bilmiyorum :)
robin girard

Akademik araştırma ve uygulamalar söz konusu olduğunda farklı cevapları görüyorum. Eski bağlamında cevap verdiğini düşünüyorum. Uygulamalarda en büyük farkın alanların genişlemesi şeklinde olduğunu düşünüyorum. Veri bilim kanalı aracılığıyla ML, kelimenin tam anlamıyla kodlayabilen herkesi kabul eder. İstatistiklerde, işgücüne girmek için istatistiklerde veya alanların yakınında resmi bir dereceye ihtiyacınız var.
Aksakal

1
Hem anket örneklemesi hem de endüstriyel istatistikler multi-milyar dolarlık alanlardır (Amerikan İstatistik Kurumu'nun araştırma araştırma yöntemleri bölümü, biyometri ve danışmanlıktan sonra üçüncü sırada yer almaktadır) ve ikincisi de, çok sayıda sanayi istatistikçisini içermektedir. ve tamamen ayrı bir Altı Sigma olayı ve diğer kalite kontrol yöntemleri var, hepsi tamamen istatistik olmak üzere değil. Her ikisinde de, 1960'larda bu alanlarda çalışmaya gelen bebek patlayıcılarının mevcut işgücü emekli olduğundan, istatistikçilerin kritik sıkıntısı var.
StasK

4
Bazı insanlar konferanslarda kırmızı halıda poz vererek işlerini alırken, diğerleri de gerçek dünyadaki yöntemleri uygulayarak işlerini bulurlar. İkincisi millet yok o her türlü yıldızlı belirlenmesinde pek ilgi; Çoğu zaman, belirli bir alanda birkaç yıl sonra tekrar tekrar aynı isimlere yönlendirilmenize rağmen, işe yarayan yöntemleri çok daha iyi tanımlarlar.
StasK

Örnekleme neden ML ile ilgilenmiyor? Bu, ML'de doğru etiketli eğitim verisine sahip olma sorununa benzemiyor mu?
gerrit

169

Topluluklar arasında gördüğüm en büyük fark, istatistiklerin çıkarımı vurgulaması, makine öğreniminin ise öngörüyü vurgulamasıydı. İstatistikler yaptığınızda, elde ettiğiniz verilerin üretildiği işlemi anlamak istersiniz . Makine öğrenimi yaparken, gelecekteki verilerin bazı değişkenlerle nasıl görüneceğini nasıl tahmin edebileceğinizi bilmek istersiniz.

Tabii ki iki örtüşme. Verilerin nasıl üretildiğini bilmek, örneğin iyi bir tahmincinin ne olacağı konusunda bazı ipuçları verecektir. Bununla birlikte, farkın bir örneği, makine öğreniminin p> n problemini (eğitim örneklerinden daha fazla özellik / değişken) ele almasıdır; oysa istatistik bu problemi ciddiye almaya başlıyor. Neden? Çünkü p >> n olduğunda yine de iyi tahminlerde bulunabilirsiniz, ancak hangi değişkenlerin gerçekten önemli olduğu ve nedenleri hakkında çok iyi çıkarımlar yapamazsınız.


13
Bu, (aşırı) üretici ve ayrımcı modeller arasındaki fark gibi bir şey olarak basitleştirilebilir mi?
Wayne,

5
"Bir kişi [sınıflandırma] sorununu doğrudan çözmeli ve daha genel bir sorunu hiçbir zaman ara adım olarak çözmemelidir ..." - Vapnik
Wayne

3
@mbq: Hiçbir çıkarım yapılamayacağını kastetmedim, sadece asıl amaç bu değil ve genellikle ML'de p >> n'yi zorlaştırır.
dsimcha

2
Bu görüşe kesinlikle katılmıyorum. Yanlış görünüyor. Tekrarlayan sinir ağları gibi şeyler de süreçleri çıkarmaya çalışır ve hatta devam eder ve yeni sekanslar oluşturur.
mağara adamı

2
Peki ya robotik? Olasılıksal robotikler büyük ölçüde çıkarımlara odaklanır ve uygulamalarda oldukça baskındır. Ama yine de istatistiklerden farklı bir "lezzet" (ve makine / öğrenime kıyasla daha fazla mühendislik; yani gerçek zamanlı analiz / kontrol)
GeoMatt22

134

Bayesian: "Merhaba, Makine Öğrenicisi!"

Frequentist: "Merhaba, Makine Öğrenicisi!"

Makine Öğrenimi: "Sizlerin işinizde iyi olduğunu duydum. İşte bazı veriler."

F: "Evet, bir model yazalım ve sonra MLE'yi hesaplayalım."

n1n

F: “Ah evet, hatırlattığın için teşekkürler. Sık sık MLE'yi her şey için kullanmam gerektiğini düşünüyorum, ancak tarafsız tahmincilerle ilgileniyorum ”.

ML: "Eh, bu felsefeğin nesi var? Bana yardımcı olur mu?"

÷(n1)

ML: "Peki, neye önem veriyorsun?"

F: "Değerlendirme"

ML: "Bunun sesini seviyorum."

θθθ

ML: “Kulağa harika geliyor! Görünüşe göre frekansçılar pragmatik insanlar. Her kara kutuyu sonuçlarına göre yargılıyorsunuz. Değerlendirme çok önemli.”

F: "Gerçekten! Sizler de benzer bir yaklaşım benimsem anlıyorum. Çapraz doğrulama veya başka bir şey? Ama bu bana karışık geliyor."

ML: "Dağınık mı?"

F: "Tahmin edicinizi gerçek veriler üzerinde test etme fikri benim için tehlikeli görünüyor. Kullandığınız ampirik verilerde her türlü sorun olabilir ve değerlendirme için kararlaştırdığımız modele göre davranmayabilir."

θ

F: "Evet. Yönteminiz değerlendirmede kullandığınız bir veri setinde (tren ve test verilerinin bulunduğu veri kümesi) çalışmış olsa da, madenin her zaman çalışacağını kanıtlayabilirim."

ML: "Tüm veri kümeleri için mi?"

F: "Hayır"

ML: "Yani benim yöntemim bir veri setinde çapraz doğrulandı. Sizinkini herhangi bir gerçek veri setinde test etmediniz mi?"

F: "Doğru."

ML: “Bu beni o zaman öne çıkardı! Benim yöntemim sizinkinden daha iyi. O zamanın% 90'ını kanseri tahmin ediyor. 'Kanıtınız' ancak tüm veri seti sizin varsaydığınız modele göre davranırsa geçerlidir.”

F: "Emm, evet sanırım."

θ

F: "Doğru. Veriler gerçekten Normal (veya her neyse) tanımlanmadığı sürece, kanıtım işe yaramaz."

ML: “Yani benim değerlendirmem daha güvenilir ve kapsamlı mı? Sadece şimdiye kadar denediğim veri setleri üzerinde çalışıyor, ama en azından gerçek veri setleri, siğiller ve hepsi. Muhafazakâr olduğunu iddia etmeye çalışıyordun. 've' kapsamlı 've model kontrolü ve benzeri konularla ilgilendiğinizi. "

B: (araya giriyor) "Hey millet, Rahatsız ettiğim için özür dilerim. Belki başka meseleleri göstermek için adım atıp işleri dengelemek isterdim, ama sık sık meslektaşım kaçakçılığı izlemeyi çok seviyorum."

F: "Woah!"

ML: "Tamam, çocuklar. Her şey değerlendirme ile ilgiliydi. Bir tahminci kara bir kutu. Veriler içeri giriyor, veriler çıkıyor. Değerlendiricinin nasıl performans gösterdiğine bağlı olarak bir tahminciyi onaylıyor veya onaylamıyoruz." kullanılan 'tarif' veya 'tasarım ilkeleri' hakkında.

F: "Evet. Ancak hangi değerlendirmelerin önemli olduğu konusunda çok farklı fikirlerimiz var. ML gerçek veriler üzerinde eğitim ve test yapacak. Oysa daha genel bir değerlendirme yapacağım (çünkü genel olarak uygulanabilir bir kanıt içeriyor) ve ayrıca daha sınırlıdır (çünkü veri kümenizin değerlendirmemi tasarlarken kullandığım modelleme varsayımlarından gerçekten çekilip çekilmediğini bilmiyorum.) "

ML: "Hangi değerlendirmeyi kullanıyorsun, B?"

F: (araya giriyor) “Hey. Beni güldürme. Hiçbir şeyi değerlendirmiyor. Sadece öznel inançlarını kullanıyor ve onunla çalışıyor. Ya da bir şey.”

B: “Yaygın yorum. Ama Bayesianizmi tercih edilen değerlendirmelerle tanımlamak da mümkün. O zaman, hiçbirimizin kara kutuda ne olduğunu umursamayacağımız fikrini kullanabiliriz, sadece değerlendirmenin farklı yollarını önemsiyoruz.”

B devam ediyor: "Klasik örnek: Tıbbi test. Kan testinin sonucu ya Olumlu ya da Olumsuzdur. Bir sıklıkta, Sağlıklı insanlara, hangi oranın Olumsuz bir sonuç elde edeceği ile ilgilenilir. Olumlu Olurlar. Sık görüşmeci, bunları değerlendirilen her kan testi yöntemi için hesaplar ve ardından en iyi puan alan testi kullanmamızı önerir. "

F: "Kesinlikle. Daha fazla ne istersin?"

B: “Olumlu bir test sonucu olan kişiler hakkında ne düşünüyorsunuz? 'Olumlu bir sonuç alanların, ne kadarının hasta olacağını' bilmek isteyeceklerdir? ve 'Olumsuz sonuç alanların sayısı, Sağlıklı olan nedir?' "

ML: “Ah evet, sorulacak daha iyi bir çift soru gibi görünüyor.”

F: "HERESY!"

B: "İşte yine başlıyoruz. Bunun nereye gittiğini sevmiyor."

ML: "Bu 'öncelikler' ile ilgili, değil mi?"

F: "EVIL"

B: “Her neyse, evet, haklısınız ML. Hasta olan Olumlu sonuçlu kişilerin oranını hesaplamak için iki şeyden birini yapmanız gerekir. Bir seçenek, testleri birçok insan üzerinde yapmak ve sadece gözlemlemektir. örneğin, bu oranlardan kaç tanesi hastalıktan dolayı ölmeye devam ediyor? ”

ML: "Benim yaptığım gibi geliyor. Trenle ve test et."

B: "Ancak bu sayıları önceden hesaplayabilirsiniz, eğer popülasyondaki Hastalık oranı hakkında bir varsayım yapmak istiyorsanız, frekansçı da hesaplamalarını önceden yapar ancak bu popülasyon düzeyindeki Hastalık oranını kullanmadan yapar."

F: "DAHA FAZLA TEMEL OLMAYAN DEĞERLENDİRME."

B: "Ah çeneni kapat. Daha önce öğrendin. ML, hiç kimse gibi asılsız varsayımlara düşkün olduğunu keşfetti. 'Kanıtlanmış' kapsama olasılıkların, tüm varsayımların ayağa kalkmadığı sürece gerçek dünyada birikmeyeceğini keşfetti. Benim önceki varsayımım neden bu kadar farklı? Bana deli diyorsunuz, ancak varsayımlarınızın muhafazakar, sağlam, varsayımsız bir analizin işi olduğunu iddia ediyorsunuz. "

B (devam ediyor): "Her neyse, ML dediğim gibi. Bayesanlar farklı türden bir değerlendirme istiyor. Gözlemlenen veriler üzerinde koşullandırma ve tahmin edicimizin doğruluğunu hesaplayarak buna daha fazla ilgi duyuyoruz. Bu değerlendirmeyi kullanmadan yapamayız. Ancak, ilginç olan şey, bu değerlendirme biçimine karar verdiğimizde ve önceliğimizi seçtiğimizde, uygun bir tahminci oluşturmak için otomatik bir 'reçete' ye sahip olduğumuzdur. Karmaşık bir model için tarafsız tahmin edici, uygun bir tahminci inşa etmek için otomatik bir yolu yok. "

ML: "Sen de öyle mi? Otomatik olarak bir tahminci yapabilir misin?"

B: "Evet. Tarafsız bir tahminci oluşturmak için otomatik bir yolum yok, çünkü önyargının bir tahmin ediciyi değerlendirmek için kötü bir yol olduğunu düşünüyorum. Fakat verdiğim koşullu veri tahminini verdim. Tahmin ediciyi tahmin ediciyi bana verme olasılığını bağlayabilir. ”

ML: “Her neyse, hadi özetleyelim. Hepimizin yöntemlerimizi değerlendirmek için farklı yolları var ve muhtemelen hangi yöntemlerin en iyi olduğu konusunda asla hemfikir olamayız.”

B: "Eh, bu adil değil. Onları karıştırabilir ve eşleştirebiliriz. Eğer herhangi birimiz iyi bir etiketlenmiş eğitim verisine sahipse, muhtemelen buna karşı test etmeliyiz. Ve genellikle hepimiz olabildiğince fazla varsayımları test etmeliyiz. 'kanıtlar da eğlenceli olabilir ve varsayılan bazı veri üretimi modellerinde performansı öngörür.'

F: "Evet beyler. Değerlendirme konusunda pragmatik olalım. Ve aslında, sonsuz örneklem özelliklerine takıntılı olmayı bırakacağım. Bilim insanlarından bana sonsuz örnek vermelerini rica ediyorum, ama hala yapmadılar. benim için sonlu örneklere tekrar odaklanmamın zamanı geldi. "

ML: "Son bir sorumuz var. Yöntemlerimizi nasıl değerlendirebileceğimize , yöntemlerimizi nasıl yaratacağımıza dair çok şey tartıştık ."

B: “Ah. Daha erken yaşta başladığım gibi, biz Bayezyalılar daha güçlü bir genel yönteme sahibiz. Karmaşık olabilir, ancak posteriorumuzdan örnek alacağımız bir tür algoritma (belki de saf bir MCMC şekli) yazabiliriz. "

F (araya girdi): “Ancak önyargılı olabilir.”

B: "Öyleyse yöntemleriniz olabilir. Size MLE'nin önyargılı olduğunu hatırlatmama gerek var mı? Bazen, tarafsız tahmin edicileri bulmakta büyük zorluk çekiyorsunuz ve hatta ne zaman aptal bir tahminciniz olsa bile (gerçekten karmaşık bir model için) sapma negatif. Ve siz buna tarafsız diyorsunuz. Tarafsız, evet. Ama faydalı, hayır! "

ML: "Tamam beyler. Tekrar bağırıyorsunuz. Size bir soru sormama izin verin. F. İkiniz de aynı sorun üzerinde çalışırken, yönteminizin önyargısını B'nin önyargısıyla karşılaştırdınız mı?"

F: “Evet. Aslında itiraf etmekten nefret ediyorum ama B'nin yaklaşımı bazen tahmin edicimden daha düşük önyargıya ve MSE'ye sahip!”

ML: "Buradaki ders, değerlendirmeye biraz katılmamakla birlikte, hiçbirimizin istediğimiz özelliklere sahip tahmin ediciyi nasıl oluşturacağımız konusunda tekelimiz olmadığı" dır.

B: "Evet, birbirimizin çalışmasını biraz daha okumalıyız. Tahminciler için birbirimize ilham verebiliriz. Diğerlerinin tahmincilerinin kendi başımıza sorunlarımızla harika çalıştığını görebiliriz."

F: "Ve önyargıya ilişkin takıntıyı da bırakmalıyım. Tarafsız bir tahmincinin saçma sapması olabilir. Tahmin edeceğimiz seçimler ve tahmincilerimizde görmek istediklerimiz için hepimizin 'sorumluluk alması gerekiyor'. Bir felsefenin ardında duramayız. Yapabileceğiniz tüm değerlendirmeleri deneyin. Ve tahminciler için yeni fikirler edinmek için Bayesian literatürüne bakmaya devam edeceğim! "

B: “Aslında birçok insan kendi felsefesinin ne olduğunu gerçekten bilmiyor. Kendimden bile emin değilim. Eğer bir Bayesian tarifi kullanırsam ve sonra da güzel bir teorik sonucu kanıtlarsam, bu ben demek değil. Bir frekansçı mı? Bir frekansçı performansla ilgili yukarıdaki kanıtlara önem veriyor, yemek tarifleri umursamıyor.Ayrıca bazı eğitim ve testler yaparsam (ya da aynı zamanda), bu benim makine öğrenen olduğum anlamına mı geliyor? "

ML: “Öyle görünüyor ki, o zaman hepimiz oldukça benzeriz.


8
Bu cevabı sonuna kadar okuyacak okuyucular için kısa bir paket alıp götürme mesajı eklemeyi ve (eğer uygunsa uygun alıntıyı sunmayı) öneririm.
chl

Şimdiye kadar -2 oyla, sanırım onu ​​kurtarmak için yapabileceğim pek bir şey yok :) Sanırım son, herkesin birbirleriyle aynı fikirde olduğu ve birbirlerinin felsefesinden endişe etmeden birbirlerinin yöntemlerini kullanabileceklerini kabul ediyorum. 'paket alıştırma mesajı'.
Aaron McDaid

10
Alıntı gerekmez. Sadece kendim yaptım. Muhtemelen çok iyi bilgilendirilmemiştir, yıllarca az sayıda meslektaşımla yaşadığım tartışmaların kendi (yanlış) yorumlarına dayanmaktadır.
Aaron McDaid

3
Geçmişte böyle bir diyalog gördüm (daha kısa da olsa) ve onları ilginç buluyorum. Ayrıca, indirimlerden de endişe duydum, bu nedenle okuyucuları yayınınızın geri kalanını okumaya motive etmek için kısa bir özet koyma önerim.
chl

3
13/10 tekrar tartışacak
410_Geçen

67

Böyle bir tartışmada daima ünlü Ken Thompson alıntılarını hatırlarım

Şüphe durumunda, kaba kuvvet kullanın.

Bu durumda, makine öğrenmesi varsayımları yakalamak zor olduğunda bir kurtuluştur; ya da en azından onları yanlış tahmin etmekten çok daha iyidir.


2
Bu yıllarda artan hesaplama yetenekleri ve otomatik kodlayıcılar ve ilgili tekniklerle bu her zamankinden daha doğrudur.
Firebug

Bir problemi çözmek için mühendisler daha önce kullandıkları ve başarılarından emin oldukları formülleri, teknikleri ve prosedürleri kullanırlar. Normalde, kaba kuvvet kullanımı veya başparmak kurallarının kullanımı denir ... Yeni formüller, teknikler ve prosedürler adım adım süreçte kullanılır ... Mühendislik faaliyetleri grup faaliyetleridir - Mühendisler, Teknisyenler ve el işçileri birlikte çalışırlar. Yeni bir prosedür uygulandığında, Teknisyenleri ve İşçileri bu prosedürle eğitmek zaman alır. Böylece modernleşme Evrimsel bir süreçte ortaya çıkmaktadır.
b.sahu

64

Olması gerekenden daha fazla ayrımı zorlayan şey, her disiplinin sözlüğü.

ML'nin bir terim kullandığı ve İstatistiklerin farklı bir terim kullandığı birçok örnek var - ancak her ikisi de aynı şeyi ifade eder - tamam, beklediğiniz gibi, kalıcı bir karışıklığa neden olmaz (örneğin, beklentilere karşı özellikler / özellikler) değişkenler veya sinir ağı / MLP'ye göre projeksiyon takibi).

Çok daha zahmetli olan, her iki disiplinin de tamamen farklı kavramlara atıfta bulunmak için aynı terimi kullanmasıdır.

Birkaç örnek:

Çekirdek işlevi

ML'de, çekirdek işlevleri sınıflandırıcılarda (örneğin, SVM) ve tabii ki çekirdek makinelerinde kullanılır. Bu terim , verilerin şimdi yeni giriş alanına doğrusal olarak ayrılabilmesi için yeni bir giriş alanına doğrusal olmayan bir şekilde ayrılabilmesi için basit bir fonksiyon ( kosinüs, sigmoidal, rbf, polinom ) anlamına gelir . (başlamak için doğrusal olmayan bir model kullanarak karşı).

İstatistiklerde, bir çekirdek işlevi, yoğunluk eğrisini düzleştirmek için yoğunluk tahmininde kullanılan ağırlık ölçme işlevidir.

gerileme

ML'de, "sınıflandırıcılar" sınıf etiketlerini döndüren bu algoritmaların tahmin algoritmaları veya uygulamaları (bazen) "- vektör , destek vektör makinesi , çekirdek makinesi " olarak adlandırılan makineler olarak adlandırılır . Makinelere karşıtı olan önsavının bir dönüş, bir puan (sürekli değişken) - örneğin, vektör regresyon destek .

Algoritmaların nadiren moda bağlı isimleri vardır - örneğin, bir MLP bir sınıf etiketi mi yoksa sürekli bir değişken mi döndürdüğü şeklinde kullanılan bir terimdir.

İstatistiklerde, regresyon , ampirik verilere dayanan bir model oluşturmaya çalışıyorsanız, bir veya daha fazla açıklayıcı değişkene veya daha fazla değişkene dayalı bazı yanıt değişkenlerini tahmin etmek için - o zaman regresyon analizi yapıyorsunuz . Çıktının sürekli bir değişken veya bir sınıf etiketi olması farketmez (örneğin, lojistik regresyon). Örneğin, en küçük kareler regresyonu, sürekli bir değer veren bir modeli ifade eder; Öte yandan lojistik regresyon, daha sonra sınıf etiketlerine ayrılan olasılık tahminini verir.

Önyargı

ML'de, algoritmadaki önyargı terimi kavramsal olarak istatistikçilerin regresyon modellemesinde kullandığı yakalama terimiyle aynıdır .

İstatistiklerde, önyargı rastgele olmayan bir hatadır - yani, bazı fenomenler aynı yöne ayarlanmış verilerin tamamını etkilemiştir, bu da bu tür bir hatanın örneklem büyüklüğü yeniden örneklenerek veya arttırılarak giderilemeyeceği anlamına gelir.


19
İstatistiklerde, önyargı, hata ile aynı değildir. Hata tamamen rastgele, önyargı değil. Tahmininizin beklenen değerinin gerçek değere eşit olmadığını bildiğiniz zaman önyargınız vardır.
Joris Meys

2
(@Joris Veya bilmeseniz bile! Sesler trite, ancak sadece önyargılı olup olmadığını anlamak pratik bir sorun olabilir. Tek başına verilerden, tahmin edilen bir regresyon parametresinin ihmal edilen değişkenden arınmış olduğuna nasıl emin olabilirsiniz? önyargılı olma?) Önyargının verinin bir özelliği değil, verilerin bir özelliği olduğu yaygın bir yanılgıdır; Merak ediyorum "bu anket önyargılı!" Gibi teknik olmayan kullanımdan kaynaklanıyor mu? İstatistikçiler ayrıca “hata” gibi terimlerle de her zaman tutarlı değildir: “kare” hatası (tahmin edicinin) bir yanlı kareli bileşeni içerir, böylece “hata” “tamamen rastgele” değildir.
Silverfish

2
SVM'lerde "makine" teriminin Vladimir Vapnic'in kişisel zevkine atfedilmesi gerektiğini düşünüyorum. Günümüzde, başka bir sınıflandırıcıyı adlandırmak için kullanılmadığını düşünüyorum.
iliasfl

3
E[X^X]

1
[0,1]1

25

Makine Öğrenmesi pragmatik olarak temeline sahip görünüyor - gerçekliğin pratik bir gözlemi veya simülasyonu. İstatistikler dahilinde bile, “modellerin ve varsayımların kontrol edilmesi” dikkate alınmaksızın yararlı olan yöntemlerin atılmasına yol açabilir.

Örneğin, yıllar önce, kredi büroları tarafından uygulanan ilk ticari olarak temin edilebilir (ve çalışan) İflas modeli, 0-1'lik bir sonucu hedefleyen düz eski doğrusal regresyon modeliyle yaratıldı. Teknik olarak, bu kötü bir yaklaşım, ancak pratik olarak işe yaradı.


4
gezegen yerçekimi modellerini kentsel trafikte kullanmaya benzer. Ben saçma buluyorum ama doğru aslında sessiz çalışır
dassouki

5
Son ifadeyle ilgileniyorum: "Kredi büroları tarafından uygulanan ilk ticari olarak temin edilebilir (ve çalışan) İflas modeli, 0-1 sonucunu hedefleyen düz eski doğrusal regresyon modeli ile yaratıldı". Hangi modeldi? İlk modelin Moody's tarafından RiskCalc olduğuna ve ilk versiyonun bile lojistik bir regresyon modeli olduğuna inanıyorum. Bu modelin geliştiricileri ML'de geçmişi olan CS değil, ekonometride idi.
gappy

2
Bahse girerim DA, LR'den önce icat edildiği için lojistik regresyondan önce diskriminant analizini kullandılar
Neil McGuigan

1
@gappy Bireysel kredi bürosu kayıtları için MDS Tüketici İflas modelini düşünüyorum. RiskCalc, şirketler için bir kredi riski değerlendirmesiydi. MDS İflas modeli, hedefin İflas ve NOT kredi suçluluğu (FICO'nun orijinal puanları gibi) olduğu zamandaki FICO risk modellerinden farklıydı. Benim yorumum, bu bağlamda ML'nin özellikleri hakkında daha azdı (çünkü BK modeli ilk inşa edildiğinde neredeyse hiç kullanılmıyordu), ancak pratik etkinliğin zorunlu olarak ilgili olmadığı teorik kısıtlamalar veya varsayım ihlalleri.
Jay Stevens,

Sadece merak ediyorum neden teknik olarak kötü bir yaklaşımdı. Çünkü gerçeklikten büyük ölçüde farklı olacak birçok basitleştirici varsayım yaptı mı?
xji

25

Geçen yıl farkettiğim en büyük farklar:

  • Makine öğrenimi uzmanları, temeller için yeterince zaman harcamazlar ve çoğu, optimal karar vermeyi ve uygun doğruluk puanlama kurallarını anlamamaktadır. Varsayım yapmayan yordayıcı yöntemlerin, onlardan daha büyük örneklem boyutları gerektirdiğini anlamıyorlar.
  • Biz istatistikçiler, iyi programlama pratiği ve yeni hesaplama dilleri öğrenmek için çok az zaman harcıyoruz. İstatistiksel literatürden yeni yöntemler hesaplamak ve benimsemek konusunda değişmek için çok yavaşız.

2
Başka bir not, istatistikçilerin kendimizi, özellikle yayınlar söz konusu olduğunda, iyi çalışacak matematiği (belki de saçma varsayımlar altında) ispatlayabileceğimiz yöntemlerle sınırlandırma eğiliminde olduğumuzdur. Makine öğrenen insanlar, birkaç veri setinde deneysel olarak iyi çalışan yöntemleri kullanmaktan çok mutlular. Sonuç olarak, ML literatürünün çok daha hızlı hareket ettiğini düşünüyorum ama aynı zamanda aptallığın daha fazla elenmesini gerektiriyor.
Cliff AB

24

Makine öğreniminin ve istatistiklerinin farklı veya çelişkili bilimler olduğunu öne sürdüğü için bu soruya katılmıyorum ... tam tersi doğruysa!

Makine öğrenmesi istatistiklerden geniş bir şekilde faydalanır ... herhangi bir Makine öğrenmesi veya veri madenciliği yazılım paketinin hızlıca incelenmesi, istatistiklerde bulunan k-araçları gibi Kümeleme tekniklerini ortaya koyacaktır .... ayrıca Temel bileşenler analizi gibi boyut küçültme tekniklerini gösterecektir. aynı zamanda istatistiksel bir teknik ... hatta bir başka lojistik regresyon.

Bana göre temel fark geleneksel olarak istatistiklerin önceden tasarlanmış bir teoriyi ispatlamak için kullanılmış olması ve genellikle analizin bu temel teori etrafında tasarlanmasıydı. Veri madenciliği veya makine öğrenmesi ile zıt yaklaşım genellikle sonuçta ortaya çıkan norm olduğunda, sadece soruyu sormaktan ziyade onu tahmin etmenin bir yolunu bulmak istiyoruz ya da teori sonuç budur!


21

Bunun üzerine ASA Statistics Consulting eGroup'un farklı bir forumunda konuştum. Benim cevabım, veri madenciliğine daha belirgindi, ancak ikisi el ele gitti. Biz istatistikçiler burunlarımızı veri madencilerinde, bilgisayar bilimcilerinde ve mühendislerde tıkadık. Bu yanlış. Bunun nedeninin bir parçası olduğunu düşünüyorum; çünkü biz bu alanlardaki bazı insanları problemlerinin stokastik yapısını görmezden geliyoruz. Bazı istatistikçiler veri madenciliği veri taraması veya veri avcılığı olarak adlandırılmaktadır. Bazı insanlar kötüye kullanıyor ve yöntemleri kötüye kullanıyor, ancak istatistikçiler veri madenciliği ve makine öğreniminde geride kaldı çünkü onları geniş bir fırçayla boyadık. Büyük istatistiksel sonuçların bazıları, istatistik alanı dışından geldi. Yükseltme önemli bir örnektir. Fakat Brieman, Friedman, Hastie, Tibshirani, Efron gibi istatistikçiler, Gelman ve diğerleri bunu aldı ve liderleri istatistikçileri mikrodizilerin analizine ve diğer büyük ölçekli çıkarım sorunlarına getirdi. Bu nedenle kültürler hiçbir zaman meşhur olamayacak olsa da, şimdi bilgisayar bilimcileri, mühendisler ve istatistikçiler arasında daha fazla işbirliği ve işbirliği var.


19

Asıl sorun, bu sorunun yanlış yönlendirilmiş olmasıdır. İstatistik vs makine öğrenmesi değil, gerçek bilimsel ilerlemeye karşı makine öğrenmesi. Bir makine öğrenim cihazı doğru tahminleri zamanın% 90'ını verirse ancak “neden” i anlayamıyorsam, makine öğreniminin bilime katkısı nedir? Gezegenlerin konumlarını tahmin etmek için makine öğrenme tekniklerinin kullanılıp kullanılmadığını düşünün: SVM'leriyle bir çok şeyi doğru bir şekilde tahmin edebildiklerini düşünen pek çok kendini beğenmiş insan olacaktı, fakat ellerinde olan sorun hakkında gerçekten ne bileceklerini ? Açıkçası, bilim sayısal tahminlerle gerçekten ilerlemiyor, sayıların ötesinde görmemize izin veren modeller (zihinsel, matematiksel) ile ilerliyor.


1
+1 Bu bana ekonomideki modellerin kullanımını hatırlatıyor. Ekonometrik modeller birkaç amaç için üretilmiştir; yani politika analizi ve tahmini. Genel olarak, hiç kimse gerçekten tahminlere aldırış etmiyor - en önemli şey politika simülasyonları. David Hendry'nin söylediği gibi, en iyi tahmin modeli mutlaka politika analizi için en iyi model değildir - ve tersi. Geri adım atıp düşünmeniz gerekiyor ... Modelin amacı nedir? Hangi soruları cevaplamaya çalışıyoruz? Ve bunun ampirik keşifler yapmaya nasıl uyduğunu .
Graeme Walsh,

17

İstatistiksel öğrenme (AKA Makine Öğrenmesi), "örneklerden öğrenerek" yazılım oluşturma arayışında kökenlerine sahiptir. Programlanması zor ancak eğitim örnekleri vermenin kolay olduğu bilgisayarların yapmasını istediğimiz (örneğin, bilgisayarlı görü, konuşma tanıma, robot kontrolü) birçok görev var. Makine öğrenimi / istatistiksel öğrenme araştırma topluluğu bu örneklerden işlevleri öğrenmek için algoritmalar geliştirmiştir. Kayıp fonksiyonu tipik olarak performans görevi ile ilgilidir (vizyon, konuşma tanıma). Ve elbette, bu görevlerin altında yatan herhangi bir basit "model" olduğuna inanmak için hiçbir nedenimiz yoktu (çünkü aksi halde bu basit programı kendimiz kodladık). Dolayısıyla, istatistiksel çıkarım yapma fikrinin bir anlamı yoktu. Amaç, tahminsel doğruluk ve başka bir şey değil.

Zamanla, çeşitli güçler makine öğrenmeye insanları istatistik hakkında daha fazla bilgi edinmeye itmeye başladı. Birincisi, öğrenme sürecine temel bilgileri ve diğer kısıtlamaları dahil etme ihtiyacıydı. Bu, insanları üretken olasılıklı modelleri düşünmeye yöneltti, çünkü bunlar modelin yapısı ve model parametreleri ve yapısı hakkındaki öncelikleri dahil etmeyi kolaylaştırır. Bu, alanın bu alandaki zengin istatistik literatürünü keşfetmesine yol açtı. Diğer bir güç, fazla uydurma fenomeninin keşfi idi. Bu, ML topluluğunun çapraz doğrulama ve düzenlileştirme hakkında bilgi edinmesini sağladı ve yine konuyla ilgili zengin istatistik literatürünü keşfettik.

Bununla birlikte, çoğu makine öğrenmesi çalışmasının odak noktası, bilinmeyen bir süreç hakkında çıkarımlar yapmak yerine, belirli bir performans sergileyen bir sistem oluşturmaktır. ML ve istatistik arasındaki temel fark budur.


15

İdeal olarak, soruyu yanıtlamadan önce hem istatistik hem de makine öğrenmesi hakkında kapsamlı bir bilgiye sahip olmak gerekir. Ben ML’ye karşı bir neofit'im, bu yüzden eğer saf olduğumu söylersem affet beni.

SVM'lerde ve regresyon ağaçlarında sınırlı bir deneyime sahibim. ML’de bir istatistik açısından eksik kalmamı sağlayan şey, gelişmiş bir çıkarım kavramı.

ML'deki çıkarım, (örneğin) ortalama sınıflandırma hatası (MCE) veya dengeli hata oranı (BER) veya benzeri ile ölçülen tahmin doğruluğunun neredeyse sadece kaynağında görünüyor. ML, verileri rastgele (genellikle 2: 1) bir eğitim setine ve test setine bölme alışkanlığındadır. Modeller, eğitim seti kullanılarak uygun ve performans seti (MCE, BER vb.), Test seti kullanılarak değerlendirilir. Bu mükemmel bir uygulamadır ve yalnızca ana istatistiklere yavaş yavaş yönelmektedir.

ML ayrıca, kökeni istatistiklerde göründüğü gibi yeniden örnekleme yöntemlerinden (özellikle çapraz doğrulama) faydalanmaktadır.

Bununla birlikte, ML, tahmin edilen doğruluğun ötesinde, tamamen gelişmiş bir çıkarım kavramından yoksundur. Bunun iki sonucu var.

1) Herhangi bir tahminin (parametre tahmini vb.) Rastgele bir hataya ve belki de sistematik hataya (önyargı) maruz kaldığına dair bir takdir görünmemektedir. İstatistikçiler bunun kaçınılmaz bir parçası olduğunu ve hatayı tahmin etmeye çalışacağını kabul edeceklerdir. İstatistiksel teknikler, minimum önyargı ve rastgele hataya sahip bir tahminde bulunmaya çalışacaktır. Teknikleri genellikle veri işleminin bir modeli tarafından yönlendirilir, ancak her zaman değil (örn. Bootstrap).

2) ML'de, aynı popülasyondaki yeni bir örneğe yeni verilere bir model uygulama modellerinin uygulanmasının sınırları konusunda derin bir anlayış yok gibi görünmektedir (eğitim testi veri seti yaklaşımı hakkında daha önce söylediklerime rağmen). Bunlar arasında çeşitli istatistiksel teknikler, olasılık temelli yöntemlere uygulanan validasyon ve ceza terimlerini çapraz tutar, parlamento ve model karmaşıklığı arasındaki dengede istatistiği yönlendirir. ML'de bu tür kurallar çok daha geçici görünüyor.

ML'de birçok modelin bir eğitim veri setine uydurulmasını optimize etmek için çapraz onaylamanın kullanıldığı birkaç model gördüm - model karmaşıklığı arttıkça daha iyi ve daha iyi bir uyum sağladı. Kesinlikteki küçük kazanımların ekstra karmaşıklığa değmediği ve bunun doğal olarak aşırı uydurmaya yol açtığı konusunda çok az takdir görünüyor. Daha sonra tüm bu optimize modeller, öngörülen performansı kontrol etmek ve fazla takılmayı önlemek için test setine uygulanır. İki şey unutuldu (yukarıda). Tahmini performans, stokastik bir bileşen olacaktır. İkinci olarak, bir test setine karşı yapılan çoklu testler tekrar fazla uyuma neden olacaktır. "En iyi" model, ML uygulayıcısı tarafından, bu deneyin birçok olası otomunun bir gerçekleştirilmesinden seçtiği kirazı tam olarak takdir etmeden seçilecektir.

Herhangi bir 2 sent değerinde. Birbirimizden öğrenecek çok şeyimiz var.


2
"En iyi" model hakkındaki yorumunuz ML uygulayıcısı tarafından seçilecektir ... ana akım istatistiklere de aynı şekilde uygulanır. Model seçim prosedürlerinin çoğunda, son modeldeki model alanı için herhangi bir araştırma yapılmamış gibi yapılan koşullardan yalnızca biri (model ortalamalarının oldukça yeni olduğu düşünülürse) Bu yüzden bunu ML uygulayıcısını yenmek için "kulüp" olarak kullanabileceğinizi sanmıyorum.
Olasılık

Bir ML uygulayıcısı olarak, çizdiğiniz resmi tanımıyorum. ML literatürü hemen hemen tüm düzenlileştirme, MDL, Bayesian, SRM ve modelin karmaşıklığını kontrol eden diğer yaklaşımların varyasyonları ile ilgilidir. Oturduğum yerden, stat'ün karmaşıklığı kontrol etme yöntemlerinin daha az yapılandırılmış olduğu görünüyor, ancak bu sizin için önyargı.
Muhammad Alkarouri

13

Bu soru, 2015 yılında veri bilimi süper kültürü olarak da genişletilebilir. David Donoho, 50 yıl Veri Bilimi yazdı ; burada istatistik ve bilgisayar bilimlerinden (makine öğrenmesi dahil), örneğin doğrudan bakış açılarından farklı bakış açılarıyla karşılaştı. (farklı kişilerden) öyle ki:

  • Yüzyıllar Boyunca İstatistik Yaptığımızda Neden Veri Bilimine İhtiyacımız Var?
  • Veri Bilimi istatistiktir.
  • İstatistiksiz Veri Bilimi mümkündür, hatta istenirse.
  • İstatistik, veri biliminin en az önemli kısmıdır.

ve örneğin tarihsel, felsefi düşüncelerle çeşitlendirilmiş, örneğin:

İstatistiğin oldukça kısa bir oranda brifing verildiği günümüzün veri bilimine ilişkin bir sunumu incelerken, veri araçları olarak öğretilen temel araçların, örneklerin ve fikirlerin hepsinin nasıl olduğunu fark etmekten kaçınamıyorum. Kelimenin tam anlamıyla doktora eğitimi almış biri tarafından icat edildi. istatistikler ve birçok durumda kullanılan gerçek yazılım, yüksek lisans veya doktora derecesine sahip bir kişi tarafından geliştirilmiştir. İstatistikler Yüzyıllar boyunca biriken istatistikçilerin birikmiş malları, tamamen yazılıp yazılmayacak kadar büyük ve Veri Biliminin öğretilmesinde, araştırılmasında ve uygulanmasında gizlenemiyor.

Bu yazı, tartışmaya birçok cevap ve katkı sağlamıştır.


3
Bu, bu son popüler konu başlığında değinmeye değecek bir makaleye benziyor. İs.stackexchange.com/questions/195034 , sanırım orada kimse yok.
Amip

1
Bu makaleyi özetleyen yeni bir cevap gönderirseniz harika olur.
Amip

Ben ve ilk kendim için tüm verilen cevaplar özetlemek gerekir
Laurent Duval

12

Makine öğrenimi ve istatistik arasındaki kavramsal / tarihsel farkın ne olduğunu gerçekten bilmiyorum ama o kadar açık olmadığından emin değilim ... ve bir makine öğrenicisi veya istatistikçi olup olmadığımı bilmekle gerçekten ilgilenmiyorum, sanırım Breiman'ın gazetesinden 10 yıl sonra, birçok insan ...

Her neyse, modellerin prediktif doğruluğu hakkındaki soruyu ilginç buldum . Bir modelin doğruluğunu ölçmenin her zaman mümkün olmadığını ve daha kesin olarak, hataları ölçerken dolaylı olarak bazı modellemeler yaptığımızı hatırlamamız gerekir.

Örneğin, zaman serisi tahminindeki ortalama mutlak hata zaman içindeki ortalamadır ve medyanın tahmini bir şekilde durağan olduğu ve bir miktar ergodik özellik gösterdiği varsayımıyla medyanı tahmin etme prosedürünün performansını ölçer . Eğer (bir sebepten dolayı) gelecek 50 yıl boyunca dünyadaki ortalama sıcaklığı tahmin etmeniz gerekiyorsa ve modellemeniz son 50 yıl boyunca iyi performans gösteriyorsa ... bu demek değildir ki ...

Daha genel olarak, (hatırlarsam, bedava öğle yemeği diye adlandırılmaz) modellik yapmadan hiçbir şey yapamazsınız ... Ayrıca, istatistiklerin şu soruya bir cevap bulmaya çalıştığını düşünüyorum: "önemli bir şey değil" bu bilimde çok önemli bir sorudur ve bir öğrenme süreci ile cevaplanamaz. John Tukey'i belirtmek (istatistikçi miydi?):

Bazı verilerin ve bir cevap için ağrı arzusunun birleşimi, makul bir cevabın belirli bir veri kaynağından çıkarılmasını sağlamaz

Bu yardımcı olur umarım !


12

Açıkçası, iki alan açıkça benzer fakat farklı problemlerle karşı karşıya, benzer fakat aynı fakat aynı olmayan konseptlerle aynı şekilde değil ve farklı bölümlerde, dergilerde ve konferanslarda çalışmaktadır.

Cressie ve Read'in Güç Sapma İstatistiği'ni okuduğumda hepsi benim için yerine oturdu . Formülleri, yaygın olarak kullanılan test istatistiklerini, bir üs, lambda ile değişen bir tabloya genelleştirir. İki özel durum vardır, lambda = 0 ve lambda = 1.

Bilgisayar Bilimi ve İstatistikleri süreklilik boyunca uyuyor (muhtemelen diğer noktaları içerebilir) Bir lambda değerinde, İstatistik çevrelerinde genel olarak belirtilen istatistikleri alırken, diğer yandan Comp Sci çevrelerinde genel olarak belirtilen istatistikleri alırsınız.

İstatistik

  • Lambda = 1
  • Kareler toplamı çok görünür
  • Değişkenlik ölçüsü olarak varyans
  • Birleşme ölçütü olarak kovaryans
  • Model uyum ölçüsü olarak ki-kare istatistiği

Bilgisayar Bilimi:

  • Lambda = 0
  • Günlüklerin toplamı çok görünür
  • Değişkenlik ölçüsü olarak entropi
  • Birleşme ölçütü olarak karşılıklı bilgi
  • Model uyum ölçüsü olarak G-kare istatistiği

9

Bir kez süslü bir bilgisayar algoritması çalıştırıyorsunuz - ve CS konferansı sunumu / istatistik raporu alıyorsunuz (vay, ne kadar hızlı bir dönüşüm!). Algoritmanın özelliklerini genelleştirmek için olasılık ve istatistikleri nasıl kullanacağınızı bilmiyorsanız, onu ticarileştirir ve 1 milyon kez çalıştırırsınız - kırılırsınız (neden, her zaman neden işe yaramaz ve tekrarlanamaz sonuçlar alıyorum ???).


3
Bu cevabı reddettim. Bunun gibi bir soru ile kaçınılmaz olarak bazı kişisel görüşleri içerecek olsa da, IMO biraz daha ciddi bir eleştiri için çaba göstermeliyiz. Bu sadece bir rant olarak çıkıyor.
Andy W

@AndyW, bu, elbette, etrafımda gördüklerimin abartılı bir hali. İleriye istatistiksel olarak düşünememek akademik dünya için de geçerlidir: Psikoloji veya tıp bilimlerinde yayınlanan sonuçların tekrarlanabilirliği , nominal olmaktan ziyade en fazla % 25'tir (bakınız, örneğin, simplystatistics.tumblr.com/post/21326470429/… ). % 95. OP bilgisayar bilimini benimsemek için istatistik istedi; belki bilgisayar bilimi bazı istatistikleri benimsemeli ve nedenlerini verdim.
StasK

5
@StasK Bazı önemli noktaları düşündüğünüzü düşünüyorum, neden onları daha az agresif hale getirmeye çalışmıyorsunuz?
Gala

2
Bu özlü cevabı çok beğendim.
Ian Warburton

6

Veri oluşturma modeline odaklanmanın çok anlamlı olduğu bir istatistik uygulama alanı vardır. Tasarlanan deneylerde, örneğin hayvan çalışmaları, klinik denemeler, endüstriyel DOE'ler, istatistikçiler, veri üreten modelin ne olduğuna dair bir el olabilir. ML, genellikle “büyük” gözlemsel verilere dayanan çok önemli bir tahmin sorununa odaklandığından, bu çok önemli sorun için fazla zaman harcamama eğilimindedir. Bu, ML'nin “büyük” tasarımlı deneylere uygulanamayacağı anlamına gelmez, ancak istatistiklerin kaynak kısıtlı denemelerden kaynaklanan “küçük” veri problemleri konusunda özel bir uzmanlığa sahip olduğunu kabul etmek önemlidir.

Günün sonunda, elimizdeki sorunu çözmek için en iyi olanı kullanmayı hepimizin kabul edebileceğini düşünüyorum. Örneğin, öngörme hedefi ile çok geniş veri üreten tasarlanmış bir deneyimiz olabilir. İstatistiksel tasarım ilkeleri burada çok faydalıdır ve öngörücü oluşturmak için ML yöntemleri yararlı olabilir.


4

Makine öğreniminin istatistiklere göre bir alt dal olması gerektiğini düşünüyorum, tıpkı benim görüşüme göre, kimyada fizik altında bir alt dal olması gerekiyor.

Sanırım kimyaya fizikten ilham alan bakış oldukça sağlam (sanırım). Eşdeğeri fiziksel olarak bilinmeyen herhangi bir kimyasal reaksiyon olduğunu sanmıyorum. Bence fizik, kimya düzeyinde görebildiğimiz her şeyi açıklayarak harika bir iş çıkardı. Şimdi fizikçilerin meydan olan zorlu koşullar altında, kuantum düzeyinde minik sırlarını açıklayan gibi görünüyor değil gözlemlenebilir.

Şimdi makine öğrenmesine geri dönelim. Bunun da istatistiklerin altında bir alt dal olması gerektiğini düşünüyorum (tıpkı fiziğin bir alt dalı olduğu gibi).

Fakat bana öyle geliyor ki, bir şekilde, mevcut makine öğrenmenin şu anki durumu ya da istatistikler, bunu mükemmel bir şekilde gerçekleştirebilecek kadar olgun değil. Ancak uzun vadede, birinin diğerinin alt dalı olması gerektiğini düşünüyorum. Bence istatistiklere girmek için ML olacak.

Ben şahsen, "öğrenme" ve "örnekleri analiz etme" işlevlerini veya tahminlerini tahmin etmek / tahmin etmek için temelde bir istatistik meselesi olduğunu düşünüyorum.


3
Biyoloji, psikoloji ve sosyoloji aynı zamanda fiziğin "alt dalları" mı olmalı?
amip,

Doğru .. Psikoloji sadece karmaşık biyolojik makineler içeren girdi / çıktıdır. Bir gün, hatalarını teşhis etmek için arabalarımızı bir psikoloğa göndermemiz gerekebilir (psikoloğun kendisi bir bilgisayar olabilir).
mağara adamı

1
Bana öyle geliyor ki Matematik, herkesin babası. Oradan fizik ve başka şeylerin geldiği matematiği uyguladık. İstatistikler bunlardan biridir. Bence ML'nin kendi başına bir şube olması ve bunun yerine istatistiklerle harmanlanması gerekmez. Fakat eğer ML kendi başına bir şube haline gelirse, istatistiklerin bir alt / alt dalı olmasını tercih ederim.
mağara adamı

4

Coursera kursundan Brian Caffo tarafından "Gerçek hayatta veri bilimi" dersinden

Makine öğrenme

  • Tahminleri vurgula
  • Tahmini performans ile sonuçları değerlendirir
  • Aşırı uyarlama endişesi var ancak kendi başına model karmaşıklığı yok
  • Performansa vurgu
  • Genelleştirilebilirlik, yeni veri kümelerindeki performansla elde edilir
  • Genellikle, herhangi bir süper nüfus modeli belirtilmedi
  • Performans ve sağlamlık hakkında endişe

Geleneksel istatistiksel analiz

  • Süper nüfus çıkarımını vurgular
  • A-priori hipotezlerine odaklanır
  • Daha karmaşık modeller biraz daha iyi performans gösterse de, karmaşık modeller (parsimony) yerine tercih edilen daha basit modeller
  • Parametre yorumlanabilirliğine vurgu
  • İstatistiksel modelleme veya örnekleme varsayımları, verileri ilgili popülasyona bağlar
  • Varsayımlar ve sağlamlık hakkında endişe

-5

Bilgisayar Bilimcisi olarak, istatistiksel yaklaşımlara bakarken her zaman ilgimi çeker. Bana göre birçok kez istatistiksel analizde kullanılan istatistiksel modeller birçok durumda veriler için çok karmaşık!

Örneğin, veri sıkıştırma ile istatistikler arasında güçlü bir bağlantı var. Temel olarak, verileri iyi tahmin edebilen iyi bir istatistiksel modele ihtiyaç vardır ve bu, verilerin çok iyi bir şekilde sıkıştırılmasını sağlar. Bilgisayar bilimlerinde verileri sıkıştırırken her zaman istatistiksel modelin karmaşıklığı ve tahminin doğruluğu çok önemlidir. Kimse sıkıştırmadan sonra EVER (ses verilerini veya görüntü verilerini veya video verilerini içeren) bir veri dosyasına sahip olmak istemez!

Bilgisayar bilimlerinde istatistiklerle ilgili daha dinamik şeyler olduğunu düşünüyorum, örneğin Minimum Açıklama Uzunluk ve Normalize Maksimum Olabilirlik .

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.