Veri madenciliği, istatistik, makine öğrenmesi ve AI arasındaki fark nedir?


208

Veri madenciliği, istatistik, makine öğrenmesi ve AI arasındaki fark nedir?

Çok benzer problemleri çözmeye çalışan 4 alan olduklarını söylemek doğru olur mu? Farklı yaklaşımlarla? Tam olarak ortak noktaları nedir ve nereleri farklıdır? Aralarında bir çeşit hiyerarşi varsa, ne olurdu?

Daha önce de benzer sorular sorulmuştu ama hala anlamadım:

Yanıtlar:


109

Bunlar arasında önemli bir örtüşme var, ancak bazı ayrımlar yapılabilir. Zorunluluktur, bazı şeyleri fazla basitleştirmek veya başkalarına kısa yoldan vermek zorunda kalacağım, ancak bu alanların bir kısmını anlamak için elimden gelenin en iyisini yapacağım.

İlk olarak, Yapay Zeka diğerlerinden oldukça farklıdır. AI, akıllı ajanların nasıl oluşturulacağının araştırılmasıdır. Uygulamada, bir bilgisayarı akıllı bir ajan olarak (örneğin, bir kişi) davranacak ve bir görevi yerine getirecek şekilde programlamaktır. Bu, öğrenme veya tümevarımı içermek zorunda değildir , “daha ​​iyi bir fare kapanı inşa etmenin bir yolu olabilir”. Örneğin, AI uygulamaları devam eden işlemleri izlemek ve kontrol etmek için programlar içermiştir (örneğin, çok düşük görünüyorsa A görünüşünü arttırın). AI lanetlemek-yakın içerebilir dikkat edin şey o 'aptalca' o yapmaz sürece, bir makine yapar.

Bununla birlikte, pratikte istihbarat gerektiren görevlerin çoğu deneyimlerden yeni bilgiler üretme yeteneği gerektirir. Bu nedenle, AI içindeki geniş bir alan makine öğrenmesidir . Bazı performans ölçütlerine göre, görevdeki performansı tecrübe ile geliştiyse, bir bilgisayar programının deneyimle ilgili bazı görevleri öğrendiği söylenir. Makine öğrenmesi, bilgileri otomatik olarak çıkarabilen (yani çevrimiçi insan rehberliği olmadan) algoritmaları içerir. Kesinlikle bu talimatların doğrudan türetilmiş, ya da klasik istatistik, ilham fikirler dahil olduğu, ancak bunlar yok olmasıolmak. AI'ya benzer şekilde, makine öğrenmesi çok geniştir ve bazı endüktif bileşenler olduğu sürece hemen hemen her şeyi içerebilir. Makine öğrenmesi algoritmasına bir örnek Kalman filtresi olabilir.

Veri madenciliği , ilham alan ve tekniklerinin çoğunu makine öğreniminden (ve bazıları da istatistiklerden) alan ancak farklı amaçlara girilen bir alandır . Veri madenciliği, bir kişi tarafından , belirli bir durumda, belirli bir veri setinde, bir amacı göz önünde bulundurularak gerçekleştirilir. Tipik olarak, bu kişi, makine öğrenmede geliştirilen çeşitli örüntü tanıma tekniklerinin gücünden yararlanmak ister. Oldukça sık, veri seti büyük , karmaşık ve / veya özel problemleri olabilir(gözlemlerden daha fazla değişken olduğu gibi). Genellikle amaç, önceden çok az bilginin olmadığı bir alandaki bazı ön kavrayışları keşfetmek / oluşturmak ya da gelecekteki gözlemleri doğru bir şekilde tahmin edebilmektir. Ayrıca, veri madenciliği prosedürleri 'denetlenmemiş' (cevabı - keşfi bilmiyoruz) veya 'denetlenebilir' (cevabı - tahminini biliyoruz) olabilir. Amacın, genellikle altta yatan veri üretme süreci hakkında daha karmaşık bir anlayış geliştirmek olmadığını unutmayın . Yaygın veri madenciliği teknikleri kümelenme analizleri, sınıflandırma ve regresyon ağaçları ve sinir ağlarını içerir.

Sanırım bu sitede hangi istatistiklerin olduğunu açıklamak için fazla bir şey söylememe gerek yok ama belki birkaç şey söyleyebilirim. Klasik istatistikler (burada hem frekans hem de Bayesian demek istiyorum) matematikte bir alt başlıktır. Bunu büyük olasılıkla olasılık hakkında bildiklerimizin ve optimizasyon hakkında bildiklerimizin kesişmesi olarak düşünüyorum. Her ne kadar matematiksel istatistikler basitçe Soruşturma'nın Platonik bir araştırma nesnesi olarak incelenebilse de, çoğu zaman matematiğin diğer, daha nadir görülen alanlarından daha pratik ve uygulamalı olarak anlaşılmaktadır. Bu haliyle (ve özellikle yukarıdaki veri madenciliğinin aksine), bazı veri üretme sürecini daha iyi anlamak için kullanılır. Böylece, genellikle resmi olarak belirlenmiş bir modelle başlarve bundan, bu modeli gürültülü örneklerden (yani, tahmin - bazı kayıp fonksiyonlarını optimize ederek) doğru bir şekilde çıkarmak ve onu diğer olasılıklardan (örneğin, örnekleme dağılımlarının bilinen özelliklerine dayanan çıkarımlar) ayırt edebilmek için türetilmiş prosedürlerdir. Prototipik istatistiksel teknik regresyondur.


1
Görevin çoğuyla aynı fikirdeyim, ancak AI’nın çoğu zaman akıllı ajanlar yaratmaya çalıştığını (zekâ nedir?), Rasyonel ajanlar yaratmaya çalıştığını söyleyebilirim. Rasyonel olarak "dünya hakkında mevcut bilgiler verildiğinde optimal" anlamına geliyor. Kuşkusuz nihai amaç genel bir problem çözücü gibi bir şeydir.
kutschkem

3
üzgünüm, veri madenciliği ile makine öğrenimi arasındaki farkı hala anlamadım. gördüklerime göre, veri madenciliği = makine öğrenmesi denetimsiz öğreniyor. yeni öğrenmeleri keşfetme konusunda makine öğrenmesi denetimsiz değil mi?
dtc

Anonim bir kullanıcı bu blog yayınını , veri madenciliği ile makine öğrenmesi arasındaki farkları parametre bazında parçalayan bir tablo için önerdi .
gung

1
Common data mining techniques would include cluster analyses, classification and regression trees, and neural networks.Bir sinir ağının veri madenciliğinde kullanılan bir makine öğrenme aracı örneği olduğunu , veri madenciliği için kullanılan makine öğrenmesi için tasarlanmamış bir algoritma olan küme analizine kıyasla olduğunu söylemek güvenli midir?
t0mgs 06.06.2016

Gerçekte hepsi oldukça bulanık, @ TomGranot-Scalosub. Sinir ağlarının kesinlikle ML olduğunu ve kesinlikle küme analizi ve CART'ın ML araştırmacıları tarafından çalışıldığını söyleyebilirim. Fikirleri biraz daha net ve belirgin hale getirmeye çalışıyorum, ancak bu kategoriler arasında gerçekten parlak bir çizgi yok.
gung

41

Diğer cevapların birçoğu ana noktaları ele aldı, ancak eğer varsa ve hiyerarşi varsa bir hiyerarşi istediniz, her biri kendi haklarında disiplin olsalar da, her birinin üzerine kurulduğundan beri kimsenin bahsetmediği hiyerarşisi var. bir önceki.

İstatistikler sadece sayılarla ilgilidir ve verileri ölçmek içindir. Verilerin alakalı özelliklerini bulmak için birçok araç vardır, ancak bu saf matematiğe oldukça yakındır.

Veri Madenciliği , bazı fenomenleri açıklayabilmeniz için verilerde gizlenmiş kalıpları bulmak için İstatistikleri ve diğer programlama yöntemlerini kullanmakla ilgilidir. Veri Madenciliği, bazı verilerde gerçekte neler olup bittiğiyle ilgili sezgiler oluşturur ve hala programlama konusunda matematikten biraz daha fazladır, ancak ikisini de kullanır.

Makine Öğrenimi , bazı verilerin arkasında olanların modellerini oluşturmak için Veri Madenciliği tekniklerini ve diğer öğrenme algoritmalarını kullanır, böylece gelecekteki sonuçları tahmin edebilir . Matematik, algoritmaların çoğunun temelidir, ancak bu programlama için daha fazladır.

Yapay Zeka , Makine Öğrenimi tarafından oluşturulan modelleri ve dünyayı düşünmenin diğer yollarını kullanır ve bunun bir oyun mu oynuyor yoksa bir robot / araba mı sürdüğü konusunda akıllı davranışa yol açar . Yapay Zekanın, eylemlerin dünyanın modelini nasıl etkileyeceğini öngörerek elde etmek için bir hedefi vardır ve bu amaca en iyi ulaşacak eylemleri seçer. Çok programlama tabanlı.

Kısacası

  • İstatistik quantifies numaralar
  • Veri Madenciliği kalıpları açıklar
  • Makine Öğrenimi tahmin modelleri ile
  • Yapay Zeka davranışları ve nedenleri

Şimdi bu söyleniyor, sadece yapay zekâya düşen ve diğer alanlara benzer şekilde bazı yapay zeka problemleri olacak, ancak günümüzdeki ilginç sorunların çoğu (örneğin kendi kendini süren otomobiller) bunlara kolayca ve doğru şekilde çağrılabilir. Umarım bu, sorduğunuz aralarındaki ilişkiyi temizler.


Hiç WEKA veya RapidMiner kullandınız mı? Örneğin, EM veri madenciliği içerisindedir ve bir model uygular. Bunun dışında, mariana soffer tarafından verilen tanımı inceleyin ve cevabınızla karşılaştırın. Birkaç yıl önce Piskopos ve Russell / Norvig'i okudum, ancak savı hatırladığım kadarıyla. mariana soffer tarafından daha uygundur. BTW veri madenciliği ("sadece") bilgi keşfi öncesinde atılan en önemli adımdır. veri madenciliği, yeterli parametrelere sahip bir algoritma kullanırken yalnızca veri için ve ardından bilgi için kapmadır. veri madenciliği kalıpları açıklayamaz.
anma töreni

Hayır, @mnemonic, AI'nın bu tanımı, oldukça tarihli olan
mariana'nınkinden

2
İstatistiğin tanımının zayıf olduğunu düşünüyorum; quantifyinf sayıları, ulusal istatistik departmanının rapor ettiği istatistiklerdir, ancak bu, veriler için modeller oluşturan, parametrelerini tahmin eden ve çıkarım yapan istatistik bilimi ile aynı değildir. Ayrıca, veri madenciliği ile makine öğrenmesi arasındaki ilişki altüstür; veri bilimi, makine öğrenme tekniklerini kullanır, tersini yapmaz. Ken van Haren'in cevabına da bakınız.
Richard Hardy,

25
  • İstatistikler olasılık modelleriyle, özellikle de veri kullanan bu modellerle çıkarımla ilgilidir.
  • Makine Öğrenimi , bazı veriler verilen belirli bir sonucun tahmin edilmesiyle ilgilidir. Makul bir makine öğrenme yöntemi hemen hemen resmi bir olasılıksal model olarak formüle edilebilir, bu nedenle bu anlamda makine öğrenmesi istatistiklerle hemen hemen aynıdır, ancak genellikle parametre tahminlerini umursamadığı (sadece tahmin etme) ve odaklandığı konusunda farklılık gösterir. hesaplama verimliliği ve büyük veri kümeleri üzerinde.
  • Veri Madenciliği (anladığım kadarıyla) makine öğrenmesidir. Makine veri algoritmalarının büyük veri setlerine dağıtılmasının pratik yönlerine daha fazla odaklanmaktadır. Makine öğrenmeye çok benzer.
  • Yapay Zeka , bilgisayarlardaki zekanın (bazılarının keyfi bir şekilde tanımlanması) ilgilendiği bir şeydir. Yani, bir çok şey içeriyor .

Genel olarak, olasılık modelleri (ve dolayısıyla istatistiklerin), bir makinede resmi olarak bilgi ve anlayışı yapılandırmanın en etkili yolu olduğu kanıtlanmıştır, öyle ki, diğerlerinin üçü de (AI, ML ve DM) bugün çoğunlukla İstatistik. İstatistiklerin gölge kolu haline gelen ilk disiplin değil ... (Ekonomi, psikoloji, biyoinformatik, vb.)


5
@Ken - Ekonomi psikolojisini veya AI'yi istatistiğin gölge kolları olarak tanımlamak yanlış olur - istatistikler bu alanların ilgilendiği birçok problemi analiz etmek için her biri içinde yoğun bir şekilde kullanılıyorsa bile, tıpın bir gölge kolu olduğunu söylemek istemezsiniz Çoğu tıbbi sonuç, veri analizine büyük ölçüde güveniyor olsa da istatistiklerden bazıları.
mpacer

@Ken - Bu harika bir cevap ama AI'nın diğer şeylerini nelerden daha iyi tanımlayabiliyorsunuz. Örneğin, tarihsel olarak AI, olasılıksız modellerin analizini büyük miktarda içermiştir (örneğin, üretim sistemleri, hücresel otomatlar vs.), örneğin bakınız Newell ve Simon 1972). Tabii ki tüm bu modeller bazı olasılıksal modellerin durumlarını sınırlandırıyor, ancak daha sonraya kadar böyle bir damarda analiz edilmedi.
mpacer

4
veri madenciliği makine öğreniminin ötesine geçiyor, çünkü algoritmaları çok daha hızlı hale getirmek için verilerin nasıl depolandığını ve endekslendiğini içeriyor. Çoğunlukla AI, ML ve istatistiklerden yöntemler almak ve bunları verimli ve akıllı veri yönetimi ve veri düzeni teknikleriyle birleştirmek olarak tanımlanabilir. Veri yönetimi içermediğinde, genellikle "makine öğrenmesi" diyebilirsiniz. Bununla birlikte bazı görevler vardır, özellikle “denetimsiz”, “öğrenmenin” söz konusu olmadığı, ancak veri yönetiminin olmadığı, bunlara hala “veri madenciliği” (kümeleme, aykırı saptama) adı verilir.
Anony-Mousse,

21

Hepsinin birbiriyle ilgili olduğunu söyleyebiliriz, fakat hepsi farklı şeylerdir. Bunlar arasında ortak şeyler olmasına rağmen, istatistiklerde ve veri madenciliğinde kümeleme yöntemlerini kullanırsınız.
Her birini kısaca tanımlamaya çalışalım:

  • İstatistikler, veri madenciliğinin bazen bir şeyleri sınıflandırmak ve gruplamakla aynı amaç için kullanılabilecek klasik matematiksel yöntemlere dayanan çok eski bir disiplindir.

  • Veri madenciliği, bir miktar gerçek veya faktör verilen durumları sınıflandırmamızı veya tahmin etmemizi sağlayan kalıpları tespit etmek için bina modellerinden oluşur.

  • Yapay zeka (Marvin Minsky'yi kontrol edin *) beynin programlama yöntemleriyle nasıl çalıştığını taklit etmeye çalışan bir disiplindir, örneğin satranç oynayan bir program oluşturmak.

  • Makine öğrenmesi, bilgiyi inşa etme ve bilgisayarda bir biçimde saklama görevidir; Bu form matematiksel modeller, algoritmalar, vb. olabilir. Modelleri tespit etmeye yardımcı olan her şey.


2
Hayır, modern yapay zekanın çoğu bu erken "beyni taklit" yaklaşımını izlemiyor. Faydaları en üst düzeye çıkarmak için bir ortamda hareket eden ve rasyonel öğrenme ile daha yakından ilgili olan rasyonel ajanlar yaratmaya odaklanır. Russell ve Norvig'in kitabına bakınız.
nealmcb

1
ML ve veri madenciliği arasındaki farkı tanımınızda görmüyorum
Martin Thoma

16

En çok makine öğrenmeye aşina oluyorum - veri madenciliği ekseni - bu yüzden konsantre olacağım:

Makine öğrenmesi, standart olmayan durumlarda, örneğin kimliği olmayan verilerde, aktif öğrenmede, yarı denetimli öğrenmede, yapılandırılmış verilerle öğrenmede (örneğin dizeler veya grafiklerde) çıkarımla ilgilenme eğilimindedir. ML aynı zamanda, öğrenilebilenler hakkında teorik sınırlar ile ilgilenme eğilimindedir; bu, sıklıkla kullanılan algoritmaların temelini oluşturur (örneğin, destek vektör makinesi). ML, bir Bayesian doğasına sahip olma eğilimindedir.

Veri madenciliği, henüz bilmediğiniz verilerdeki kalıpları bulmakla ilgilenmektedir. İstatistiki açıklayıcı veri analizinden istatistiksel olarak önemli ölçüde farklı olduğundan emin değilim, oysaki makine öğrenmesinde genellikle daha iyi tanımlanmış bir problem var.

ML, aşırı uydurmanın problem olduğu küçük veri kümeleriyle daha fazla ilgilenme eğilimindedir ve veri madenciliği, sorunun veri miktarlarıyla ilgilendiği büyük ölçekli veri kümeleriyle ilgilenme eğilimindedir.

İstatistik ve makine öğrenmesi, veri madencileri tarafından kullanılan temel araçların çoğunu sağlar.


"ML küçük veri kümeleriyle daha fazla ilgilenme eğilimindedir" ile aynı fikirdeyim.
Martin Thoma

veri madenciliği, küçük veri kümeleriyle, sahte bir ilişki kurma şansını arttırdığından (ve bunu tespit etmedeki zorluğu arttırır) çok daha zor hale gelir. Küçük veri kümeleriyle mümkün olduğunca az seçenek yapan çıkarımlar daha güvenli olma eğilimindedir.
Dikran Marsupial

13

İşte benim almam. İki geniş kategori ile başlayalım:

  • Hatta sadece şey akıllı olmak süsü olan yapay zeka (ML ve DM dahil).
  • veriyi özetleyen herhangi bir şey istatistiktir , ancak genellikle bunu yalnızca sonuçların geçerliliğine dikkat eden yöntemlere uygularsınız (genellikle ML ve DM'de kullanılır).

Hem ML hem de DM genellikle hem AI hem de istatistiklerdir, çünkü genellikle her ikisinden de temel yöntemler içerirler. İşte farklardan bazıları:

  • içinde makine öğrenme , bir var iyi tanımlanmış objektif (genellikle tahmin )
  • içinde veri madenciliği , aslında objektif "var ben bir şeyi değil önce bilmeniz "

Ek olarak, veri madenciliği genellikle çok daha fazla veri yönetimi , yani verilerin verimli indeks yapıları ve veritabanlarında nasıl organize edileceğini içerir .

Ne yazık ki, ayrılması o kadar kolay değil. Örneğin, hedefe yönelik olarak optimize edemediğinden, genellikle DM ile daha yakından ilişkili olan “denetimsiz öğrenme” vardır. Öte yandan, DM yöntemlerini değerlendirmek zordur (bilmediğiniz bir şeyi nasıl değerlendiriyorsunuz?) Ve sıklıkla bazı bilgileri dışarıda bırakarak makine öğrenimi ile aynı görevlerde değerlendirilir . Ancak bu, genellikle gerçek değerlendirme hedefine göre optimize edebilen makine öğrenim yöntemlerinden daha kötü çalışmalarına neden olur.

Ayrıca, genellikle kombinasyonlarda kullanılır. Örneğin, verileri önceden işlemek için bir veri madenciliği yöntemi (kümelenme veya denetlenmeyen dışlayıcı tespiti) kullanılır, ardından daha iyi sınıflandırıcıları eğitmek için önceden işlenmiş verilere makine öğrenme yöntemi uygulanır.

Makine öğrenmesi genellikle değerlendirmenin çok daha kolaydır: puan veya sınıf tahmini gibi bir amaç vardır. Hassasiyeti hesaplayabilir ve geri çağırabilirsiniz. Veri madenciliğinde, çoğu değerlendirme bazı bilgiler (sınıf etiketleri gibi) bırakılarak ve ardından yönteminizin aynı yapıyı bulup bulmadığı test edilerek yapılır. Bu, sınıf etiketlerinin verilerin yapısını tamamen kodladığını varsaydığına göre, anlamsızdır; aslında verilerinde yeni bir şey keşfeden veri madenciliği algoritmasını cezalandırıyorsun. Dolaylı olarak değerlendirmenin bir başka yolu, keşfedilen yapının gerçek ML algoritmasının performansını nasıl geliştirdiğidir (örneğin, verileri bölümlerken veya aykırı değerleri kaldırırken). Yine de, bu değerlendirme, gerçekten veri madenciliği amacı olmayan mevcut sonuçların çoğaltılmasına dayanmaktadır ...


1
Yanıtınız çok anlayışlı. Son paragrafı, ML performansını ve DM performansını değerlendirmedeki farklılıkları özellikle takdir ediyorum.
sadece

8

Söylenenlere bazı gözlemler eklerdim ...

AI, bir görev planlamaktan veya diğer kuruluşlarla işbirliği yapmaktan, uzuvları yürümeyi öğrenmeye kadar değişen, akılcı veya duygusal görünen faaliyetler yapan makinelerle ilgili olan her şey için çok geniş bir terimdir. Özlü bir tanım, AI'nın bilgisayarla ilgili herhangi bir şey olduğu ve henüz nasıl yapılacağını bilmediğimiz bir şey. (Nasıl iyi yapılacağını öğrendikten sonra, genellikle kendi adını alır ve artık "AI" değildir.)

Benim izlenim, Wikipedia'nın aksine, Örüntü Tanıma ve Makine Öğrenimi aynı alandır, ancak ilki bilgisayar bilimci insanlar tarafından uygulanırken, ikincisi istatistikçiler ve mühendisler tarafından uygulanır. (Pek çok teknik alan kendi dilini ve zihniyetini masaya getiren farklı alt gruplar tarafından tekrar tekrar keşfedilir.)

Veri Madenciliği, aklımda zaten Makine Öğrenimi / Örüntü Tanıma'yı (verilerle çalışan teknikler) alır ve bunları veritabanına, altyapıya ve veri doğrulama / temizleme tekniklerine alır.


6
Makine öğrenimi ve örüntü tanıma aynı şey değildir, makine öğrenmesi aynı zamanda regresyon ve nedensel çıkarım vb. Şeylerle de ilgilenmektedir. Örüntü tanıma, makine öğrenmeye ilişkin sorunlardan yalnızca biridir. Bildiğim makine öğrenen kişilerin çoğu bilgisayar bilimleri bölümlerinde.
Dikran Marsupial

2
@Dikran Katılıyorum, ancak ML ve PR genellikle benzer şekilde veri analizi başlıkları altında takma ve sunuluyor. Benim tercih ettiğim kitap gerçekten Christophe M Bishop'dan Örüntü Tanıma ve Makine Öğrenmesi . İşte JSS, John MainDonald tarafından bir inceleme olduğunu j.mp/etg3w1 .
chl

Ayrıca “makine öğrenmesi” kelimesinin CS dünyasında “örüntü tanıma” dan çok daha yaygın olduğunu hissediyorum.
bayerj

Ayrıca burada ML'nin daha çok bir CS terimi olduğunu düşünün.
Karl Morrison

3

Ne yazık ki, bu alanlar arasındaki fark büyük ölçüde öğretildikleri yerdeydi: istatistikler matematik derslerine, ai, bilgisayar bilimleri kurumlarında makine öğrenmeye dayanıyor ve veri madenciliği daha fazla uygulanmaktadır (yazılım şirketleri tarafından geliştirilen iş veya pazarlama birimleri tarafından kullanılır) .

Öncelikle AI (herhangi bir akıllı sistem anlamına gelse de) geleneksel olarak istatistiksel tahminlerden ziyade mantık temelli yaklaşımları (örneğin uzman sistemler) kastetmiştir. Matematik bölümlerine dayanan istatistikler, açık bir bilimsel modelin olduğu deneysel bilimlerde uygulanan güçlü deneyimlerle birlikte çok iyi bir teorik anlayışa sahiptir ve mevcut sınırlı deneysel verilerle başa çıkmak için istatistiklere ihtiyaç vardır. Odak noktası çoğu zaman çok küçük veri kümelerinden maksimum bilgi sıkma üzerine olmuştur. ayrıca matematiksel kanıtlara yönelik bir önyargı var: yaklaşımınızla ilgili bir şey ispat edemediğiniz sürece yayınlanmayacaksınız. Bu, istatistiklerin analizi otomatikleştirmek için bilgisayar kullanımında geciktiği anlamına gelir. Tekrar, programlama bilgisinin eksikliği, istatistikçilerin hesaplama sorunlarının önem kazandığı büyük ölçekli problemler üzerinde çalışmasını engellemiştir (GPU'ları ve hadoop gibi dağıtılmış sistemleri düşünün). Biyoinformatik gibi alanların artık istatistikleri bu yönde daha fazla harekete geçirdiğine inanıyorum. Son olarak, istatistikçilerin daha şüpheci bir grup olduğunu söyleyebilirim: istatistiklerle bilgiyi keşfettiğinizi iddia etmiyorlar, aksine bir bilim adamı bir hipotezle ortaya çıkıyor ve istatistikçinin işi hipotezin verilerle desteklendiğini kontrol etmektir. Makine öğrenimi, maalesef uygun matematiği öğretmeyen, cs bölümlerinde öğretilir: çok değişkenli hesap, olasılık, istatistik ve optimizasyon sıradan değildir, birinin, örneklerden öğrenme gibi belirsiz 'çekici' kavramları vardır ...İstatistiksel öğrenmenin unsurları sayfa 30. Bu, araştırmacılar her zaman algoritmalarının daha iyi kanıtladığı bazı veri setlerini bulabildiklerinden, teorik olarak çok az teorik anlayış ve algoritma patlaması olduğu anlamına gelir. Bu yüzden, ML araştırmacıları bir sonraki büyük şeyi kovalarken, yutturmaca gibi devasa aşamalar var: sinir ağları, derin öğrenme vb. Ne yazık ki, CS departmanlarında çok daha fazla para var (google, Microsoft ve daha pazarlanabilir 'öğrenme ile birlikte düşünün). Daha şüpheci istatistikçiler göz ardı edilir. Son olarak, bir ampirikçi eğri var: temelde algoritmaya yeterince veri atarsanız doğru tahminleri “öğreneceği” nin altında yatan bir inanış var. ML'ye karşı önyargılı olmama rağmen, ML'de istatistikçilerin göz ardı ettiği temel bir içgörü var: bilgisayarların istatistik uygulamalarında devrim yaratabileceği.

İki yol vardır - a) standart testlerin ve modellerin uygulanmasının otomatikleştirilmesi. Örneğin bir model pil çalıştırmak (lineer regresyon, rastgele ormanlar, vb. Farklı girdi kombinasyonları, parametre ayarları vb.). Bu gerçekten olmadı, ancak kaggle yarışındaki rakiplerin kendi otomasyon tekniklerini geliştirdiklerinden şüpheleniyorum. b) büyük istatistiklere standart istatistiksel modeller uygulamak: örneğin google çeviri, öneri sistemleri vb. Temel istatistik modelleri basittir ancak bu yöntemleri milyarlarca veri noktasına uygulamada çok büyük hesaplama sorunları vardır.

Veri madenciliği bu felsefenin doruk noktasıdır ... veriden bilgiyi çıkarmak için otomatik yöntemler geliştirmek. Bununla birlikte, daha pratik bir yaklaşıma sahiptir: temelde davranışsal verilere uygulanır, burada kapsamlı bilimsel teori (pazarlama, sahtekarlık tespiti, spam vb.) Yoktur ve büyük miktarda veri analizini otomatikleştirmektir: şüphesiz istatistikçiler ekibi yeterli zaman verilen daha iyi analizler üretebilir, ancak bilgisayar kullanmak daha uygun maliyetlidir. Ayrıca D. Hand'in açıkladığı gibi, ikincil verilerin analizidir - sağlam bir deneysel tasarımda bilimsel bir soruyu yanıtlamak için açıkça toplanan veriler yerine yine de günlüğe kaydedilen veriler. Veri madenciliği istatistikleri ve daha fazlası, D El

Bu nedenle, geleneksel AI'nın istatistiksel olarak değil mantıktan kaynaklandığını, makine öğreniminin teori olmadan istatistik olduğunu ve istatistiklerin 'bilgisayarsız istatistik' olduğunu ve veri madenciliğinin, minimum kullanıcı müdahalesiyle istatistiksel analiz için otomatik araçların geliştirilmesi olduğunu özetlerdim.


Bu cevap çok karışıktır, bu yüzden takip etmesi zordur ve gereksiz yere uzundur, ancak farklılıkların disiplin gelenekleri ve diğer şeylerden daha çok vurguladığı şeylerle ilgisi olduğuna dikkat çeker.
Tripartio

1

Veri madenciliği, insanlar tarafından karar vermede kullanılabilecek gizli kalıpları veya bilinmeyen bilgileri keşfetmektir.

Makine öğrenmesi, yeni nesneleri sınıflandırmak için bir model öğrenmekle ilgilidir.


Makine sadece sınıflandırma hakkında mı öğreniyor ? Makine öğrenmesi başka amaçlara hizmet etmek için kullanılamaz mı?
gung

@gung Kesinlikle hayır. Takviye öğrenme, IMHO, ML'nin en karakteristik alt alanıdır ve bunun sınıflandırmaya dayandığını, ancak hedeflere ulaşmaya dayandığını söylemiyorum.
nbro

@nbro, bu yorumun ML'yi ne kadar dar tanımladıklarını tekrar gözden geçirmek için OP için bir ipucu olması gerekiyordu.
gung

0

Benim düşünceme göre Yapay Zeka Makine Öğrenimi, Veri Madenciliği, Örüntü Tanıma vb. Alanların “süperseti” olarak düşünülebilir.

  • İstatistik, AI'da kullanılan tüm matematiksel modelleri, teknikleri ve teoremleri içeren bir matematik alanıdır.

  • Makine Öğrenmesi, yukarıda belirtilen İstatistiki Modelleri uygulayan tüm algoritmaları içeren ve verileri, yani kümeleme ve sınıflandırma gibi tahmine dayalı analitiği içeren bir AI alanıdır.

  • Veri Madenciliği, verilerden faydalı ve önemli kalıpları çıkarmak için yukarıdaki teknikleri kullanan (çoğunlukla makine öğrenmesi) bilimdir. Veri Madenciliği, genellikle büyük veri kümelerinden, yani Büyük Veri'den yararlı bilgiler çıkarmakla ilgilidir.


-1

Nasıl: öğretmek için makineleri öğretmek

Verilerdeki anlamlı kalıpları tanır: veri madenciliği

Bilinen kalıplardan gelen sonucu tahmin edin: ML

Ham verileri yeniden eşleştirmek için yeni özellikler bulun: AI

Bu kuş beyninin gerçekten basit tanımlara ihtiyacı var.


-1

Genellikle veri madenciliği gelecekteki bazı verileri “tahmin etmeye” veya bir şeyin neden olduğunu “açıklamaya” çalışır.

İstatistikler gözlerimdeki hipotezi doğrulamak için daha fazla kullanılıyor. Ancak bu öznel bir tartışma.

İstatistikçiler ve veri madencileri arasındaki bariz bir fark, baktıkları özet istatistik türünde bulunabilir.

Veri madencileri AUC, ROC eğrileri, asansör eğrileri vb. İle ilgilenirken, istatistikler genellikle kendilerini R² ve doğrulukla sınırlandırır ve ayrıca maliyete dayalı bir doğruluk eğrisi kullanarak da endişe duyabilirler.

Veri madenciliği paketleri (örneğin, açık kaynak Weka), girdi seçimi, vektör makineleri sınıflandırmasını destekleme vb. İçin teknikler geliştirmiş, bunlar çoğunlukla JMP gibi istatistiksel paketlerde bulunmuyor. Son zamanlarda, jmp insanlarından "jmp'de veri madenciliği" konusunda bir kursa ne zaman ve görsel olarak güçlü bir paket olmasına rağmen, bazı temel veri madenciliği öncesi / sonrası / orta teknikleri eksik. Girdi seçimi, verilerde, hala veri madenciliğinde iç görülebilmesi için, akıllıca, büyük veriler üzerinde algoritmalar yayınlama ve otomatik olarak neyin ortaya çıktığını görme niyetinizdir. Tabii ki, ikisi arasındaki farklı zihniyeti vurgulayan istatistikler insanlar tarafından açık bir şekilde öğretildi.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.