Veri madenciliği ve istatistiksel analiz arasındaki fark nedir?


19

Veri madenciliği ve istatistiksel analiz arasındaki fark nedir?

Bazı geçmişler için, istatistiksel eğitimim bence oldukça gelenekseldi. Belirli bir soru yöneltilir, araştırma tasarlanır ve bu soru hakkında bir fikir vermek için veriler toplanır ve analiz edilir. Sonuç olarak, her zaman "veri tarama" olarak nitelendirdiğim şeyden kuşkuluyordum, yani büyük bir veri kümesindeki kalıpları aramak ve sonuç çıkarmak için bu kalıpları kullanmak. İkincisini veri madenciliği ile ilişkilendirme eğilimindeyim ve bunu her zaman biraz prensipsiz (algoritmik değişken seçim rutinleri gibi şeylerle birlikte) düşündüm.

Bununla birlikte, veri madenciliği konusunda geniş ve büyüyen bir literatür vardır. Çoğu zaman, bu etiketi kümeleme, ağaç temelli sınıflandırma vb. soru. Eski veri madenciliği ve ikincisine istatistiksel analiz diyorum.

Akademik yönetimde çalışıyorum ve sorunları ve fırsatları tanımlamak için bazı "veri madenciliği" yapmam istendi. Geçmişime uygun olarak, ilk sorularım şuydu: ne öğrenmek istiyorsun ve soruna katkıda bulunduğunu düşündüğün şeyler neler? Yanıtlarından, ben ve soruyu soran kişinin veri madenciliğinin doğası ve değeri hakkında farklı fikirlere sahip oldukları açıktı.



3
Yineleniyorsa, veri madenciliği ve makine öğreniminin aynı şey olduğunu tahmin edebilirim!
George Dontas

@George Dontas Evet, burada yorumdaki bir linkten ML ile veri madenciliği arasında bir fark olduğunu umuyordum.
DJG

Yanıtlar:


20

Jerome Friedman bir süre önce bir makale yazdı: Veri Madenciliği ve İstatistik: Bağlantı Nedir? ilginç olduğunu düşünüyorum.

Veri madenciliği büyük ölçüde ticari bir kaygıydı ve iş ihtiyaçları tarafından yönlendirildi (satıcıların işletmelere yazılım ve donanım sistemleri satma "ihtiyacı" ile birlikte). Friedman'ın belirttiği bir şey, sinirlenen tüm "özelliklerin", sinir ağları gibi algoritmalardan ve yöntemlerden GUI güdümlü veri analizine kadar - istatistiklerin dışında ortaya çıkmasıydı ve geleneksel istatistiksel tekliflerin hiçbiri bu sistemlerin hiçbirinin bir parçası gibi görünmüyordu. (regresyon, hipotez testi vb.). "Temel metodolojimiz büyük ölçüde göz ardı edildi." Ayrıca not ettiğiniz satırlar boyunca kullanıcı odaklı olarak satıldı: İşte verilerim, işte benim "iş sorum", bana bir cevap verin.

Sanırım Friedman provoke etmeye çalışıyordu. Veri madenciliğinin metodolojinin söz konusu olduğu yerlerde ciddi entelektüel temelleri olduğunu düşünmüyordu, ancak bunun değişeceğini ve istatistikçilerin onu görmezden gelmek yerine bir rol oynaması gerektiğini düşünüyor.

Benim izlenimim, bunun az çok gerçekleştiğidir. Çizgiler bulanıklaştı. İstatistikçiler artık veri madenciliği dergilerinde yayın yapıyor. Bugünlerde veri madencileri bir çeşit istatistiksel eğitime sahip gibi görünüyor. Veri madenciliği paketleri hala genelleştirilmiş doğrusal modelleri aldatmasa da, analist regresyonlar kümelenme ve sinir ağlarına ek olarak iyi bilinmektedir. Optimum deneysel tasarım, veri madenciliği çekirdeğinin bir parçası olmayabilir, ancak yazılım p değerlerini vermek için eş eksenli olabilir. İlerleme!


1
Bu harika bir makale ve veri madenciliğinin ne olduğuna ve istatistiklerden nasıl farklı olduğuna dair bakış açımla tutarlı. Yakalama, 1997'den beri! Makalenin iddianamesine veya tavsiyenize, ancak veri madenciliğine ne kadar devam ettiğime dikkat edin. Veri madenciliği hakkında güncel bir kitap yakalamam gerekiyor gibi görünüyor.
Brett

Heh, tarihi bilerek sakladım çünkü zaman aralığını fark etmenin eğlenceli olacağını düşündüm. :) Michael Berry ve Gordon Linoff'un kitapları oldukça iyi ve istatistikçilere hitap edecek (istatistiksel teknikleri öğrenmek yerine daha geniş pozlama için). Bu alanın bulanık, "kurumsal" tarafını görmek istiyorsanız, SAS'ın Enterprise Miner veya SPSS Clementine gibi bir satıcı ürünündeki kitaplardan birini gözden geçirmeniz yardımcı olabilir. Ürünün kendisi ile çalışmayacaksanız onları satın almanızı tavsiye etmem.
ars

10

İstatistikler ve veri madenciliği arasındaki fark, farklı geleneklerden geldikleri için büyük ölçüde tarihsel bir şeydir: istatistik ve bilgisayar bilimi. Veri madenciliği, yapay zeka ve istatistikler alanındaki işlerin dışında paralel olarak büyüdü.

Witten & Frank'ın Bölüm 1.4'ü bakış açımı özetliyor, bu yüzden uzun süre alıntı yapacağım:

Makine öğrenimi ve istatistik arasındaki fark nedir? Cynics, bu alanda ticari ilgi (ve hype) patlama alaycı bir şekilde bakarak, veri madenciliği istatistik artı pazarlama eşittir. Gerçekte, makine öğrenimi ve istatistik arasında bir ayrım çizgisi aramamalısınız, çünkü veri analizi tekniklerinde bir süreklilik ve çok boyutlu bir çizgi vardır. Bazıları standart istatistik derslerinde öğretilen becerilerden kaynaklanırken, diğerleri bilgisayar bilimlerinden kaynaklanan makine öğrenimi ile daha yakından ilişkilidir. Tarihsel olarak, iki tarafın oldukça farklı gelenekleri vardı. Tek bir vurgu farkına işaret etmek zorunda kalırsanız, istatistiklerin hipotezleri test etmekle daha fazla ilgilendiği,

Geçmişte, makine öğrenimi ve istatistiklerinde çok benzer yöntemler gelişti ...

Fakat şimdi iki perspektif birbirine yaklaştı.

NB1 IMO, veri madenciliği ve makine öğrenimi çok yakından alakalı terimlerdir. Bir anlamda, veri madenciliğinde makine öğrenme teknikleri kullanılmaktadır. Bu terimleri düzenli olarak değiştirilebilir olarak görüyorum ve farklı oldukları sürece genellikle birlikte gidiyorlar. "İki Kültür" belgesinin yanı sıra orijinal sorumdaki diğer konuları incelemenizi öneririm .

NB2 "Veri madenciliği" terimi, herhangi bir kavramsal anlama gerekmeksizin bazı algoritmaların veriler üzerinde kaybolmasına izin vermek için konuşma dilinde kullanıldığında olumsuz bir çağrışım içerebilir. Bunun anlamı, veri madenciliğinin sahte sonuçlara ve aşırı uyuma yol açacağıdır. Sonuç olarak uzman olmayan kişilerle konuşurken genellikle terimi kullanmaktan kaçınır ve bunun yerine makine öğrenimini veya istatistiksel öğrenmeyi eş anlamlı olarak kullanırım.


NB2 Hakkında - Bence veri madenciliği çağrışımıyla ilgili haklısınız ve makine öğrenimi ile bağlantı kurmamıştım. Eğitimim her zaman aşırı uydurma, sahte olma ve şanstan yararlanma sorunlarını vurguladı ve bu yüzden DM konusunda şüpheci oldum - ve belki de biri bana gerçekten ne yaptığını ve NASIL olduğunu söyleyene kadar hala yaşıyorum. Teşekkürler.
Brett

1
ML / DM ayrımıyla ilgili tek sorunum, DM'nin daha geniş olduğunu düşünüyorum. Örneğin, OLAP ve ilgili araçlar madencilik teknolojilerini içerir. Ancak bunlar, makine öğrenimi yerine bilgisayar biliminin veritabanı tarafından gelmektedir. Veri madenciliğinin "anlamını" şekillendirmede ticaretin rolünü göz ardı etmek zordur - gerektiğinde yönetim bilimleri, yöneylem araştırması, makine öğrenimi ve istatistik unsurlarını getirir. Ayrıca çürük bir şey izlenimi verir, ancak bu genellikle uygulayıcılar değil püristler için bir sorundur.
ars

@ars: Katılıyorum. Biraz "veri madenciliğinde makine öğrenme teknikleri kullanılır" diyerek söylemeye çalışıyordum (yani veri madenciliği bir süper set). Ticari uygulamalar hakkındaki görüşünüz de dikkat çekicidir. Her gün ticari bir uygulamada olan biri, çalışmalarına başka bir şey (örneğin "veri bilimi") diyebilir.
Shane

Doğru, yazdıklarınızla tartışmak yerine, farklılıkları ortadan kaldırmaya çalıştığımı söylemeliydim. Yanlış yönlendirme için özür dileriz. Değişen zaman ve terimlerin "veri bilimi" nin benimsenmesi gibi iyi bir nokta. Gelman'ın kitaplarından biri "istatistik veri bilimidir" gibi bir şeyle başlamıyor mu? Yani istatistikçilerden "onlar" çalıyorlar. Tekrar. :)
ars

8

Veri madenciliği, Açıklayıcı veya Öngörülü olarak kategorize edilir. Açıklayıcı veri madenciliği, büyük veri kümelerini araştırmak ve verilerdeki beklenmedik yapıların veya ilişkilerin, örüntülerin, eğilimlerin, kümelerin ve aykırı değerlerin yerlerini bulmaktır. Öte yandan, Öngörücü, regresyon, sınıflandırma, örüntü tanıma veya makine öğrenimi görevleri için modeller ve prosedürler oluşturmak ve yeni verilere uygulandığında bu modellerin ve prosedürlerin tahmini doğruluğunu değerlendirmektir.

Yüksek boyutlu verilerde desen veya yapı aramak için kullanılan mekanizma manuel veya otomatik olabilir; arama, bir veritabanı yönetim sisteminin etkileşimli olarak sorgulanmasını gerektirebilir veya verilerdeki anormallikleri tespit etmek için görselleştirme yazılımı kullanılmasını gerektirebilir. Makine öğrenimi terimleriyle, tanımlayıcı veri madenciliği gözetimsiz öğrenme, tahmini veri madenciliği ise denetimli öğrenme olarak bilinir.

Veri madenciliğinde kullanılan yöntemlerin çoğu istatistik ve makine öğreniminde geliştirilen yöntemlerle ilgilidir. Bu yöntemlerin başında regresyon, sınıflandırma, kümeleme ve görselleştirme genel konuları gelmektedir. Veri setlerinin muazzam boyutları nedeniyle, veri madenciliğinin birçok uygulaması boyutsallık azaltma tekniklerine (örneğin, değişken seçimi) ve yüksek boyutlu verilerin daha düşük boyutlu hiper düzlemlerde yattığından şüphelenildiği durumlara odaklanmaktadır. Son zamanlardaki dikkat, doğrusal olmayan yüzeyler veya manifoldlar üzerinde bulunan yüksek boyutlu verileri tanımlama yöntemlerine yöneliktir.

İstatistiksel çıkarımın - klasik anlamda - ya hiçbir anlamı olmadığı veya şüpheli geçerliliği olduğu durumlarda veri madenciliğinde de durumlar vardır: birincisi, cevapları aramak için tüm popülasyona sahip olduğumuzda ve ikincisi bir veri kümesi bir Bazı büyük popülasyonlardan elde edilen rastgele bir örnek olmaktan ziyade “kolaylık” örneği. Veriler zaman içinde toplandığında (örn. Perakende işlemler, borsa işlemleri, hasta kayıtları, hava kayıtları) örnekleme de mantıklı olmayabilir; Gözlemlerin zaman sıralaması, veri üreten fenomeni anlamak için çok önemlidir ve gözlemlerin birbirleriyle yüksek düzeyde ilişkilendirilebilecekleri zaman bağımsız olarak ele alınması önyargılı sonuçlar sağlayacaktır.

Veri madenciliğinin temel bileşenleri - istatistiksel teori ve yöntemlere ek olarak - hesaplama ve hesaplama verimliliği, otomatik veri işleme, dinamik ve etkileşimli veri görselleştirme teknikleri ve algoritma geliştirmedir.

Veri madenciliğinde en önemli konulardan biri, ölçeklenebilirliğin hesaplama problemidir . Standart keşif ve doğrulayıcı istatistiksel yöntemlerin hesaplanması için geliştirilen algoritmalar, küçük ve orta ölçekli veri kümelerine uygulandığında hızlı ve hesaplama açısından verimli olacak şekilde tasarlanmıştır; yine de, bu algoritmaların çoğunun çok büyük veri setlerini ele alma zorluğuna gelmediği gösterilmiştir. Veri setleri büyüdükçe, mevcut algoritmaların çoğu dramatik bir şekilde yavaşlama eğilimi gösterir (hatta durma noktasına gelir).


8

Veri madenciliği, bazı küçük farklılıklarla birlikte istatistiklerdir. İstatistikleri yeniden markalama istatistikleri olarak düşünebilirsiniz, çünkü istatistikçiler biraz garip.

Genellikle hesaplama istatistikleriyle ilişkilendirilir, yani yalnızca bir bilgisayarla yapabileceğiniz şeyler.

Veri madencileri çok değişkenli istatistiklerin önemli bir bölümünü çaldılar ve buna kendi isimleri diyorlardı. 1990'lardaki çok değişkenli kitabın içindekileri kontrol edin ve yeni bir veri madenciliği kitabıyla karşılaştırın. Çok benzer.

İstatistikler test hipotezleri ve model oluşturma ile ilişkiliyken, veri madenciliği anlaşılabilir bir model olup olmadığına bakılmaksızın tahmin ve sınıflandırma ile daha fazla ilişkilidir.


1
Yinelenen nedir? Açık bir şey göremiyorum.
Rob Hyndman

1
Buna oldukça benzer düşündüm: stats.stackexchange.com/questions/6/…
Neil McGuigan

1
tamam. Makine öğrenimi değil, veri madenciliği arıyordum. Bir kopya olduğunu düşünüyorsanız lütfen kapatmak için oy verin.
Rob Hyndman

Hmm, yani Veri Madenciliği == Makine Öğrenimi?
ars

1
1) Comp stat ayrımını görmüyorum. Bilgisayar gerektirmeyen istatistikçilerin yapacağı pek bir şey yok. Sanırım yinelemeli çözümler gibi hesaplama açısından yoğun prosedürler mi demek istiyorsunuz? Ancak bunlar, veri madenciliği olmayan modern istatistiksel çalışmalarda da yaygındır. 2) Kendi (istatistik) çalışmalarımda, soruna bağlı olarak açıklama ve tahmin için model oluşturma ile ilgilenmiştim-veri madenciliğini düşünmezdim. 3) Modern DM'nin istatistiğin özel bir uygulaması olduğu sonucuna varıyorum, bence iyi bir sonuç.
Brett

6

Daha önce veri madenciliğini psikolojiyle karşılaştıran birkaç gözlem yaptığım bir yazı yazmıştım. Bu gözlemlerin belirlediğiniz bazı farkları yakalayabileceğini düşünüyorum:

  1. "Veri madenciliği, gizli değişkenlerin nedensel sistemini anlamaktan ziyade, gözlemlenen değişkenleri kullanan tahminlerle daha fazla ilgilidir; psikoloji genellikle gizli değişkenlerin nedensel sistemiyle daha ilgilidir.
  2. Veri madenciliği genellikle veri madenciliği amacı dışında toplanan büyük veri kümelerini (örn. 10.000 + satır) içerir. Psikolojik veri kümeleri genellikle küçüktür (örneğin, 1.000 veya 100 satırdan az) ve bir araştırma sorusunu araştırmak için açıkça toplanır.
  3. Psikolojik analiz tipik olarak belirli modellerin test edilmesini içerir. Otomatik model geliştirme yaklaşımları teorik olarak ilginç olma eğilimindedir. "- Veri Madenciliği ve R

Bence 2. ve 3. noktalar faydalı yorumlardır ve iki SA ve DM arasındaki ayrım olarak gördüğümle tutarlıdır. İlk noktandan pek emin değilim. Nedensel ilişkiler hakkındaki anlayışı geliştirmek istediğim istatistiksel çalışmalar yaptım. Bununla birlikte, görevin bilinen ilişkileri almak ve sadece tahmin amacıyla modeller geliştirmek, ancak "veri madenciliği" nin diğer özelliklerinin paylaşılmadığı istatistiksel çalışmalar da yaptım.
Brett

4

Yaptığınız ayrımın gerçekten veri madenciliği ve istatistiksel analiz arasındaki farkla ilgili olduğunu düşünmüyorum. Keşif analizi ile modelleme-tahmin yaklaşımı arasındaki farktan bahsediyorsunuz.

Bence istatistik geleneği tüm adımlarla inşa ediliyor: keşif analizi, sonra modelleme, sonra tahmin, sonra test, sonra tahmin / çıkarım. İstatistikçi verinin neye benzediğini anlamak için keşif analizi yapar (R altında fonksiyon özeti) Sanırım veri madenciliği daha az yapılandırılmıştır ve keşif analizi ile tanımlanabilir. Ancak tahmin, tahmin, sınıflandırma istatistiklerinden teknikleri kullanır ....


Bunu satın alabilirim. Veri madenciliği istatistiksel tekniklerin daha açıklayıcı bir uygulamasıdır. Yine de, ayrımın yeterli olduğunu düşünmüyorum. Tasarlanmış bir deneyden 100 gözlem kümemde EDA yaparken, kimsenin bu veri madenciliği diyeceğini sanmıyorum, değil mi?
Brett
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.