Veri Bilimi Veri Madenciliği ile Aynı mı?


22

Bu forumda tartışılacak olan veri biliminin birkaç eş anlamlı ya da en azından büyük verilerin analiz edildiği ilgili alanlara sahip olduğundan eminim.

Benim özel sorum Veri Madenciliği ile ilgili. Birkaç yıl önce Data Mining'de yüksek lisans dersi aldım. Veri Bilimi ve Veri Madenciliği arasındaki farklar nelerdir ve özellikle Veri Madenciliği konusunda uzman olmak için neye daha fazla bakmam gerekir?


Sorunuzun ikinci kısmına gelince, metada bir tartışma önerdim : meta.datascience.stackexchange.com/questions/5/… Bu konu nasıl ele alınırsa , yeterlilik endişenizin cevap verilip verilmediğini veya kapsam dahilinde olup olmadığını şekillendirebilir.
Clayton

Yanıtlar:


25

@statsRus , başka bir soruya cevabınız için zemin hazırlamaya başlar. /datascience/1/what-characterises-the-difference-between-data-science-and-statistics :

  • Veri toplama : web kazıma ve çevrimiçi anketler
  • Veri manipülasyonu : dağınık verileri yeniden kodlamak ve dilsel ve sosyal ağ verilerinden anlam çıkarmak
  • Veri ölçeği : son derece büyük veri kümeleriyle çalışma
  • Veri madenciliği : algoritmik tekniklere vurgu yaparak geniş, karmaşık veri setlerinde kalıp bulma
  • Veri iletişimi : "makinede okunabilir" verilerin görselleştirmeyle "okunabilir" bilgilere dönüştürülmesine yardımcı olunması

Tanım

, veri bilimcisinin araç setinde bir madde (veya bir dizi beceri ve uygulama) olarak görülebilir. Madencilik tanımını bir çeşit ticarete özgü jargonda koleksiyondan ayırma şeklini seviyorum.

Ancak, veri madenciliğinin ABD-İngilizce konuşma tanımında veri toplama ile eş anlamlı olacağını düşünüyorum .

Yetkin olmak için nereye gideceksin? Bu sorunun şu anda belirtildiği gibi çok geniş olduğunu ve öncelikle görüşe dayalı cevaplar alacağını düşünüyorum. Belki sorunuzu daraltabilirseniz, ne sorduğunuzu görmek daha kolay olabilir.


11

@Clayton'ın yayınladığı şey bana, bu şartlara ve “veri madenciliği” için veri bilimcisinin bir aracı olması gibi görünüyor. Ancak, “veri toplama” terimini gerçekten kullanmadım ve “veri madenciliği” ile eşanlamlı olarak beni etkilemiyor.

Sorunuza kendi cevabım: Hayır , şartlar aynı değil. Tanımlar bu alanda gevşek olabilir, ancak bu terimlerin birbirlerinin yerine kullanıldığını görmedim. İşimde bazen hedefleri veya metodolojileri ayırt etmek için kullanıyoruz. Bizim için, bir hipotezi sınamakla ilgilidir ve genellikle veriler yalnızca bu amaç için toplanmıştır. , var olan verileri taramak, yapı aramak ve belki de hipotez üretmek ile ilgilidir. Veri madenciliği bir hipotez ile başlayabilir, ancak genellikle çok zayıf veya geneldir ve güvenle çözülmesi zor olabilir. (Yeterince uzun kazın ve pirit olduğu ortaya çıksa da, bir şeyler bulacaksınız .)

Ancak, “veri madenciliği” ni dahil etmek için “veri bilimini” daha geniş bir terim olarak kullandık. Aynı zamanda, bizim için verilere ve diğer bilgi ve hedeflere dayanarak, bir ilgi sistemi için bir model bulma ile ilgili olan “veri modelleme” hakkında da konuşuyoruz. Bazen bu, gerçek sistemi açıklayan matematiği bulmaya çalışmak anlamına gelir ve bazen bir amaç için yeterince iyi bir yordayıcı model bulmak anlamına gelir.


8

Cevabım hayır olurdu. Veri madenciliğinin Veri bilimindeki çeşitli alanlardan biri olduğunu düşünüyorum. Veri Madenciliği, çoğunlukla soruları cevaplamaktan ziyade, soruları cevaplarken ele alınmaktadır. Veri bilimcisinin sonuçlarına ulaşmak için karmaşık problemleri çözmeye çalıştığı Veri bilimine kıyasla genellikle "yeni bir şey tespit" olarak adlandırılır. Ancak, her iki terimin de aralarında birçok ortaklıkları vardır. Mesela ... etkilenen bitkileri bulmayı amaçlayan bir tarım alanınız varsa ... Mekansal veri madenciliği bu işin yapılmasında kilit bir rol oynar. Arazide değil, etkilenme dereceleri de ....... bu veri bilimiyle mümkün olmayan bir şey.


Cevabınız çok hoş ve hoş da olabilir, eğer veri madenciliği konusundaki noktanızın çözülüp sonuçlara ulaşılmasından ziyade yeni bir şey tespit etmeyle ilgili olduğunu vurgulamak için küçük bir örnek eklerseniz, bunun nedeni de bu olacaktır .
Rubens

6

Veri madenciliği ve veri bilimi arasında birçok çakışma var. Veri madenciliği rolüne sahip kişilerin veri toplama ve filtrelenmemiş, örgütlenmemiş ve çoğunlukla ham / vahşi veri kümelerinden özelliklerin çıkarılması ile ilgili olduğunu söyleyebilirim. Bazı çok önemli verilerin çıkarılması zor olabilir, uygulama konularına değil, yabancı eserlere sahip olabileceğinden.

Örneğin. 70'li yıllardaki yazılı vergi beyannamelerinden finansal verilere bakacak birine ihtiyacım olursa, taranan ve insanların araba sigortasında daha fazla tasarruf edip etmediklerini öğrenmek için makineyi okudum; bir veri madencisi elde edilecek kişi olacaktır.

Nike’ın Twitter profilini Brezilya’nın tweet’lerindeki etkisini incelemeli ve profildeki önemli olumlu özellikleri tanımlayacak birine ihtiyacım olsaydı, bir veri bilimcisi arardım.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.