Drew Conway , yürekten katıldığım Veri Bilimi Venn Şemasını yayınladı :
Bir yandan yazılarını gerçekten okumalısınız. Öte yandan, kendi deneyimimi sunabilirim: konu uzmanlığım ("Temel Uzmanlık" ifadesinden daha iyi bir terim olarak hoşlandığım, çünkü matematik / istatistik ve bilgisayar korsanlığında gerçekten de "Önemli Uzmanlık" olmalıdır) perakende işi, matematik / istatistiklerim tahmin ve çıkarımsal istatistikler ve bilgisayar korsanlığı becerilerim R'de.
Bu bakış açısından, perakendecilerle konuşabilir ve anlayabilirim ve bu alan hakkında en az bir bilgiye sahip olmayan biri , perakendecilerle bir projede dik bir öğrenme eğrisiyle karşılaşmak zorunda kalacak . Bir yan konser olarak, psikolojide istatistik yapıyorum ve orada da aynı. Şemanın hack / matematik / istatistik bölümü hakkında oldukça bilgi sahibi olsa bile, örneğin kredi puanlama veya başka bir yeni konu alanında hızlanmakta zorlanıyorum.
Eğer matematik / istatistikler ve hack becerilerin belli bir tutar belirledikten sonra, öyle çok ekleyerek daha bir veya daha fazla konuda bir topraklama elde etmek daha iyi henüz sizin hack becerilerine başka bir programlama dili ya da henüzmatematik / istatistik portföyünüz için başka bir makine öğrenme algoritması. Sonuçta, sağlam bir matematik / istatistik / bilgisayar korsanlığı topraklamanız olduğunda, bu tür yeni araçları web'den veya kısa bir süre içinde ders kitaplarından öğrenmeniz gerekiyorsa. Ancak konu uzmanlığı, sıfırdan başlarsanız sıfırdan öğrenemezsiniz. Müşteriler, B'yi matematik / istatistik / bilgisayar korsanlığında daha iyi olsa bile, ilk olarak temelleri öğrenmesi gereken başka bir veri bilimcisi B'den daha çok kendi alanlarını anlayan bazı veri bilimcisi A ile çalışmayı tercih ederler.
Tabii ki, tüm bunlar aynı zamanda üç alanda da asla uzman olmayacağınız anlamına gelecektir . Ama bu iyi, çünkü siz bir veri bilimcisisiniz, programcı veya istatistikçi veya konu uzmanı değilsiniz. Üç ayrı çevrede her zaman öğrenebileceğiniz insanlar olacaktır. Hangi veri bilimi hakkında sevdiğim bir parçasıdır.
EDIT: Biraz süre ve birkaç düşünce sonra, bu yazı diyagramın yeni bir sürümü ile güncellemek istiyorum. Hala Hacking Skills, Math & Statistics Bilgi ve Önemli Uzmanlık ("Programlama", "İstatistik" ve "İşletme" okunaklılık için kısaltılmış) önemli olduğunu düşünüyorum ... ama Iletişim rolünün de önemli olduğunu düşünüyorum . Bilgisayar korsanlığınızdan, istatistiklerinizden ve iş uzmanlığınızdan yararlanarak elde ettiğiniz tüm bilgiler , bu benzersiz bilgi karışımına sahip olmayan kullanıcılarla iletişim kuramazsanız biraz fark yaratmaz . İstatistiksel görüşlerinizi para harcamaya veya süreçleri değiştirmeye ikna olması gereken bir işletme yöneticisine açıklamanız gerekebilir. Veya istatistiksel olarak düşünmeyen bir programcıya.
İşte burada vazgeçilmez bir bileşen olarak iletişimi de içeren yeni veri bilimi Venn diyagramı. Alanları kolay hatırlanırken maksimum alev almayı garanti edecek şekilde etiketledim.
Yorum yaz.
R kodu:
draw.ellipse <- function(center,angle,semimajor,semiminor,radius,h,s,v,...) {
shape <- rbind(c(cos(angle),-sin(angle)),c(sin(angle),cos(angle))) %*% diag(c(semimajor,semiminor))
tt <- seq(0,2*pi,length.out=1000)
foo <- matrix(center,nrow=2,ncol=length(tt),byrow=FALSE) + shape%*%(radius*rbind(cos(tt),sin(tt)))
polygon(foo[1,],foo[2,],col=hsv(h,s,v,alpha=0.5),border="black",...)
}
name <- function(x,y,label,cex=1.2,...) text(x,y,label,cex=cex,...)
png("Venn.png",width=600,height=600)
opar <- par(mai=c(0,0,0,0),lwd=3,font=2)
plot(c(0,100),c(0,90),type="n",bty="n",xaxt="n",yaxt="n",xlab="",ylab="")
draw.ellipse(center=c(30,30),angle=0.75*pi,semimajor=2,semiminor=1,radius=20,h=60/360,s=.068,v=.976)
draw.ellipse(center=c(70,30),angle=0.25*pi,semimajor=2,semiminor=1,radius=20,h=83/360,s=.482,v=.894)
draw.ellipse(center=c(48,40),angle=0.7*pi,semimajor=2,semiminor=1,radius=20,h=174/360,s=.397,v=.8)
draw.ellipse(center=c(52,40),angle=0.3*pi,semimajor=2,semiminor=1,radius=20,h=200/360,s=.774,v=.745)
name(50,90,"The Data Scientist Venn Diagram",pos=1,cex=2)
name(8,62,"Communi-\ncation",cex=1.5,pos=3)
name(30,78,"Statistics",cex=1.5)
name(70,78,"Programming",cex=1.5)
name(92,62,"Business",cex=1.5,pos=3)
name(10,45,"Hot\nAir")
name(90,45,"The\nAccountant")
name(33,65,"The\nData\nNerd")
name(67,65,"The\nHacker")
name(27,50,"The\nStats\nProf")
name(73,50,"The\nIT\nGuy")
name(50,55,"R\nCore\nTeam")
name(38,38,"The\nGood\nConsultant")
name(62,38,"Drew\nConway's\nData\nScientist")
name(50,24,"The\nperfect\nData\nScientist!")
name(31,18,"Comp\nSci\nProf")
name(69,18,"The\nNumber\nCruncher")
name(42,11,"Head\nof IT")
name(58,11,"Ana-\nlyst")
name(50,5,"The\nSalesperson")
par(opar)
dev.off()