İstatistiksel test verilerden çıkarım yapmak içindir, işlerin nasıl ilişkili olduğunu size söyler. Sonuç, gerçek dünya anlamında bir şeydir. Örneğin, sigara kullanımı hem yön hem de büyüklük bakımından akciğer kanseri ile nasıl ilişkilidir. Size hala olayların neden olduğunu anlatmıyor. İşlerin neden olduğunu cevaplamak için, diğer değişkenlerle olan ilişkiyi de göz önünde bulundurmalı ve uygun düzenlemeleri yapmalıyız (bkz. Pearl, J. (2003).
Denetimli öğrenme , öngörülerde bulunmak içindir, size ne olacağını söyler. Örn, bir kimsenin sigara içme durumu göz önüne alındığında, akciğer kanseri olup olmayacağını tahmin edebiliriz. Basit durumlarda, örneğin “algoritma” ile tanımlanan sigara içme durumunun kesilmesine bakarak size “nasıl” olduğunu söyler. Ancak daha karmaşık modellerin yorumlanması zor veya imkansızdır (birçok özelliği olan derin öğrenme / güçlendirme).
Denetimsiz öğrenme genellikle yukarıdaki ikisini kolaylaştırmakta kullanılır.
- İstatistiksel testler için, verinin altında yatan bazı bilinmeyen alt grupları keşfederek (kümeleme), değişkenler arasındaki ilişkilerde heterojenliği ortaya çıkarabiliriz. Örneğin sigara içmek, alt grup A için akciğer kanseri olma olasılığını arttırır, ancak alt grup B'yi arttırmaz.
- Denetimli öğrenme için, tahmin doğruluğunu ve sağlamlığını iyileştirmek için yeni özellikler oluşturabiliriz. Örneğin, alt grupların (kümelenme) veya akciğer kanserine sahip olma ihtimali ile ilişkili özelliklerin birleşiminin (boyut küçültme) belirlenmesiyle.
Özelliklerin / değişkenlerin sayısı arttıkça, istatistiksel test ve denetimli öğrenme arasındaki fark daha önemli hale gelir. İstatistiksel test bundan kesinlikle faydalanmayabilir, örneğin, diğer faktörleri kontrol ederek veya yukarıda belirtilen ilişkilerde heterojenliği tanımlayarak nedensel çıkarım yapmak isteyip istemediğinize bağlıdır. Denetimli öğrenme, eğer özelliklerin uygun olması durumunda daha iyi bir performans gösterecek ve bir kara kutu gibi görünecektir.
Örnek sayısı büyüdüğünde, istatistiksel testler için daha kesin sonuçlar, denetimli öğrenme için daha kesin sonuçlar ve denetimsiz öğrenme için daha sağlam sonuçlar elde edebiliriz. Ancak bu, verilerin kalitesine bağlıdır. Kötü kaliteli veriler sonuçlara önyargı veya gürültü getirebilir.
Bazen, müdahalenin nasıl yapıldığını “neden” ve “neden” olarak bilmek istiyoruz, örneğin sigara içmenin akciğer kanserine neden olduğunu belirleyerek, bununla ilgili politika yapılabilir. Bazen karar vermeyi bildirmek için “ne” olduğunu bilmek istiyoruz, örneğin, kimin akciğer kanseri olması muhtemel olduğunu bulmak ve onlara erken tedavileri vermek. Bilimde tahmin ve sınırları hakkında yayınlanan özel bir konu var ( http://science.sciencemag.org/content/355/6324/468). “Terabayt veriyi işlemek için algoritmik kapasiteye sahip insan bağlamı anlayışını birleştiren multidisipliner çabalarla sorular ele alındığında başarı en tutarlı şekilde görünüyor.” Örneğin, hipotez testi kullanılarak keşfedilen bilgiler bizi bilgilendirerek denetimli öğrenmeye yardımcı olabilir. ilk başta hangi veri / özellikleri toplamalıyız. Öte yandan, denetlenen öğrenme, hangi değişkenleri bildirerek hipotezler oluşturulmasına yardımcı olabilir.