Yanıtlar:
Bu terimle daha önce hiç karşılaşmadım. Her iki istatistik alanında da ışık ya da karanlık yayıp yaymayacağından emin değilim: makine öğrenimi olanlar (denetimli ve denetimsiz ayrımların problem çözme için merkezi olduğu yerlerde) ve çıkarımsal istatistikler (regresyon, doğrulayıcı analiz ve NHST'lerin en sık kullanıldığı yerler).
Bu iki felsefenin örtüştüğü yerde, regresyon ve ilgili terminolojinin büyük bir kısmı sıkı denetimli bir ortamda atılır. Bununla birlikte, denetimsiz öğrenmedeki mevcut birçok kavramın, özellikle her bir sınıf veya özelliği saf bir şekilde bir sonuç olarak yinelediğinizde ve sonuçları bir araya getirdiğinizde, regresyon temelli yaklaşımlarla yakından ilişkili olduğunu düşünüyorum. Bunun bir örneği PCA ve iki değişkenli korelasyon analizidir. En iyi altküme regresyonunu bir dizi değişken üzerinde yinelemeli olarak uygulayarak, yapısal denklem modellemesinde (kesinlikle EFA anlamında) varsayıldığı gibi çok karmaşık bir ağ tahmini yapabilirsiniz. Bana göre bu, regresyonda denetimsiz bir öğrenme problemi gibi görünüyor.
Düşünebileceğim en yakın şey, birkaç yıl önce duyurulduğunda insanları uyandıran küçük bir kara büyü, ancak toplumda gerçek bir çekiş kazandığına inanmıyorum. Yazarlar "Maksimal Bilgi Katsayısı (MIC)" adını verdikleri bir istatistik geliştirdiler. Yöntemlerinin ardındaki genel fikir, son derece boyutlu veriler almak, her değişkeni çiftler halinde diğer değişkenlere göre çizmek ve daha sonra her bir çizime (bu iki değişken için MIC'yi hesaplar) ilginç bir pencere binme algoritması uygulamaktır. potansiyel olarak iki değişken arasındaki ilişki. Tekniğin sadece doğrusal değil, keyfi olarak yapılandırılmış ilişkileri tanımlamada da sağlam olduğu varsayılmaktadır .
Teknik, değişken çiftlerini hedefler, ancak eminim ki çok değişkenli ilişkileri araştırmak için genişletilebilir. Asıl sorun, daha fazla değişkenin permütasyonlarına izin verirken tekniği önemli ölçüde daha fazla değişken kombinasyonu üzerinde çalıştırmanız gerekecekti. Muhtemelen çiftlerle biraz zaman aldığını hayal ediyorum: bunu uzaktan yüksek boyutlu verilerde bile kullanmaya çalışmak ve değişken çiftlerinden daha karmaşık ilişkiler düşünmek hızlı bir şekilde zorlaşacaktır.
Kağıt referans Büyük Veri kümeleri Gelişen Roman Dernekleri (2011)
Bu soru, denetlenen ve denetlenmeyen yöntemler arasındaki farkı araştırırken aklıma geldi. Ekonometrik bir geçmişten geldiğimde, karşılaştığım makine öğrenimi literatürünün çoğunun yöntemlere odaklandığı için anlayışımı yavaşlatan modellerde düşünmeyi tercih ederim.
Şimdiye kadar bulduğum şey, clustering
(denetimsiz) ile classification
(denetimli) arasında katı bir ayrım yapılması gerektiğidir . Bu model tasarımları arasındaki ilişkinin sürekli benzeşmesi principal component analysis
(denetimsiz) ile karşılaştırıldığında linear regression
(denetlenir) olacaktır.
Ancak, kümelenme ve sınıflandırma arasındaki ilişkinin tamamen rastlantısal olduğunu iddia ediyorum; ancak her iki model tasarımını da gereksiz yere kısıtlayıcı bulduğum geometrik bir ilişkiyi tanımlarken yorumladığımızda var olur. Bildiğim tüm denetimsiz yöntemler (k-araçları, kohonen / nöral gaz, DBSCAN, PCA gibi elastik harita algoritmaları) gizli değişken modeller olarak yorumlanabilir. Kümeleme yöntemleri söz konusu olduğunda, bu durum, bir kümeye ait durumun, durum mankenleri tanıtılarak gizli değişken bir model olarak kodlanabilecek bir durumda olduğu anlamına gelecektir.
Gizli değişken modelleri olarak yorumlama göz önüne alındığında, özelliklerinizi sürekli gizli değişkenler olarak tanımlayan, muhtemelen doğrusal olmayan herhangi bir modeli belirtebilirsiniz.