Makine Öğrenmesi: Olasılıksal Bir Bakış (Kevin Murphy) ile makine öğrenimi üzerine çalışıyoruz. Metin her algoritmanın teorik temelini açıklarken, hangi durumda hangi algoritmanın daha iyi olduğunu ve ne zaman olduğunu, hangi durumda olduğumu nasıl söyleyeceğini söylemez.
Örneğin, çekirdek seçimi için, verilerimin ne kadar karmaşık olduğunu ölçmek için keşifsel veri analizi yapmam söylendi. Basit 2 boyutlu verilerde, doğrusal veya radyal bir çekirdeğin uygun olup olmadığını çizebilir ve görebilirim. Ama daha yüksek boyutta ne yapmalı?
Daha genel olarak, insanlar bir algoritma seçmeden önce "verilerinizi tanıyın" derken ne anlama gelir? Şu anda sadece sınıflandırma ile regresyon algoritması ve doğrusal ve doğrusal olmayan algoritmayı (kontrol edemiyorum) ayırt edebiliyorum.
EDIT: Orijinal sorum evrensel genel kural hakkında olsa da, benim özel sorunum hakkında daha fazla bilgi vermem istendi.
Veri: Her satırın ülke ayı olduğu bir panel (toplamda ~ 30.000 satır, ~ 15 yılı aşkın süredir ~ 165 ülkeyi kapsar).
Yanıt: 5 ikili ilgi alanı değişkeni (yani o ayın protesto / darbe / kriz vb. Olup olmadığı).
Özellikler: Önceki ülke aylarının karakteristik bir demet detayı ~ 400 değişken (sürekli, kategorik, ikili) bir karışımı (daha uzun gecikme oluşturulabilir). Amaç tahmin olduğu için yalnızca gecikmeli değişken kullanıyoruz.
Örnekler arasında döviz kuru, GSYİH büyümesi (sürekli), serbest basının düzeyi (kategorik), demokrasi, çatışma yaşayan (ikili) olup olmadığı sayılabilir. Bu 400 özelliğin birçoğunun gecikmeli değişkenler olduğuna dikkat edin.