Uygun makine öğrenme algoritmasını seçmek için keşifsel veri analizi nasıl yapılır


16

Makine Öğrenmesi: Olasılıksal Bir Bakış (Kevin Murphy) ile makine öğrenimi üzerine çalışıyoruz. Metin her algoritmanın teorik temelini açıklarken, hangi durumda hangi algoritmanın daha iyi olduğunu ve ne zaman olduğunu, hangi durumda olduğumu nasıl söyleyeceğini söylemez.

Örneğin, çekirdek seçimi için, verilerimin ne kadar karmaşık olduğunu ölçmek için keşifsel veri analizi yapmam söylendi. Basit 2 boyutlu verilerde, doğrusal veya radyal bir çekirdeğin uygun olup olmadığını çizebilir ve görebilirim. Ama daha yüksek boyutta ne yapmalı?

Daha genel olarak, insanlar bir algoritma seçmeden önce "verilerinizi tanıyın" derken ne anlama gelir? Şu anda sadece sınıflandırma ile regresyon algoritması ve doğrusal ve doğrusal olmayan algoritmayı (kontrol edemiyorum) ayırt edebiliyorum.

EDIT: Orijinal sorum evrensel genel kural hakkında olsa da, benim özel sorunum hakkında daha fazla bilgi vermem istendi.

Veri: Her satırın ülke ayı olduğu bir panel (toplamda ~ 30.000 satır, ~ 15 yılı aşkın süredir ~ 165 ülkeyi kapsar).

Yanıt: 5 ikili ilgi alanı değişkeni (yani o ayın protesto / darbe / kriz vb. Olup olmadığı).

Özellikler: Önceki ülke aylarının karakteristik bir demet detayı ~ 400 değişken (sürekli, kategorik, ikili) bir karışımı (daha uzun gecikme oluşturulabilir). Amaç tahmin olduğu için yalnızca gecikmeli değişken kullanıyoruz.

Örnekler arasında döviz kuru, GSYİH büyümesi (sürekli), serbest basının düzeyi (kategorik), demokrasi, çatışma yaşayan (ikili) olup olmadığı sayılabilir. Bu 400 özelliğin birçoğunun gecikmeli değişkenler olduğuna dikkat edin.

Yanıtlar:


15

Bu basit bir cevabı olmayan geniş bir sorudur. CMU'da bu konuda 3 aylık bir ders verdim . Aşağıdaki gibi konuları kapsamıştır:

  1. Projeksiyonlar , değişkenler ve genel dağılım yapısı arasındaki korelasyonu anlamak için kullanılır .
  2. Artıkları art arda modelleyerek bir regresyon modeli nasıl oluşturulur .
  3. Doğrusal bir modele ne zaman doğrusal olmayan etkileşim terimleri ekleneceğini belirleme .
  4. Knn ile karar ağacı ve lojistik sınıflandırıcı arasında nasıl karar verilir. Bir dizi UCI veri setinden geçtim ve hangi sınıflandırıcının bunları çalıştırmadan önce kazanacağını nasıl anlayabileceğinizi gösterdim.

Ne yazık ki, kurs için video veya ders kitabı yok, ancak sınıftan ana noktaları özetleyen bir konuşma yaptım . Aynı alanı kapsayan hiçbir ders kitabının farkında değilim.


Bu yararlı materyalleri sindirmek bir iki gün sürecek, ancak dikkatinizi çekerken: Neden bu konuyu kapsayan bir ders kitabımız / kaynağımız yok? Birisi bir projeye katıldığında bu soru hakkında düşünmek zorunda olduğu için önemli değil mi?
Heisenberg

1
Güzel soru (+1) ve cevap (+1). @Heisenberg: Tom'a konuyla ilgili özel bir ders kitabı görmemesinde katılıyorum. Ancak, kaynaklarına ek olarak, iki çevrimiçi kaynak önerebilirim (ML uygulamalarına odaklanmamasına rağmen): 1) NIST Mühendislik İstatistikleri El Kitabının EDA bölümü ; 2) Prof. Andrew Gelman'ın karmaşık modeller için EDA hakkında ilginç bir makalesi .
Aleksandr Blekh

0

Verilerinizi kontrol edebileceğiniz bazı şeyler var.

1 - correlation between variables
2 - categorical variables or continuous variables?
3 - relation between number of samples and number of variables
4 - are the samples independent or is it a time series? 

Bu noktalara ve verilerinizden çıkarmak istediğiniz bilgilere göre hangi algoritmayı kullanacağınıza karar verebilirsiniz.


Bu 4 bilginin her birinin algoritma seçimimi nasıl etkilediğini açıklayabilir misiniz? Sadece 2'nin regresyona karşı sınıflandırmaya karar vereceğini biliyorum. Diğer 3 ne olacak? (özellikle # 4 - 10 yıldan fazla 165 ülkeden panel verilerim var)
Heisenberg

2- kategorik değişkenleri girdi olarak düşünüyordum. Algoritma ile ilgili son karar çözmeye çalıştığınız soruna bağlıdır. Şimdi bunu bilmenin bir yolu var. 2- belki de bir karar ağacı size yardımcı olabilir. 3'te aşırı takmaya dikkat etmelisiniz. 4-'de performansınızı nasıl değerlendireceğinize karar vermelisiniz. Yalnızca belirli bir sorunu açıklarsanız hangi algoritmayı kullanacağınıza karar vermenize yardımcı olabiliriz.
Donbeo

Özel sorunum hakkında daha fazla bilgi için sorumu düzenledim.
Heisenberg
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.