Çok büyük bir veri kümesine erişimim var. Veriler, dört türden birinden müzikal alıntıları dinleyen insanların MEG kayıtlarından alınmıştır. Veriler aşağıdaki gibidir:
- 6 Konular
- 3 Deneysel tekrarlar (çağlar)
- Dönem başına 120 Deneme
- 275 MEG kanalından 500Hz'de (= 4000 örnek) deneme başına 8 saniye veri
Yani burada her "örnek" [4000x275] boyutunda bir matristir ve bu örneklerden 2160 tane vardır ve bu herhangi bir özellik çıkarılmadan önce gerçekleşir. Amaç, beyin sinyaline (4 sınıflı sınıflandırma) dayalı türü tahmin etmektir.
Açıkçası burada bazı zorluklar var, yani:
- Veri kümesi belleğe sığmıyor
- Verilerde güçlü zamansal korelasyonlar olacaktır ve denekler arası varyasyon çok büyük olacaktır. Sonuç olarak, verilerin nasıl bölüneceği açık değildir
- Sinyal-gürültü oranı çok düşük
- Bir sınıflandırıcı için doğru özelliklerin ne olacağı açık değildir.
Bunları sırayla:
Birinin yapabileceği çeşitli şeyler vardır. İlk olarak, Nyquist sınırını hesaba kattığımızdan, beyin aktivitesi gerçekten 100Hz'in üzerinde gerçekleşmediğinden, 500Hz'den ~ 200Hz'e güvenli bir şekilde örnek alabiliriz. Kanal setinden de alt örnek alabiliriz (örn. İşitsel alanların üzerinde merkez), ancak bunu ilgilendirebilecek diğer alanlarda (ön vb.) Aktivite olabileceğinden bunu a priori yapmayı tercih etmeyiz . Muhtemelen zaman penceresinin bir kısmını da düşürebiliriz. Belki de sadece ilk 2'ler görev için önemlidir? Gerçekten bilinmiyor. Tabii ki herkes bağırır " Boyut azalması! ", ancak bu da önemsiz değil. Birincisi, tren / test bölümlerimiz (bkz. 2.) konusunda çok dikkatli olmalıyız ve bunu özellik oluşturma işleminden önce mi sonra mı yapacağımız da belli değil. çapraz doğrulama veya özenli görsel inceleme, uygun yöntemi veya uygun sayıda boyutu seçmenin açık bir yolu yoktur Tabii ki sadece PCA, ICA veya rastgele projeksiyonları kullanabilir ve en iyisini umabiliriz ....
Bu zor. Eğitim setinde birbirini takip eden örneklere sahipsek, eğitim setini geçersiz kılabiliriz, oysa tren ve test setlerine bölünmüş birbirini takip eden örneklere sahipsek, eğitim setinin yerine geçmesi muhtemeldir, ancak yine de test setini geçebilir. Burada çeşitli seçenekler var gibi görünüyor:
- Tek Denekli Sınıflandırma . Her bir konuyu kendi başına alın ve çağlara göre bölün. Bu gerektiğini biz beyinleri arasında tahmin etmeye çalışmıyoruz olarak, en kolay görevdir. Bunun içinde, çapraz geçerlilik için kalan iki dönemi kullanabilirsiniz. Bütünlük için tüm kombinasyonları döndürmek gerekir. Tüm konulardaki ortalama doğruluğu rapor ederiz. Elbette bu modellerin iyi bir şekilde genelleştirilmesini beklemezdik.
- Deneklerin sınıflandırılması . Tüm konuları bir araya getirin ve çağlara göre bölün. Bu olabilir hepimiz eğitimde deneklerin görmüş olacak şekilde aslında, en kolay görev. Ancak, modellerin muhtemelen yeni konulara iyi bir genelleme yapmasını beklemezdik. Bunun içinde, çapraz geçerlilik için kalan iki dönemi kullanabilirsiniz. Bütünlük için tüm kombinasyonları döndürmek gerekir.
- Konular arasında sınıflandırma . Tek bir deneğin test verisi olarak alındığı ve geri kalanı eğitim için kullanıldığı "bir defaya mahsus izin" olarak da bilinir. Daha sonra tüm konular üzerinde döneceğiz. Daha sonra özneler üzerinde çapraz doğrulama gerçekleştirilecektir. Her seferinde "yeni bir beyni" tahmin etmeye çalıştığımızdan, bunun çok daha zor bir görev olmasını bekleriz. Burada, test-tekrar test güvenilirliği (yani zamansal korelasyonlardan ne kadar fazla sığdırmaya neden olduğu) bir sorun olsa da, modellerin daha büyük popülasyona iyi genelleme yapmasını bekleriz.
Bu, klasik bir "samanlıkta iğne" problemidir - müzikal türün veya türe özgü herhangi bir işlemenin tanınmasıyla ilgili gerçek sinyal, beyindeki aktivite "çorbası" ile karşılaştırıldığında minik olacaktır. Ayrıca sadece kısmen kaldırılabilen (esas olarak hareketle ilgili) dikkate değer eserler de vardır. Verilerden elde ettiğimiz herhangi bir özellik ve verilerin işlenme şekilleri, ilgili sinyalin bir kısmını yok etmekten kaçınmalıdır.
Burada çeşitli şeyler yaptığınızı hayal edebilirsiniz. Bunlardan birincisi, ham vektörün (bir vektöre birleştirilen) özellik vektörü olarak kullanılması olacaktır. Ne kadar verimli olduğuna emin değilim - bence bu vektörler muhtemelen tekdüze rastgele olurdu. Bu gerçekten bir sinyal işleme sorusudur, ancak kişinin izleyebileceği bazı genel kurallar vardır. Birincisi, bileşenlerin ayrı frekans bantlarına (alfa / beta / gama vb.) Ayrılabildiği ve bunların istatistiklerinin (ortalama, standart sapma) kayan bir pencere üzerinde standart Fourier Analizi yapmaktır . Veya Dalgacıklar, Hilbert Dönüşümleri kullanılabilir, hatta kaotik çekiciler aramaya çalışılabilir. Elbette, permütasyon sayısını çoğaltan çekirdekler (doğrusal, polinom, RBF vb.) Seçeneğine sahibiz. Belki de burada yapılacak en iyi şey, mümkün olduğunca çok sayıda farklı özellik kümesi oluşturmak ve daha sonra bunları birleştirmek için MKL veya artırma yöntemlerini kullanmaktır .
Bu tür veri kümesine nasıl yaklaşırsınız (özellikle bu değilse)? Yol boyunca kaçırdığım bir şey var mı? Sonsuz miktarda araştırmacı zamanı ve hesaplama kaynağı harcamadan başarılı olma olasılığı en yüksek strateji hangisidir?