Çok büyük zaman serisi veri kümeleriyle başa çıkmak


10

Çok büyük bir veri kümesine erişimim var. Veriler, dört türden birinden müzikal alıntıları dinleyen insanların MEG kayıtlarından alınmıştır. Veriler aşağıdaki gibidir:

  • 6 Konular
  • 3 Deneysel tekrarlar (çağlar)
  • Dönem başına 120 Deneme
  • 275 MEG kanalından 500Hz'de (= 4000 örnek) deneme başına 8 saniye veri

Yani burada her "örnek" [4000x275] boyutunda bir matristir ve bu örneklerden 2160 tane vardır ve bu herhangi bir özellik çıkarılmadan önce gerçekleşir. Amaç, beyin sinyaline (4 sınıflı sınıflandırma) dayalı türü tahmin etmektir.

Açıkçası burada bazı zorluklar var, yani:

  1. Veri kümesi belleğe sığmıyor
  2. Verilerde güçlü zamansal korelasyonlar olacaktır ve denekler arası varyasyon çok büyük olacaktır. Sonuç olarak, verilerin nasıl bölüneceği açık değildir
  3. Sinyal-gürültü oranı çok düşük
  4. Bir sınıflandırıcı için doğru özelliklerin ne olacağı açık değildir.

Bunları sırayla:

  1. Birinin yapabileceği çeşitli şeyler vardır. İlk olarak, Nyquist sınırını hesaba kattığımızdan, beyin aktivitesi gerçekten 100Hz'in üzerinde gerçekleşmediğinden, 500Hz'den ~ 200Hz'e güvenli bir şekilde örnek alabiliriz. Kanal setinden de alt örnek alabiliriz (örn. İşitsel alanların üzerinde merkez), ancak bunu ilgilendirebilecek diğer alanlarda (ön vb.) Aktivite olabileceğinden bunu a priori yapmayı tercih etmeyiz . Muhtemelen zaman penceresinin bir kısmını da düşürebiliriz. Belki de sadece ilk 2'ler görev için önemlidir? Gerçekten bilinmiyor. Tabii ki herkes bağırır " Boyut azalması! ", ancak bu da önemsiz değil. Birincisi, tren / test bölümlerimiz (bkz. 2.) konusunda çok dikkatli olmalıyız ve bunu özellik oluşturma işleminden önce mi sonra mı yapacağımız da belli değil. çapraz doğrulama veya özenli görsel inceleme, uygun yöntemi veya uygun sayıda boyutu seçmenin açık bir yolu yoktur Tabii ki sadece PCA, ICA veya rastgele projeksiyonları kullanabilir ve en iyisini umabiliriz ....

  2. Bu zor. Eğitim setinde birbirini takip eden örneklere sahipsek, eğitim setini geçersiz kılabiliriz, oysa tren ve test setlerine bölünmüş birbirini takip eden örneklere sahipsek, eğitim setinin yerine geçmesi muhtemeldir, ancak yine de test setini geçebilir. Burada çeşitli seçenekler var gibi görünüyor:

    • Tek Denekli Sınıflandırma . Her bir konuyu kendi başına alın ve çağlara göre bölün. Bu gerektiğini biz beyinleri arasında tahmin etmeye çalışmıyoruz olarak, en kolay görevdir. Bunun içinde, çapraz geçerlilik için kalan iki dönemi kullanabilirsiniz. Bütünlük için tüm kombinasyonları döndürmek gerekir. Tüm konulardaki ortalama doğruluğu rapor ederiz. Elbette bu modellerin iyi bir şekilde genelleştirilmesini beklemezdik.
    • Deneklerin sınıflandırılması . Tüm konuları bir araya getirin ve çağlara göre bölün. Bu olabilir hepimiz eğitimde deneklerin görmüş olacak şekilde aslında, en kolay görev. Ancak, modellerin muhtemelen yeni konulara iyi bir genelleme yapmasını beklemezdik. Bunun içinde, çapraz geçerlilik için kalan iki dönemi kullanabilirsiniz. Bütünlük için tüm kombinasyonları döndürmek gerekir.
    • Konular arasında sınıflandırma . Tek bir deneğin test verisi olarak alındığı ve geri kalanı eğitim için kullanıldığı "bir defaya mahsus izin" olarak da bilinir. Daha sonra tüm konular üzerinde döneceğiz. Daha sonra özneler üzerinde çapraz doğrulama gerçekleştirilecektir. Her seferinde "yeni bir beyni" tahmin etmeye çalıştığımızdan, bunun çok daha zor bir görev olmasını bekleriz. Burada, test-tekrar test güvenilirliği (yani zamansal korelasyonlardan ne kadar fazla sığdırmaya neden olduğu) bir sorun olsa da, modellerin daha büyük popülasyona iyi genelleme yapmasını bekleriz.
  3. Bu, klasik bir "samanlıkta iğne" problemidir - müzikal türün veya türe özgü herhangi bir işlemenin tanınmasıyla ilgili gerçek sinyal, beyindeki aktivite "çorbası" ile karşılaştırıldığında minik olacaktır. Ayrıca sadece kısmen kaldırılabilen (esas olarak hareketle ilgili) dikkate değer eserler de vardır. Verilerden elde ettiğimiz herhangi bir özellik ve verilerin işlenme şekilleri, ilgili sinyalin bir kısmını yok etmekten kaçınmalıdır.

  4. Burada çeşitli şeyler yaptığınızı hayal edebilirsiniz. Bunlardan birincisi, ham vektörün (bir vektöre birleştirilen) özellik vektörü olarak kullanılması olacaktır. Ne kadar verimli olduğuna emin değilim - bence bu vektörler muhtemelen tekdüze rastgele olurdu. Bu gerçekten bir sinyal işleme sorusudur, ancak kişinin izleyebileceği bazı genel kurallar vardır. Birincisi, bileşenlerin ayrı frekans bantlarına (alfa / beta / gama vb.) Ayrılabildiği ve bunların istatistiklerinin (ortalama, standart sapma) kayan bir pencere üzerinde standart Fourier Analizi yapmaktır . Veya Dalgacıklar, Hilbert Dönüşümleri kullanılabilir, hatta kaotik çekiciler aramaya çalışılabilir. Elbette, permütasyon sayısını çoğaltan çekirdekler (doğrusal, polinom, RBF vb.) Seçeneğine sahibiz. Belki de burada yapılacak en iyi şey, mümkün olduğunca çok sayıda farklı özellik kümesi oluşturmak ve daha sonra bunları birleştirmek için MKL veya artırma yöntemlerini kullanmaktır .

Bu tür veri kümesine nasıl yaklaşırsınız (özellikle bu değilse)? Yol boyunca kaçırdığım bir şey var mı? Sonsuz miktarda araştırmacı zamanı ve hesaplama kaynağı harcamadan başarılı olma olasılığı en yüksek strateji hangisidir?

Yanıtlar:


4

@tdc. Sinirbilim verilerinin analizi ile ilgili olarak burada bahsettiğiniz tüm ve daha birçok sorun: Boyutsallık azalması, Konuların içinde / arasında sınıflandırma, sinyal-gürültü oranı, vb., Özel olarak tasarlanmış EEGLAB araç kutusu tarafından ele alınmaktadır. bu tür sinirbilim verilerini işlemek için:

EEGLAB, bağımsız bileşen analizi (ICA), zaman / frekans analizi, artefakt reddi, olayla ilgili istatistikler ve ortalamanın birkaç yararlı görselleştirme modunu içeren sürekli ve olayla ilişkili EEG, MEG ve diğer elektrofizyolojik verileri işlemek için etkileşimli bir Matlab araç kutusudur. ve tek deneme verileri.

Böylece, "araştırmacı zamanın sonsuz miktarda harcamadan, en başarılı olasılığı strateji nedir" Sorunuzun ilgili izlemek için teşvik etmek istiyorum hat atölye üzerinde EEGLAB ve oradan devam etmek ...

Güncelleme: Daha fazla ML öğesi için (yeni) BCILAB modeline bir göz atın


1
Aslında geçmişte EEGLAB kullanmıştım, ancak esasen tam GUI (biraz yavaş ve kararsız olma eğilimi) yerine altta yatan işlevler. Bununla birlikte, çoğunlukla çok değişkenli analizden ziyade kitle tek değişkenli analize yöneliktir, ancak bir süredir bakmadığımı itiraf ediyorum. Deneyiminiz var mı?
tdc

Bence son iki yılda büyük ilerleme kaydettiler ... ve hem GUI'yi hem de matlab işlevini kullanıyorum. 2010'daki bu atölye çok faydalı ve birçok hata düzeltildi, ÇALIŞMA ve diğerleri gibi birçok model eklendi. Çok memnunum, zaman ve para tasarrufu sağlıyor ancak lütfen MEG ile değil, esas olarak EEG verileriyle çalıştığımı unutmayın.
Dov

1
Tamam ilginç. Prensipte, EEG & MEG arasında hiçbir fark görmüyorum, çünkü ikisi de eserler ve sensör sayısı dışında elektriksel beyin aktivitesini ölçüyor. EEGLAB'ı Makine Öğrenimi ile birleştirdiniz mi?
tdc

Elbette. her zaman. hepsi matlab'da ... yani verilerinizi EEGLAB'a yükledikten sonra. PCA / ICA (bunu yaptığım şey) kullanabilir ve ardından en sevdiğiniz sınıflandırıcı / kümeleme SVM, fisher veya k-mean .. sadece adını verebilirsiniz.
Dov

1
Bu, kapsamı için harika bir cevaptır, ancak bu sorunların her birinin, özel bir sisteme dayanan bir araç kutusundan bağımsız olarak nasıl ele alındığının bir özetini görmek güzel olurdu.
parlak yıldız
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.