MFCC'ler bir geri alma sistemine müziği temsil etmek için en uygun yöntem midir?


10

Bir sinyal işleme tekniği, Mel frekans Cepstrum , genellikle bir makine öğrenme görevinde kullanılmak üzere bir müzik parçasından bilgi çıkarmak için kullanılır. Bu yöntem kısa vadeli bir güç spektrumu verir ve katsayılar girdi olarak kullanılır.

Müzik erişim sistemlerini tasarlarken, bu katsayılar bir parçanın karakteristiği olarak kabul edilir (açıkçası mutlaka benzersiz değil, ayırt edici). Bir ağ ile öğrenmeye daha uygun herhangi bir özellik var mı? Bir Elman ağı gibi bir şeyde kullanılan parçanın bas ilerlemesi gibi zamanla değişen özellikler daha verimli çalışır mı?

Hangi özellikler hangi sınıflandırmanın gerçekleşebileceği konusunda yeterince geniş bir set oluşturacaktır?


Belirli bir ses klibinin benzersiz niteliklerini aradığınız geri alma üzerinde mi çalışıyorsunuz? ya da benzer müzikleri tanımlamak ister misiniz?
Andrew Rosenberg

@AndrewRosenberg Benzer müziği tanımlama çizgileri boyunca daha fazlası.
jonsca

(Yıllar sonra), MFCC ile uğraşmanın birçok yolu vardır; Kinunnen ve ark., Frekans Çözgü ve Sağlam Konuşmacı Doğrulamaları: Alternatif Mel Ölçekli Temsilciliklerin Karşılaştırılması 2013, 5p, 60 katsayı kullan. Ve, ne optimize edin? Hangi açık olmayan veritabanında? Bu yüzden (uzman olmayan) sorunun cevaplanamayacak kadar geniş olduğunu söyleyebilirim.
denis

@denis Bilgi için teşekkürler. Bu, kötü niyetli Machine Learning Beta'dan (ilk kez) geldi. Bunun biraz belirsiz olduğunu takdir ediyorum.
Ocak'ta jonsca

Yanıtlar:


8

Bir noktada bu konuda biraz çalıştık. Çıkardığımız özellik seti bu NIPS atölye çalışmasında verilmektedir . İtiraf etmeliyim ki, bu alanda kullanılan veri kümeleri hakkında bazı şüpheler olsa da, alandaki diğer bazı yazarların sonuçlarını çoğaltamadık (bu alanda yazarlar tarafından kullanılan veri kümelerinin elle toplama ve serbest bırakılma eğiliminde olmalarına dikkat edin) her zaman böyle olmasa da, telif hakkı nedenleriyle halka). Aslında hepsi kısa vadeli spektral özelliklerdiOtomatik regresyon katsayıları da atılır. Kısa vadeli özelliklerin kullanımını doğrulayan çok kısa zaman aralıklarında (<1s) insanlar tarafından yapılabileceğini bildiğimiz türün sınıflandırmasına bakıyorduk (harika bir doğrulukla değil, tutarlı bir anlaşma ile değil ...). . Tipik tür / sanatçı / albüm / yapımcı sınıflandırmasından daha karmaşık şeyler yapmakla ilgileniyorsanız, daha uzun menzilli özelliklere ihtiyacınız olabilir, aksi takdirde bu kısa vadeli spektral özellikler en iyi performansı gösterir.


AR katsayılarına atmanın amacı neydi?
jonsca

1
@jonsca Birçok "zayıf" öğreniciyi birleştirerek çalışan artırıcı yöntemler kullandığımızdan, kolayca hesaplanabilecek ve fayda sağlayabilecek herhangi bir özellik kullanmaya karar verdik. Zayıf bir öğrenicinin faydalı olması için gereken tek şey, şans seviyelerinden daha yüksek sınıflandırma yapabilmesidir. AR katsayıları, sadece çok gevşek olmasına rağmen, müziğin o pencere içindeki kısa vadeli bilgi karmaşıklığı hakkında bir fikir veren spektral zarfın sıkıştırılmasına eşdeğerdir.
tdc

@tdc, "veri kümeleri kamuya açıklanma eğilimindedir ...": sesli telefon etiketli herhangi bir ücretsiz çevrimiçi konuşma veri kümesini biliyor musunuz?
denis

: Bildiğim tek bu bir olduğunu @denis orange.biolab.si/datasets/phoneme.htm
TDC

@tdc, teşekkürler, ancak bu stat öğrenme öğelerinden sadece 11 sesli harf, ~ 1000 x 11 özellik (eski LPC).
denis
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.