Ses sınıflandırması için kıvrımlı bir derin inanç ağı nasıl anlaşılır?


11

"In hiyerarşik temsiller ölçeklenebilir denetimsiz öğrenme için Evrişimsel derin inanç ağları Lee ve diğerleri tarafından". ( PDF ) Evrişimli DBN'ler önerilmektedir. Yöntem, görüntü sınıflandırması için de değerlendirilir. Küçük köşeler ve kenarlar gibi doğal yerel görüntü özellikleri olduğu için bu mantıklı geliyor.

In " Eğiticisiz özelliği konvolusyanla derin inanç ağları kullanarak ses sınıflandırma için öğrenme Lee ve diğerleri tarafından". ark. bu yöntem farklı sınıflandırma türlerinde ses için uygulanır. Konuşmacı kimliği, cinsiyet kimliği, telefon sınıflandırması ve ayrıca bazı müzik türü / sanatçı sınıflandırması.

Bu ağın evrişimsel kısmı, görüntüler için kenar olarak açıklanabileceği gibi, ses için nasıl yorumlanabilir?


Kâğıt için kimler var?

Yanıtlar:


9

Ses uygulaması, iki boyutlu görüntü sınıflandırma probleminin tek boyutlu basitleştirilmesidir. Bir fonem (örneğin), kenar veya daire gibi bir görüntü özelliğinin ses analogudur. Her iki durumda da bu özelliklerin önemli bir yeri vardır: bir görüntü yerinin veya konuşma anının nispeten küçük bir mahallesindeki değerler ile karakterize edilirler. Konvolüsyonlar, yerel mahallelerdeki değerlerin kontrollü, düzenli ağırlıklı ortalama ortalamasıdır. Bundan, DBN'nin evrişimsel bir formunun anlamlı olan özellikleri belirleme ve ayırt etme konusunda başarılı olabileceği umudu doğar .


1

Konvolüsyonel RBM'lerin ses verilerine uygulanması durumunda, yazarlar önce Kısa Süreli Fourier Dönüşümü'nü almış ve daha sonra spektrumdaki enerji bantlarını tanımlamışlardır. Sonra bu dönüştürülmüş ses üzerine evrişimsel RBM'ler uyguladılar.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.