Spektrogramlar kullanarak sesi (örneğin hayvanların sesleri) sınıflandırma olasılığını araştırıyordum. Fikir, spektrogramdaki segmentleri tanımak ve bir (veya birçok) sınıf etiketi çıkarmak için derin bir kıvrımlı sinir ağları kullanmaktır. Bu yeni bir fikir değil (bkz. Örneğin balina sesi sınıflandırması veya müzik tarzı tanıma ).
Karşılaştığım sorun, farklı uzunluktaki ses dosyalarına ve dolayısıyla farklı boyutlardaki spektrogramlara sahip olmam. Şimdiye kadar gördüğüm her yaklaşım sabit boyutlu bir ses örneği kullanıyor ancak bunu yapamıyorum çünkü ses dosyam 10 saniye veya 2 dakika uzunluğunda olabilir.
Örneğin, başlangıçta bir kuş sesi ve sonunda bir kurbağa sesi ile (çıktı "Kuş, Kurbağa" olmalıdır). Şu anki çözümüm sinir ağına geçici bir bileşen eklemek olacaktır (tekrarlayan bir sinir ağından daha fazla yaratılması) ama şimdilik basit tutmak istiyorum. Herhangi bir fikir, link, öğretici, ...?