Hangi dönüşüm insan işitme sistemini en yakın taklit eder?


12

Fourier dönüşümü genel olarak ses frekans analizi için kullanılır. Bununla birlikte, insanın ses algısını analiz etme konusunda bazı dezavantajları vardır. Örneğin, frekans bölmeleri doğrusaldır, oysa insan kulağı frekansa doğrusal olarak değil logaritmik olarak tepki verir .

Dalgacık dönüşümleri , Fourier dönüşümünün aksine farklı frekans aralıkları için çözünürlüğü değiştirebilir . Özelliklerini dalgacık dönüşümü yüksek frekanslar için kısa zamansal genişlikleri muhafaza ederken düşük frekanslar için büyük zamansal destek sağlar.

Dalgacık Morlet yakından işitme insan algısı ile ilgilidir. Müzik transkripsiyonuna uygulanabilir ve Fourier dönüşüm teknikleri kullanılarak mümkün olmayan çok doğru sonuçlar verir. Her nota için net bir başlangıç ​​ve bitiş zamanı ile tekrarlanan ve değişen müzik notalarının kısa patlamalarını yakalayabilir.

Sabit S dönüşümü (yakından dalgacık dönüşümü Morlet ile ilgili), aynı zamanda bir de müzik verileri için uygun . Dönüşümün çıktısı, log frekansına karşı etkili bir genlik / faz olduğundan, belirli bir aralığı etkili bir şekilde kapsamak için daha az spektral bölme gerekir ve bu, frekanslar birkaç oktav içerdiğinde yararlı olur.

Dönüşüm, işitsel uygulamalar için arzu edilen daha yüksek frekans bölmeleriyle frekans çözünürlüğünde bir azalma sergiler. İnsan işitsel sistemini yansıtır, böylece daha düşük frekanslarda spektral çözünürlük daha iyidir, zamansal çözünürlük daha yüksek frekanslarda iyileşir.

Benim sorum şu: İnsan işitsel sistemini yakından taklit eden başka dönüşümler var mı? İnsan işitsel sistemine mümkün olduğunca anatomik / nörolojik olarak uyan bir dönüşüm tasarlamaya çalışan var mı?

Örneğin, insan kulağının ses yoğunluğuna logaritmik bir yanıtı olduğu bilinmektedir . Eşit ses yüksekliği konturlarının sadece yoğunlukla değil , spektral bileşenlerin frekansındaki aralıkla da değiştiği bilinmektedir . Birçok kritik bantta spektral bileşenler içeren sesler, toplam ses basıncı sabit kalsa bile daha yüksek olarak algılanır.

Son olarak, insan kulağının frekansa bağlı sınırlı bir zamansal çözünürlüğü vardır . Belki de bu dikkate alınabilir.


"Dönüştürme" üzerine herhangi bir matematiksel kısıtlama getiriyor musunuz?
Olli Niemitalo

2
Tüm bağlantılar için Kudos!
Gilles

Hiçbir tek dönüşüm, insan işitsel sistemi kadar karmaşık bir sistemi yeterince taklit edemez. Mevcut HAS modelleri karmaşık sinyal işleme mimarileri ve her modelin işitmenin başka bir yönünü modelleyen çoklu dönüşümler kullanır. Belki parça parça modellemeyi düşünmek isteyebilirsiniz.
Şişman 32

Yanıtlar:


9

Bu tür dönüşümleri tasarlarken, rakip çıkarları dikkate almak gerekir:

  • doğrusal olmayan ve hatta kaotik yönler (kulak çınlaması) dahil olmak üzere insan işitme sistemine (insanlara göre değişir) bağlılık
  • analiz kısmı için matematiksel formülasyonun kolaylığı
  • takdir yetkisi verme veya hızlı uygulamalara izin verme imkanı
  • uygun bir kararlı tersin varlığı

Son zamanlarda iki son tasarım kulaklarımı yakaladı: İşitsel motivasyonlu Gammatone dalgacık dönüşümü , Sinyal İşleme, 2014

Sürekli dalgacık dönüşümünün (CWT) iyi zaman ve frekans lokalizasyonu sağlama yeteneği, onu sinyallerin zaman-frekans analizinde popüler bir araç haline getirmiştir. Dalgacıklar, çevresel işitsel sistemdeki baziler membran filtreleri tarafından da sahip olunan sabit Q özelliği sergiler. Baziler membran filtreler veya işitsel filtreler genellikle deneysel olarak belirlenmiş yanıtlara iyi bir yaklaşım sağlayan bir Gammatone işlevi ile modellenir. Bu filtrelerden türetilen filtre bankasına Gammatone filtre bankası denir. Genel olarak, dalgacık analizi bir filtre bankası analizine benzetilebilir ve dolayısıyla standart dalgacık analizi ile Gammatone filtre bankası arasındaki ilginç bağlantı. Bununla birlikte, Gammatone işlevi tam olarak bir dalgacık olarak nitelendirilmez, çünkü zaman ortalaması sıfır değildir. İyi niyetli dalgacıkların Gammatone fonksiyonlarından nasıl oluşturulabileceğini gösteriyoruz. Kabul edilebilirlik, zaman-bant genişliği ürünü, kaybolan anlar gibi, özellikle dalgacıklar bağlamında ilgili olan özellikleri analiz ediyoruz. Ayrıca önerilen işitsel dalgacıkların sabit katsayılara sahip doğrusal bir diferansiyel denklem tarafından yönetilen doğrusal, kayma-değişmez bir sistemin dürtü yanıtı olarak nasıl üretildiğini de gösteririz. Önerilen CWT'nin analog devre uygulamalarını öneriyoruz. Ayrıca, Gammatone türevi dalgacıkların geçici sinyallerin tekillik tespiti ve zaman-frekans analizi için nasıl kullanılabileceğini de gösteriyoruz. Ayrıca önerilen işitsel dalgacıkların sabit katsayılara sahip doğrusal bir diferansiyel denklem tarafından yönetilen doğrusal, kayma-değişmez bir sistemin dürtü yanıtı olarak nasıl üretildiğini de gösteririz. Önerilen CWT'nin analog devre uygulamalarını öneriyoruz. Ayrıca, Gammatone türevi dalgacıkların geçici sinyallerin tekillik tespiti ve zaman-frekans analizi için nasıl kullanılabileceğini de gösteriyoruz. Ayrıca önerilen işitsel dalgacıkların sabit katsayılara sahip doğrusal bir diferansiyel denklem tarafından yönetilen doğrusal, kayma-değişmez bir sistemin dürtü yanıtı olarak nasıl üretildiğini de gösteririz. Önerilen CWT'nin analog devre uygulamalarını öneriyoruz. Ayrıca, Gammatone türevi dalgacıkların geçici sinyallerin tekillik tespiti ve zaman-frekans analizi için nasıl kullanılabileceğini de gösteriyoruz.

ERBlet dönüşümü: Mükemmel yeniden yapılandırmayla işitsel tabanlı bir zaman-frekans gösterimi , ICASSP 2013

Bu makale, bir ses sinyalinin algısal olarak motive edilmiş ve mükemmel şekilde tersine çevrilebilir bir zaman-frekans temsili elde etmek için bir yöntemi tarif etmektedir. Çerçeve teorisi ve son durağan olmayan Gabor dönüşümüne dayanarak, frekans boyunca gelişen çözünürlüğe sahip doğrusal bir gösterim formüle edilir ve muntazam olmayan bir filtre bankası olarak uygulanır. İnsan işitsel zaman-frekans çözünürlüğünü eşleştirmek için dönüşüm, psikoakustik “ERB” frekans ölçeğinde eşit aralıklarla yerleştirilmiş Gauss pencerelerini kullanır. Ek olarak, dönüşüm uyarlanabilir çözünürlük ve yedeklilik özelliğine sahiptir. Simülasyonlar, hızlı yinelemeli yöntemler ve ERB başına bir filtre ve çok düşük yedeklilik kullanılarak bile ön koşullandırma kullanılarak mükemmel rekonstrüksiyonun elde edilebileceğini gösterdi (1.08).

Ayrıca şunu da belirteceğim:

Sesli Sinyal İşleme İçin İşitsel Tabanlı Bir Dönüşüm , WASPAA 2009

Bu yazıda işitsel tabanlı bir dönüşüm sunulmuştur. Bir analiz süreci boyunca, dönüşüm zaman alanı sinyallerini bir dizi filtre bankası çıktısına kapsar. Filtre bankasının frekans tepkileri ve dağılımları kokleanın baziler zarındakilere benzer. Sinyal işleme, ayrışmış sinyal alanında gerçekleştirilebilir. Bir sentez işlemi yoluyla, ayrışan sinyaller basit bir hesaplama yoluyla orijinal sinyale geri sentezlenebilir. Ayrıca, hem ileri hem de ters dönüşümler için ayrık zamanlı sinyaller için hızlı algoritmalar sunulmaktadır. Dönüşüm teoride onaylandı ve deneylerde onaylandı. Gürültü azaltma uygulamasına bir örnek sunulmuştur. Önerilen dönüşüm arka plana ve hesaplama seslerine dayanıklıdır ve zift harmonikleri içermez.


1
Tam da aradığım şey buydu. Teşekkür ederim.
user76284
Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.