İnsanlar sadece 20 kHz'e kadar frekans sesi duyabiliyorsa, neden müzik sesi 44.1 kHz'de örnekleniyor?


60

Bazı yerlerde, müziğin çoğunlukla 44.1 kHz'de örneklendiğini, ancak yalnızca 20 kHz'e kadar dinleyebildiğimizi okudum. Neden o?


1
Genç insanlar daha yüksek frekansları duyabilir. Diğer kayıt teknikleri, 48 kHz'e kadar kullanır.
Thorbjørn Ravn Andersen

15
Nyquist teoremi: Bir dalganın frekansını anlatmak için her vuruşta iki örneğe ihtiyacınız var.
mathreadler

İşlemciler daha hızlı olduğu için bellek ucuzdur, ancak iyi analog filtreler hala zor, daha yüksek örnekleme oranları da anlamlı olabilir (96 veya 192 kHz)
Nick T

2
@ ThorbjørnRavnAndersen 48 kHz'in yaygın olduğunu düşünüyorum çünkü video yapımında kullanılan 24, 25 ve 30 fps'ye bölünebilir. 24 eşit olarak 44100’e girmiyor. Wikipedia’nın bahsettiği de bu.
Nick T

4
@SohamDe Bunun nedeni, tam olarak 20 kHz'de 20 kHz ses sinyali örneklediğinizde hiçbir şey duymamanızdır . Düşünsene, her 1 / 20.000 saniyede bir doruğa çıkan sinüs dalgası. Eğer tam olarak aynı oranda numune alırsanız, o zaman sadece tepeleri (veya düğümleri veya örnekleme hangi seviyede olursa olsun) örnekleme yaparsınız. Yani sinyali dijitalden yeniden yarattığınızda, tüm elde ettiğiniz düz bir çizgidir. Bu kavramın takma adı verilir ve bunu duymak istediğiniz maksimum frekansın en az iki katı kadarını örneklemeniz gerekir. 44 100 Hz uygundur çünkü 2 gücü ile bölünebilir.
MichaelK

Yanıtlar:


89
  1. Gerçek bir sinyalin örnekleme oranının sinyal bant genişliğinin iki katından daha büyük olması gerekir. Ses pratik olarak 0 Hz'de başlar, bu nedenle 44.1 kHz'de kaydedilen sesde bulunan en yüksek frekans 22.05 kHz'dir (22.05 kHz bant genişliği).
  2. Mükemmel tuğla duvar filtreleri matematiksel olarak imkansız olduğundan, 20 kHz'in üzerindeki frekansları kusursuz şekilde kesemiyoruz. Ekstra 2 kHz, filtrelerin atılması içindir; Bu, sesin kusurlu filtreler nedeniyle takma olabileceği "kıpırdatma odası" dır , ancak duyamayız.
  3. 44.1 kHz'in spesifik değeri, o sırada kullanılan hem PAL hem de NTSC video kare hızlarıyla uyumluydu.

Mantığın birçok yerde yayınlandığını unutmayın: Wikipedia: Neden 44,1 kHz?


9
Merhaba, cevabınıza gerçekten katılıyorum, ancak ".. en yüksek frekansı kullanın" olayı çok yakında yeni başlayanları ısırıyor, çünkü Nyquist bant genişliği hakkında, en yüksek frekans değil; Devam ettim ve cevabınızı biraz değiştirdim. Lütfen sizin için uygun olup olmadığını kontrol edin.
Marcus Müller

2
@Ruslan: Wikipedia bu konuda oldukça iyi.
jojek

2
@BrianDrummond Yani düzenlemek?
17'de endolith

3
@ MarcusMüller eserler aliasing yoluyla, yine de ısırıldı alacak “Nyqvist en yüksek frekansı izin” tarafından ısırılan oluyor acemi ... Bundan sonra, onlar da nasıl anlayacaksınız herhangi bant genişliği frekanslar aralığı arasındaki birine te çözülür ve . Δf0Δf=fs/2
leftaroundabout

1
Biri, on harmonikleri olan 19.999.9Hz ses veya onları ayrı duymuşsa dokuz ile 20.000.1Hz ses arasındaki farkı söyleyemeyebilir, ancak bu ikisi arasında bir geçişin duyulamayacağı anlamına gelmez. Daha kademeli bir kesime sahip bir filtreye sahip olmak, bu gibi sorunlardan kaçınır.
supercat

72

44,100 Sony tarafından seçildi çünkü ilk dört asal sayının karelerinin ürünü. Bu, dijital örneklemede yararlı bir özellik olan birçok diğer tüm numaralarla bölünebilir olmasını sağlar .

44100 = 2^2 * 3^2 * 5^2 * 7^2

Sizin de fark ettiğiniz gibi, 44100, insan işitme sınırının hemen üstünde iki katına çıktı. Sadece yukarıdaki kısım nedenle (daha az cips reddedilen) onları daha az pahalı hale filtreleri biraz daha pay verir.

As Russell yorumlarda işaret, diğer birçok tam sayılar ile bölünebilir yönüyle örnek oranı seçildi anda hemen bir parası vardı. Bölgeye bağlı olarak NTSC veya PAL video özelliklerini destekleyen mevcut analog video kayıt ortamına erken dijital ses kaydedildi . NTSC ve PAL, LCM'nin (Hat başına Örneklerle birlikte) 44100 olduğu Alan başına Farklı Hatlara ve Saniyedeki Alanlara oranlarına sahiptir .


12
Seçim, sadece birçok ana faktörün alınması ile ilgili değildi, özellikle dijital ustaları depolamak için NTSC ve PAL video kayıt cihazlarını iyi kullanmak içindi. en.wikipedia.org/wiki/44,100_Hz#Recording_on_video_equipment
Russell Borogove

3
@RussellBorogove: Teşekkürler. Wiki bağlantısına göre, 44100, NTSC ve PAL video özelliklerinin örnekleme oranlarının LCM'sidir . Bu, birçok faktöre sahip bir sayı olmanın doğrudan bir sonucudur ve atın arabayı bu şartnameye götürmesi konusunda haklı olduğunuza inanıyorum.
dotancohen

1
Pek çok numaraya bölünebilir, ancak 8'e göre değil :)
Bogdan Alexandru

(Vikipedi 46,8 kHz 40.5 oranlarında çeşitli bu kriterleri yerine getirdiği için söylüyor ve 44,1 kHz filtre antiliasing için bir geçiş bandı temin edecek güçtedir)
Endolit

2
@BogdanAlexandru 1 ms USB çerçeveleriyle de bölünemez: D
endolith

13

Nyquist oranı, belirsizlik olmadan yakalamak istediğiniz temel bant sinyalinin bant sınırının iki katının üzerindedir (ör. Takma).

20kHz'in iki katından daha düşük bir hızda numune alın, ve çok yüksek ve çok düşük frekanslar arasındaki farkı sadece örneklere bakmaktan, takma işleminden dolayı söyleyemezsiniz.

Eklendi: Herhangi bir sonlu uzunluk sinyalinin frekans alanında sonsuz bir desteğe sahip olduğunu, bu nedenle kesinlikle bant sınırlaması olmadığını unutmayın. Bu, sınırsız herhangi bir ses kaynağının , en yüksek frekans spektrumunun (bir temel bant sinyalinde) iki katının biraz üzerinde) örneklemesinin , önemli takma işlemlerini önlemek için (sadece sonlu filtre geçişi yuvarlama sebeplerinin ötesinde) gerekli olmasının bir başka nedenidir .


Merhaba, cevabınıza gerçekten katılıyorum, ancak ".. en yüksek frekansı kullanın" olayı çok yakında yeni başlayanları ısırıyor, çünkü Nyquist bant genişliği hakkında, en yüksek frekans değil; Devam ettim ve cevabınızı biraz değiştirdim. Lütfen sizin için uygun olup olmadığını kontrol edin.
Marcus Müller

6
Örnekleme "başlayanlar" örnekleme ile başlar, çünkü @ MarcusMüller, temel bant geçirme bandı sinyalleri sinyalleri olup, gerçekten olan tek taraflı ya da iki taraflı ile ilgili ek bir belirsizlik vardır en yüksek frekansta (bazen "bandlimit") ile ilgili olup bant genişliği ( Bant genişliği).
robert bristow-johnson

@ robertbristow-johnson bu belirsizliğe bakmadı. Hımm; Bandlimit yaklaşımını seviyorum!
Marcus Müller

3
içinde Vikipedi makalesinde buna " Shannon söylemesine rağmen," ve , o, sonlu enerji varsayarak bu kadar sonsuz enerjiye sahip ve hiçbir sinüzitleri (ayrıca koyabilirsiniz dirac deltaları edildi yeterlidir ) frekansında bir sinüzoid sağa izin verirseniz , o zaman daha çok belirtilen . Bfs2B±BBfs>2B
robert bristow-johnson

10

Temel olarak, iki kez bant genişliği sinyal örneklemesi için ortak bir gereksinimdir, bu nedenle kHz minimumdur. Ardından, kusurlu filtreleme ve miktar belirleme ile baş etmek için biraz daha faydalıdır . Detaylar takip ediyor.2×20=40

Teoride ihtiyacınız olan şey pratikte ihtiyaç duyulan şey değildir. Bu (çoğu kişiye atfedilen) alıntı boyunca devam eder:

Teoride teori ile pratik arasında bir fark yoktur. Uygulamada var.

Ses konusunda uzman değilim, ancak yüksek kaliteli ses örnekleme / sıkıştırma uzmanları tarafından eğitildim. Bilgim paslanmış olabilir, dikkatle alın.

İlk olarak, standart örnekleme teorisi bazı varsayımlar altında çalışır: doğrusal sistemler ve zamanla değişmezlik. Ardından, teorik olarak, kayıpsız olarak bant genişliğinin yaklaşık iki katı (veya temel bant sinyalleri için maksimum frekansın iki katı) olarak örneklenebileceği sürekli bir bant sınırsız fenomeni bilinmektedir. "Nyquist oranı" genellikle şöyle tanımlanır:

bir sinyal hangi minimum hızı edilebilir hataları tanıtan olmadan örneklenmiş

Bu, "örnekleme teoremi" nin analiz kısmıdır. "Olabilir" önemlidir. Bir sentez bölümü vardır: sürekli sinyal , kardinal sinüsler kullanılarak benzer şekilde "yeniden oluşturulabilir". Tek teknik bu değildir ve düşük geçişli ön filtreleme, doğrusal olmayan (niceleme, doygunluk gibi) ve diğer zaman-değişken faktörlerini hesaba katmaz.

İnsani duymak basit bir konu değil. İnsanların 20 Hz'den 20.000 Hz'e kadar frekansları duyduğu kabul edilir. Ancak Hertz'deki bu kesin sınırlar tüm insanlar için doğanın bir özelliği değildir. Yaşla birlikte, daha yüksek frekanslara kademeli olarak hassasiyet kaybı yaşar. Diğer tarafta:

İdeal laboratuvar koşullarında, insanlar 12 Hz kadar düşük ve 28 kHz kadar yüksek sesler duyabilir, ancak eşik yetişkinlerde 15 kHz'de keskin bir şekilde artar

İşitme doğrusal değildir: seçmeler ve acı çeken eşikler vardır . Zamanla değişmez. Hem zaman hem de frekansta maskeleme efektleri vardır.

Eğer 20 Hz ila 20.000 Hz bandına kadar ortak bir aralık ise ve 40.000 Hz teorik olarak yeterli ise, ekstra bozulma ile başa çıkmak için biraz ekstra gerekir. Bir kural,% 10 daha fazlasının tamam olduğunu ( sinyal bant genişliğinin) ve 44,100 Hz'nin sadece bunu yaptığını söylüyor . 1970'lerin sonlarına kadar uzanır. Neden 44,000 Hz kullanılmıyor? Esas olarak, teknolojisi her zaman olduğu gibi değişime dayanan CD'lerin popülaritesi tarafından belirlenen standartlar nedeniyle. Ayrıca, 44.100, ilk dört asal sayıdaki karelerin ürünüdür ( ), bu nedenle hesaplamalar için yararlı olan küçük faktörler vardır (FFT gibi).2.2×22×32×52×72

Bu yüzden ile (ve katları) güvenlik, niceleme, kullanılabilirlik, hesaplamalar ve standartlar arasında bir dengemiz var.2×2044.1

Diğer seçenekler var: örneğin DAT formatı başlangıçta zor dönüşümle birlikte 48 kHz örneklemeyle yayınlandı. 96 kHz, niceleme (veya bit derinliği) açısından hangi örnekleme hızını ve bit derinliğini kullanmalıyım? Bu tartışmalı bir konudur, 24 bit 96kHz ve 24 bit 48kHz'e bakınız . Örneğin Audacity örnekleme oranlarını kontrol edebilirsiniz .


2
1. Sorunun cevabı, Nyquist teoreminin> 20kHz'i değil> 40kHz'i belirlemesidir. 2. Ne insan duyması, ne de CD formatı alt ucunda 20Hz ile sınırlandırılmamıştır. Yeterince büyük bir boru organı, 16Hz ton üretebilir ve CD kolayca çoğaltabilir. Bazı organlar 8Hz'e düşer ve bu da bireysel titreşimler olarak algılanmaya başlar, ancak CD yeniden üretilebilir.
user207421

"Dikte" hariç, yorumunuzla aynı fikirdeyim (bu bir "if" durumu). Nereden saptığımı gösterebilir misin?
Laurent Duval

1
@ LaurentDuval 'ın cevabına sadece bir ekim var. Genel olarak konuşma, müzik ve ses durağan olmayan sinyallerdir. Bunlar etkili bir şekilde bant sınırlamasına rağmen, insan kulağının sürekli zaman sinyalini ses algılamamızı kolaylaştıran sinir atışlarına nasıl dönüştürdüğünü henüz bilmiyoruz. Genellikle bazı insanların “altın kulaklara” sahip olduğu ve 44.1 kHz ile 96 kHz kayıt arasında fark yaratabileceği tartışılmaktadır. Ayrıca, aşağıdakileri henüz teyit etmedim, daha yüksek örnekleme oranları, binoral kayıtlarda yerelleştirme gibi ek ipuçlarının algılanmasına yardımcı oluyor.
7'de

0

Neden tam olarak 44,1 kHz olduğu zaten cevaplandı - ancak sorunuzu insan algısı sınırına ilişkin yönüne odaklamak için sebep oldukça basit.

Zaman içindeki çözünürlük, algılanabilir sınırlara kadar tüm olası dalga formlarını üretebilecek kadar iyi olmalıdır. Örnekleme teoremine göre , çözünürlük örnekleme frekansının bu frekansın en az iki katı olacağı şekilde olmalıdır. Sezgisel olarak, en yüksek frekansta, sinyalinizin maksimumunu ve minimumunu temsil etmek için en az 2 noktaya ihtiyacınız vardır - bu Ascii-art kare dalgasını verir:

_   _
 |_| |_

-1

Bir sinyali güvenilir bir şekilde çoğaltmak için, örnekleme hızı ne kadar yüksekse o kadar iyidir. ~ 40 kHz seçildi, çünkü çoğu insan için (yeniden yapılandığında) farkı söyleyemediği düşük bir örnekleme oranıydı. Ses örneklemesi yapıldığında, bellek ve depolama pahalıydı ve daha yüksek örnekleme oranları ucuza mümkün değildi.

İnsanın işitme duyusunun üst sınırının iki katında, döngü başına iki örnek, yeniden örnekleme sinyalleri için Nyquist kriterlerini karşılasa bile, yeniden yapılanma çok düşüktür, döngü başına iki örnek içeren bir sinüs dalgasını gösteren döngüsel örnek gösteren basit bir çizelge bir dalga biçimini çoğaltırken. Kelimenin tam anlamıyla bir sinüs dalgasını kare dalgaya dönüştürebilirsiniz; 20 kHz'de kimsenin söyleyemediği bir şey. Bahse girerim bir köpek yapabilir.

Sitemizi kullandığınızda şunları okuyup anladığınızı kabul etmiş olursunuz: Çerez Politikası ve Gizlilik Politikası.
Licensed under cc by-sa 3.0 with attribution required.