Warum wählen wir 44,1 kHz als Aufnahmeabtastrate?

21

Die Ohren der Menschen können Geräusche hören, deren Frequenzen zwischen 20 Hz und 20 kHz liegen. Basierend auf dem Nyquist-Theorem sollte die Aufzeichnungsrate mindestens 40 kHz betragen. Ist es der Grund für die Wahl von 44,1 kHz?

new_comer_forever
quelle
4
Es wurde aus Gründen der Kompatibilität mit Videobildraten ausgewählt. Siehe en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F
Endolith
Frequenzen über 12-15.000 erhöhen den Wert nur geringfügig oder gar nicht. Die meisten über 40-Jährigen werden wenig Sinnvolles haben.
Chris Heath

Antworten:

32

Es ist wahr, dass die Wahl von 44,1 kHz wie bei jeder Konvention ein historischer Unfall ist. Es gibt einige andere historische Gründe.

Natürlich muss die Abtastrate 40 kHz überschreiten, wenn Sie eine hohe Audioqualität mit einer Bandbreite von 20 kHz wünschen.

Es wurde diskutiert, 48,0 kHz zu erzeugen (es stimmte gut mit 24 Bildern / Sekunde und den angeblichen 30 Bildern / Sekunde im nordamerikanischen Fernsehen überein), aber angesichts der physischen Größe von 120 mm gab es eine Grenze für die Datenmenge Die CD kann gespeichert werden, und da ein Fehlererkennungs- und -korrekturschema erforderlich ist und eine gewisse Datenredundanz erforderlich ist , entspricht die Menge der auf der CD gespeicherten logischen Daten (etwa 700 MB) etwa der Hälfte der Menge der physischen Daten. Angesichts all dessen, mit einer Frequenz von 48 kHz, wurde uns mitgeteilt, dass es nicht alle 9 von Beethoven halten könne, sondern dass es die gesamte 9 mit einer etwas langsameren Geschwindigkeit auf einer Scheibe halten könne . Also 48 kHz ist raus.

Warum immer noch 44,1 und nicht 44,0 oder 45,0 kHz oder eine nette runde Zahl?

Damals gab es in den späten 1970er Jahren ein Produkt namens Sony F1 , mit dem digitales Audio auf ein sofort verfügbares Videoband (Betamax, nicht VHS) aufgezeichnet werden konnte. Das war bei 44,1 kHz (oder genauer 44,056 kHz). Auf diese Weise können Aufnahmen ohne Neuabtastung und Interpolation einfach von F1 auf CD oder in die andere Richtung übertragen werden.

Mein Verständnis, wie es dahin kommt, ist, dass die horizontale Abtastrate von NTSC-TV 15,750 kHz betrug und 44,1 kHz genau das 2,8-fache ist. Ich bin mir nicht ganz sicher, aber ich glaube, das bedeutet, dass Sie drei Stereo-Sample-Paare pro horizontaler Zeile haben können, und für jeweils fünf Zeilen, bei denen Sie normalerweise 15 Samples hätten, gibt es 14 Samples plus ein zusätzliches Sample für einige Paritätsprüfung oder Redundanz in der F1. 14 Abtastungen für 5 Zeilen entsprechen 2,8 Abtastungen pro horizontaler Zeile, und bei 15.750 Zeilen pro Sekunde ergeben sich 44.100 Abtastungen pro Sekunde.

Seit Einführung des Farbfernsehens musste die horizontale Zeilenrate leicht auf 15734 Zeilen pro Sekunde gesenkt werden. Diese Anpassung führt zu den 44.056 Abtastungen pro Sekunde in der Sony F1.

Robert Bristow-Johnson
quelle
8

Schauen Sie sich zum Beispiel http://www1.cs.columbia.edu/~hgs/audio/44.1.html an. Sie sollten aufgrund von Anti-Aliasing-Filtern eine Abtastrate von mehr als 40 kHz verwenden. Sie sollten eine gewisse Frequenzreserve haben, um eine Signalverzerrung aufgrund der Ansprechflanke des Filters zu vermeiden. Der tatsächliche Wert von 44,1 kHz wurde von der Sony Corporation vorgeschlagen, als der Audioaufnahmestandard 1979 diskutiert wurde. Sie verwendeten diese Rate für diesen Moment weit verbreitet.

Es ist also im Allgemeinen ein historischer Grund.

Serj
quelle
6

Beim Übergang zu digitalen Formaten wurden Audiodaten in einer Pseudo-Video-Wellenform gespeichert, die entweder als schwarz oder weiß (als Darstellung des Binärformats) angesehen werden konnte.

Die vom Fernsehstandard verwendete Halbbildrate und -struktur ist für 60-Hz-Video wie folgt: 245 Zeilen pro Halbbild (ausgenommen die ersten 35 ausgeblendeten Zeilen). Mit drei Abtastwerten pro Zeile ergibt dies 60 x 245 x 3 = 44100 = 44,1 kHz.

Diese Konvention wurde später aus Gründen der Gerätekompatibilität für das CD-Format verwendet (das allererste Gerät, das zur Herstellung von CD-Mastern für die CD-Replikation verwendet wurde, war videobasiert).

Quelle: Die Kunst der Klangwiedergabe, S. 228

mhbuur
quelle
wenn das ist, was die F1 tut, muss ich sagen "ich stehe korrigiert". Ich nahm an, dass die F1 die Leerzeilen verwendete.
Robert Bristow-Johnson
hi, ich habe gerade gelesen, dass "NTSC-Farbcodierung für das System M-Fernsehsignal verwendet wird, das aus 30 / 1.001 (ungefähr 29,97) verschachtelten Videoframes pro Sekunde besteht. Jedes Frame besteht aus zwei Halbbildern, die jeweils aus 262,5 bestehen Abtastzeilen für insgesamt 525 Abtastzeilen. 483 Abtastzeilen bilden das sichtbare Raster. Der Rest (das vertikale Austastintervall) ermöglicht die vertikale Synchronisation und Rückverfolgung. "
Sogar 490 Zeilen verwenden einige der (ursprünglichen NTSC-) Leerzeilen.
Robert Bristow-Johnson
0

Es scheint, dass die Hörgrenze für Menschen viel höher als 20 kHz sein könnte, wenn man sie aus der Perspektive der "dynamischen" Zeitauflösung betrachtet, anstatt der typischen statischen Sinuswellen. Interessante Kommentare zur Spanne zwischen 20 kHz und 22 kHz für die Rekonstruktionsfilterung. Tatsächlich gab es von Peter Craven eine interessante Arbeit zur zeitdomänenoptimierten Filterung, die für mindestens 96 kHz für die HiFi-Wiedergabe spricht.

Pawel

Pawel
quelle
Nun, es gibt einen Weg, das herauszufinden. Es heißt Blind AB Testing . muss nicht doppelt blind sein (ist es aber normalerweise). und AB-Tests sind meiner Meinung nach besser als ABX-Tests.
Robert Bristow-Johnson
0

https://en.wikipedia.org/wiki/44,100_Hz#Why_44.1_kHz.3F Das Nyquist-Shannon-Abtasttheorem besagt, dass die Abtastfrequenz größer sein muss als das Doppelte der maximalen Frequenz, die reproduziert werden soll. Da der menschliche Hörbereich etwa 20 Hz bis 20.000 Hz beträgt, musste die Abtastrate größer als 40 kHz sein.

Außerdem müssen die Signale vor dem Abtasten tiefpassgefiltert werden, um ein Aliasing zu vermeiden. Während ein ideales Tiefpassfilter Frequenzen unter 20 kHz perfekt durchlassen würde (ohne sie zu dämpfen) und Frequenzen über 20 kHz perfekt abschneiden würde, ist ein solches ideales Filter theoretisch unmöglich (es ist nicht kausal), so dass in der Praxis ein Übergangsband notwendig ist. wo Frequenzen teilweise gedämpft sind. Je breiter dieses Übergangsband ist, desto einfacher und wirtschaftlicher ist es, ein Anti-Aliasing-Filter zu erstellen. Die Abtastfrequenz von 44,1 kHz ermöglicht ein Übergangsband von 2,05 kHz.

Außerdem ist 44.100 das Produkt der Quadrate der ersten vier Primzahlen (2 ^ 2 * 3 ^ 2 * 5 ^ 2 * 7 ^ 2) und hat daher viele nützliche kleine Faktoren.

Zhong
quelle
Wenn wir also unsere Zeiteinheit von der Sekunde auf die "Farg" ändern , die 1,001 Sekunden beträgt, was macht das dann mit dem 44100 und seinen vielen nützlichen kleinen Faktoren?
Robert Bristow-Johnson
-2

Eine Beschreibung finden Sie unter [ http://batmobile.blogs.ilrt.org/audio-analysis-on-an-iphone] . Ein Theorem, das Nyquist-Abtasttheorem genannt wird, besagt, dass Sie zum Abtasten eines Signals mit X Hz ohne signifikanten Qualitätsverlust die Frequenz mit 2X abtasten müssen. Die Grenze des menschlichen Gehörs liegt bei ungefähr 20 kHz, was eine Abtastrate von ungefähr 40 kHz erfordert. Aus diesem Grund werden CDs mit 44 kHz abgetastet. Das heißt, jede Sekunde der Aufnahme auf einer CD enthält 44.000 Messungen mit der höchstmöglichen Frequenz, die in der Aufnahme enthalten ist.

aash ma
quelle
Nun, nicht wirklich deswegen ...
Jojek
Es liegt teilweise daran. Menschen hören selten mehr als 20k, daher liegt der audiophile Bereich einigermaßen leicht über 40kHz, dh 42, 43, 44. Wenn Sie jemanden mit großen Sinuswellen bei 22k schlagen, hat nur ein Kind die Chance, ihn zu hören. Fledermäuse haben eine Frequenz von 115 kHz und einige Delfine eine Frequenz von 150 kHz, außer im Wasser, was klarer klingt. Testen Sie Ihre Hochfrequenzwahrnehmung online mit Aufzeichnungen ... dh hier audiocheck.net/audiotests_frequencycheckhigh.php
com.prehensible