Maximale Audioverzögerung, bevor der Player dies bemerkt?
38
Was ist die maximale Verzögerung für die Audiowiedergabe bei einem bestimmten Ereignis in einem Spiel, die der Player dem Ereignis ordnungsgemäß zuordnet (und die Verzögerung nicht wahrnimmt)?
Nicht viel. Ich denke, es muss weniger als 1/10 Sekunde sein. Ich persönlich würde es vielleicht bemerken, wenn es mehr als ein paar Frames mit 60 FPS wären.
Almo
Vergessen Sie nicht, dass die gerenderte Ausgabe in den meisten Fällen auch Verzögerungen aufweist, von denen einige vom Monitor stammen. Es kann über 100 ms dauern, bis das Ergebnis der Spielereingabe auf dem Bildschirm angezeigt wird. Siehe anandtech.com/show/2803
Adam,
1
Es sind ungefähr 20 Millisekunden, wenn Sie ein Instrument spielen, und ungefähr 80 Millisekunden, wenn Sie zuhören. Dies ist nur meine persönliche Erfahrung, Ihre Laufleistung kann variieren.
rwols
Mehr als jede bestimmte Zeit, die Sie brauchen, um Konstanz zu erreichen. Solange alles die gleiche Verzögerung hat, kannst du im Rahmen der Vernunft sein. Wenn alles 100ms zu spät ist, werden Sie es vielleicht nicht wirklich bemerken, aber wenn einige Geräusche fast sofort zu hören sind und der Rest 100ms oder etwas dazwischen ist, werden Sie bemerken.
0xFADE
Wenn Sie in irgendeiner Weise an einem realistischen Verhalten interessiert sind, können Sie Verzögerungen bei Ereignissen, die weit vom Zuhörer entfernt sind, als etwas Positives betrachten.
Darkwings
Antworten:
48
Das folgende Ergebnis wird für die Lippensynchronisation berechnet, die als "der auffälligste A / V-Synchronisationsfehler" eingestuft wird .
Für Fernsehanwendungen sollte Audio dem Video um nicht mehr als 15 Millisekunden und dem Video um nicht mehr als 45 Millisekunden nacheilen. Für einen Film wird angenommen, dass eine akzeptable Lippensynchronisation in keiner Richtung länger als 22 Millisekunden ist.
Die Ergebnisse des Experiments ergaben, dass der durchschnittliche Audio-Leading-Schwellenwert für die A / V-Sync-Erkennung 185,19 ms betrug, mit einer Standardabweichung von 42,32 ms
Auf den ersten Blick wirkt es locker: +90 ms bis -185 ms als „Fenster der Akzeptanz“
und
Nicht erkennbar von -100 ms bis +25 ms
Erkennbar bei -125 ms & +45 ms
Wird bei -185 ms & +90 ms inakzeptabel
(- Sound verzögert, + Sound erweitert)
Schlussfolgern
Die Ergebnisse sind nicht so weit voneinander entfernt. Es scheint, dass die maximal zulässige Verzögerung bei etwa 150 ms liegt, was 9 Bildern bei 60 Bildern pro Sekunde entspricht.
"Wenn Sie eine Verzögerung haben, sollte das Video verzögert sein." Es scheint, dass es umgekehrt sein sollte. Der ATSC-Artikel besagt eindeutig, dass Menschen Geräusche erwarten / tolerieren, die etwas nach dem Sehen auftreten (da Geräusche im wirklichen Leben dem Sehen um ca. 1 ms pro Fuß Abstand nacheilen), Ereignisse jedoch nicht richtig zuordnen wenn nach dem Ton ein Videoereignis auftritt.
Peteris
Du hast recht, ich habe es völlig falsch verstanden. Vielen Dank. (Ich bearbeitet)
Heckel
1
Ich kann Ihnen aus eigener Erfahrung sagen, dass dies bei ein und derselben Person sogar zwischen den Ohren variiert. Ich habe eine seltene vestibuläre Erkrankung, die mein Gehirn tatsächlich dazu veranlasst, die auditive Stimulation in meinem linken Ohr messbar verzögert im Vergleich zum rechten Ohr zu verarbeiten. An einem schlechten Tag führt dies zu Schwindel, aber die meiste Zeit ist es erträglich. Also ja, das ist extrem subjektiv.
Andon M. Coleman
Woher bekommst du 150ms? Ihre Quellen liegen eindeutig im Durchschnitt bei 45 ms.
Miles Rout
Wikipedia sagt 45 ms, aber es ist nicht unbedingt die zuverlässigste Quelle. Die zweite Quelle sagt 185,19 ms und die dritte 125 ms, bis es bemerkbar wird. Können Sie mir die Quelle nennen, um zu verstehen, wo ich falsch liege?
Heckel
9
Es kommt auf das Ereignis an
Das Gefühl, dass beispielsweise eine Explosion, die Sie sehen und hören, ein einzelnes Ereignis ist, hat die Toleranzen, die in anderen Antworten beschrieben sind - nicht mehr als ~ 50 ms; Einige Leute sind möglicherweise empfindlicher (z. B. Musiker), daher würde ich vorschlagen, auf 30 ms oder nicht mehr als 2 Frames bei 60 fps zu zielen.
Ich glaube, dass die wahrgenommene Distanz diese Toleranzen beeinflussen sollte. Die Menschen erwarten, dass weit entfernte Geräusche leicht verzögert werden, da sie im wirklichen Leben um ungefähr 1 ms pro Fuß Entfernung hinter der Sicht liegen. Eine Explosion auf einer verkleinerten RTS-Karte kann daher eine größere Toleranz für Tonverzögerungen aufweisen, als wenn der Spieler seine eigene Waffe mit einem FPS abfeuert.
Spezielle Fälle, wie das richtige Gefühl für ein Musik- / Rhythmusspiel, erfordern möglicherweise viel engere Toleranzen von 15 bis 20 ms oder sogar weniger - zum Beispiel, wenn der Spieler beide "Eingabeaktionen" hört, z Kunststoffinstrument und auch ein Sound, der von Ihrem System für dasselbe Ereignis erzeugt wird. Bei einer Verzögerung von 50 ms werden die Sounds "original" und "gespielt" komisch gemischt.
Denken Sie außerdem an die Verzögerung zwischen dem Start der Audiodatei und dem "Ereignis" in dieser Audiodatei. In vielen Audioclips ist das "Ereignis" nicht direkt am Rande, es kann ein Blitzgeräusch auftreten Streik, bei dem der "Streik" 200 ms nach dem Beginn stattfindet, was für alle offensichtlich ist, und so gut wie alle Sounddateien, selbst ein Schlagzeug-Hit, werden eine gewisse Verzögerung haben.
Messen Sie keine Durchschnittswerte - sehen Sie sich den schlimmsten Fall an
Sehen und Hören sind in der menschlichen Wahrnehmung tief verbunden, und wenn einer von ihnen relativ zum anderen stottert, ist dies wahrnehmbar. Es ist nicht in Ordnung, wenn die meiste Zeit sehr schnell ist, aber gelegentlich gibt es eine Verzögerung von 0,2 Sekunden, während etwas geladen wird - die Leute werden solche Situationen bemerken. Aus diesem Grund wird Audio häufig in einem separaten Thread ausgeführt, der von den anderen Aktivitäten isoliert ist, und es werden nur schnelle Benachrichtigungen darüber angezeigt, welche vorinstallierten Clips abgespielt werden sollen.
Jede Situation, in der ein Spieler den Sound verursacht (Musikspiele, Pistolen in FPS), benötigt eine sehr geringe Verzögerung, da der Spieler einen Impuls gesendet hat, um dies in diesem Moment zu ermöglichen von sehr kleinen Verzögerungen. Toningenieure ärgern sich über Aufnahmeverzögerungen unter 5 msec und ruinieren den "Groove"
Das Journal der American Academy of Audiology
gibt an, dass Menschen (nicht nur Musiker), die verzögert auf ihre eigene Stimme hören, Verzögerungen von nur 3 ms bemerken und eine Verzögerung von mehr als 10 ms in 90% der Fälle zu beanstanden war.
Menschen nutzen die Zeitverzögerung zwischen ihren Ohren für Richtungsinformationen und müssen daher in der Lage sein, Informationen aus Verzögerungen unter 1 ms zu verarbeiten und zu extrahieren
Die oben angegebenen 185.19 ms sind irrelevant, da sie sich auf einen führenden Klangfehler beziehen und auf das, was die Leute akzeptabel fanden, wenn sie passiv einen Film sahen und sich nicht aktiv an einem Spiel beteiligten.
Die hier akzeptierte Antwort behandelt hauptsächlich die Wahrnehmung der Audiosynchronisation beim passiven Anschauen von Videos. In diesen Fällen kann das Publikum nur dann genau festlegen, wann der Ton abgespielt werden soll, wenn es sich um verräterische Zeichen im Video handelt. Dies bedeutet, dass sie den Klang nur begrenzt vorwegnehmen können.
Es gibt zwei wichtige Fälle in Spielen, in denen diese Annahme mit geringer Erwartung nicht zutrifft:
Wenn der Player selbst den Ton verursacht hat (wie SamB betont), wissen sie von dem Moment an, an dem sie beabsichtigen, die Taste zu drücken, genau, wann sie den Ton erwarten.
Wenn der Sound bei einem periodischen Beat landen soll , z. B. bei Musikspielen oder mit einem tickenden Timer / Zähler, kann der Spieler mit diesem Rhythmus den nächsten Sound vorhersehen und feststellen, wenn die Zeit abgelaufen ist.
Pavageau empfiehlt die Verwendung eines Low-Level-Audio-Callbacks, um diese Art von Subframe-Präzision zu erzielen, wenn Sie ein straffes rhythmisches Gameplay dieser Art wünschen.
Bei Spielen, bei denen eine Person auf akustische Signale reagieren muss, wird jede Millisekunde, um die der Ton verzögert wird, die Reaktion der Person ebenfalls verzögert. Jemand, der nur einen Film oder eine Zwischensequenz ansieht, bemerkt möglicherweise nicht zu viel, wenn Audio und Video nicht genau synchron sind, aber es ist oft wichtig und manchmal kritisch, dass Audio mit dem synchron ist, was der Player tun soll .
Theoretisch kann alles über 50 ms wahrnehmbar sein, wenn es um die Zuordnung zu Bildern geht. Bei 25 ms können Sie einen Ton und seine Verzögerung als zwei getrennte Töne hören. Ich würde also empfehlen, dass Sie unter 50 ms bleiben und wenn Sie kann sogar bei etwas von 5 ms bis 15 ms bleiben, es wäre wirklich schön.
Diese Antwort fügt keine neuen Ratschläge hinzu, die noch nicht in den vorhandenen Antworten enthalten sind. Daher besteht die Gefahr, dass sie nur als Plug-in oder Werbung für die Kontaktinformationen Ihres Unternehmens angezeigt werden. StackExchange ist nicht für die Förderung von Diensten vorgesehen. Daher würde ich empfehlen, diesen Teil zu entfernen (die Leute können Sie immer noch anhand Ihres Benutzernamens nachschlagen) und weitere Details darüber hinzuzufügen, warum Sie bestimmte Timings empfehlen, die über die in den vorhandenen Antworten genannten hinausgehen.
DMGregory
Keine der Antworten, die wir gesehen haben, war richtig für uns. Wir sind ein Team von Toningenieuren und die Akustik ist das erste, was wir gelernt haben. Einige Antworten sprachen über 100 ms, andere sagten -100s & + 85s, wie ist das überhaupt eine Antwort? -50ms oder + 50ms es sind immer noch 50ms Unterschied zwischen der Action und dem Sound. Wir versuchen nur zu helfen, wenn unsere E-Mail so anstößig ist, dass wir sie entfernen.
X-Raysounds
Siehe zum Beispiel die Antwort von Peteris von vor 3 Jahren, die dieselbe absolute Obergrenze von 50 ms ergibt und eine niedrigere als diese Antwort empfiehlt, oder den Verweis auf das Gespräch von Mathieu Pavageau, in dem 5 ms als ideales Ziel empfohlen werden. Dies scheint die Bandbreite der in dieser Antwort enthaltenen Informationen abzudecken, es sei denn, Sie möchten die Empfehlungen erweitern. Wenn Sie beispielsweise Details aus dem Wikipedia-Link für relevant halten, sollten Sie diese zumindest im Antworttext zusammenfassen (falls sich die verknüpfte Seite in Zukunft ändert).
DMGregory
Tut mir leid, dass wir nicht alle Antworten gelesen haben, die wir übersprungen haben. Dann sagten wir, was wir wissen, und erzwangen es mit einem Wikipedia-Link Verwandte Probleme, aber wir haben nicht viel gefunden haha
X-Raysounds
Keine Bange. Das Trainieren neuer Benutzer ist einer der Gründe, warum diese Kommentare existieren. :) StackExchange-Antworten sind schnell verfügbar. Sie werden lediglich als langfristige Referenzressourcen und nicht als Forumantworten betrachtet.
Antworten:
Das folgende Ergebnis wird für die Lippensynchronisation berechnet, die als "der auffälligste A / V-Synchronisationsfehler" eingestuft wird .
Wikipedia sagt
Das Media and Acoustics Perception Lab sagt
Der ATSC sagt
und
Schlussfolgern
Die Ergebnisse sind nicht so weit voneinander entfernt. Es scheint, dass die maximal zulässige Verzögerung bei etwa 150 ms liegt, was 9 Bildern bei 60 Bildern pro Sekunde entspricht.
quelle
Es kommt auf das Ereignis an
Das Gefühl, dass beispielsweise eine Explosion, die Sie sehen und hören, ein einzelnes Ereignis ist, hat die Toleranzen, die in anderen Antworten beschrieben sind - nicht mehr als ~ 50 ms; Einige Leute sind möglicherweise empfindlicher (z. B. Musiker), daher würde ich vorschlagen, auf 30 ms oder nicht mehr als 2 Frames bei 60 fps zu zielen.
Ich glaube, dass die wahrgenommene Distanz diese Toleranzen beeinflussen sollte. Die Menschen erwarten, dass weit entfernte Geräusche leicht verzögert werden, da sie im wirklichen Leben um ungefähr 1 ms pro Fuß Entfernung hinter der Sicht liegen. Eine Explosion auf einer verkleinerten RTS-Karte kann daher eine größere Toleranz für Tonverzögerungen aufweisen, als wenn der Spieler seine eigene Waffe mit einem FPS abfeuert.
Spezielle Fälle, wie das richtige Gefühl für ein Musik- / Rhythmusspiel, erfordern möglicherweise viel engere Toleranzen von 15 bis 20 ms oder sogar weniger - zum Beispiel, wenn der Spieler beide "Eingabeaktionen" hört, z Kunststoffinstrument und auch ein Sound, der von Ihrem System für dasselbe Ereignis erzeugt wird. Bei einer Verzögerung von 50 ms werden die Sounds "original" und "gespielt" komisch gemischt.
Denken Sie außerdem an die Verzögerung zwischen dem Start der Audiodatei und dem "Ereignis" in dieser Audiodatei. In vielen Audioclips ist das "Ereignis" nicht direkt am Rande, es kann ein Blitzgeräusch auftreten Streik, bei dem der "Streik" 200 ms nach dem Beginn stattfindet, was für alle offensichtlich ist, und so gut wie alle Sounddateien, selbst ein Schlagzeug-Hit, werden eine gewisse Verzögerung haben.
Messen Sie keine Durchschnittswerte - sehen Sie sich den schlimmsten Fall an
Sehen und Hören sind in der menschlichen Wahrnehmung tief verbunden, und wenn einer von ihnen relativ zum anderen stottert, ist dies wahrnehmbar. Es ist nicht in Ordnung, wenn die meiste Zeit sehr schnell ist, aber gelegentlich gibt es eine Verzögerung von 0,2 Sekunden, während etwas geladen wird - die Leute werden solche Situationen bemerken. Aus diesem Grund wird Audio häufig in einem separaten Thread ausgeführt, der von den anderen Aktivitäten isoliert ist, und es werden nur schnelle Benachrichtigungen darüber angezeigt, welche vorinstallierten Clips abgespielt werden sollen.
quelle
Jede Situation, in der ein Spieler den Sound verursacht (Musikspiele, Pistolen in FPS), benötigt eine sehr geringe Verzögerung, da der Spieler einen Impuls gesendet hat, um dies in diesem Moment zu ermöglichen von sehr kleinen Verzögerungen. Toningenieure ärgern sich über Aufnahmeverzögerungen unter 5 msec und ruinieren den "Groove"
Das Journal der American Academy of Audiology gibt an, dass Menschen (nicht nur Musiker), die verzögert auf ihre eigene Stimme hören, Verzögerungen von nur 3 ms bemerken und eine Verzögerung von mehr als 10 ms in 90% der Fälle zu beanstanden war.
Menschen nutzen die Zeitverzögerung zwischen ihren Ohren für Richtungsinformationen und müssen daher in der Lage sein, Informationen aus Verzögerungen unter 1 ms zu verarbeiten und zu extrahieren
Die oben angegebenen 185.19 ms sind irrelevant, da sie sich auf einen führenden Klangfehler beziehen und auf das, was die Leute akzeptabel fanden, wenn sie passiv einen Film sahen und sich nicht aktiv an einem Spiel beteiligten.
quelle
Die hier akzeptierte Antwort behandelt hauptsächlich die Wahrnehmung der Audiosynchronisation beim passiven Anschauen von Videos. In diesen Fällen kann das Publikum nur dann genau festlegen, wann der Ton abgespielt werden soll, wenn es sich um verräterische Zeichen im Video handelt. Dies bedeutet, dass sie den Klang nur begrenzt vorwegnehmen können.
Es gibt zwei wichtige Fälle in Spielen, in denen diese Annahme mit geringer Erwartung nicht zutrifft:
Wenn der Player selbst den Ton verursacht hat (wie SamB betont), wissen sie von dem Moment an, an dem sie beabsichtigen, die Taste zu drücken, genau, wann sie den Ton erwarten.
Wenn der Sound bei einem periodischen Beat landen soll , z. B. bei Musikspielen oder mit einem tickenden Timer / Zähler, kann der Spieler mit diesem Rhythmus den nächsten Sound vorhersehen und feststellen, wenn die Zeit abgelaufen ist.
In diesem Vortrag von GDC 2013 argumentiert Mathieu Pavageau, dass Spieler Unterschiede in der Synchronisationspräzision oberhalb von etwa 5 ms wahrnehmen können , viel weniger verzeihend als die Beispiele aus der Lippensynchronisation vermuten lassen. Lesen Sie die Abschnitte "Beispiele zur Zeitwahrnehmung" und "Beispiel für Ubisoft-Spiele", um sich selbst davon zu überzeugen. Sie können hören, dass das Rayman Origins-Menü nicht per se "verzögert" klingt, wenn es innerhalb von 16 ms synchronisiert wird (Videorahmen), aber wenn es innerhalb von 5 ms synchronisiert wird, klingt es merklich besser und enger.
Pavageau empfiehlt die Verwendung eines Low-Level-Audio-Callbacks, um diese Art von Subframe-Präzision zu erzielen, wenn Sie ein straffes rhythmisches Gameplay dieser Art wünschen.
quelle
Bei Spielen, bei denen eine Person auf akustische Signale reagieren muss, wird jede Millisekunde, um die der Ton verzögert wird, die Reaktion der Person ebenfalls verzögert. Jemand, der nur einen Film oder eine Zwischensequenz ansieht, bemerkt möglicherweise nicht zu viel, wenn Audio und Video nicht genau synchron sind, aber es ist oft wichtig und manchmal kritisch, dass Audio mit dem synchron ist, was der Player tun soll .
quelle
Theoretisch kann alles über 50 ms wahrnehmbar sein, wenn es um die Zuordnung zu Bildern geht. Bei 25 ms können Sie einen Ton und seine Verzögerung als zwei getrennte Töne hören. Ich würde also empfehlen, dass Sie unter 50 ms bleiben und wenn Sie kann sogar bei etwas von 5 ms bis 15 ms bleiben, es wäre wirklich schön.
Ich hoffe, dies wird dir helfen!
https://en.wikipedia.org/wiki/Delayed_Auditory_Feedback
quelle