Realistisches Rendering: Welche Prozesse des menschlichen Auges und Gehirns muss ich berücksichtigen?

Fotorealistisches Rendern hat das Ziel, ein Bild so zu rendern, wie es eine echte Kamera erfassen würde. Obwohl dies bereits ein ehrgeiziges Ziel ist, möchten Sie es in bestimmten Szenarien vielleicht weiterentwickeln: Rendern Sie ein Bild so, wie es das menschliche Auge erfassen würde oder sogar so, wie der Mensch es wahrnehmen würde. Man könnte es visiorealistisches oder perzeptiorealistisches Rendering nennen , aber wenn jemand einen eingängigeren Begriff finden könnte (oder mir sagen würde, dass es bereits einen gibt), würde ich das begrüßen.

Hier sind einige Beispiele, um meinen Standpunkt klar zu machen. Wenn Sie ein Bild mit einer Kamera bei schwacher Beleuchtung aufnehmen, haben Sie entweder ein gutes Objektiv oder ein verrauschtes Bild. Für einen menschlichen Beobachter setzt das skotopische Sehen ein und verursacht den Purkinje-Effekt (Farben werden in Richtung Blau verschoben). Dieser Effekt hängt von den HDR-Luminanzinformationen ab, die verloren gehen, wenn ich das Bild auf einem LDR-Display anzeige. Darüber hinaus kann das menschliche Gehirn Tiefeninformationen verwenden, um das wahrgenommene Bild zu "filtern" - Informationen, die bei einer endgültigen (nicht-Stereo) Wiedergabe verloren gehen.

Das Zusammenstellen einer vollständigen Liste ist wahrscheinlich ein schwer fassbares Ziel. Könnten Sie einige der Wirkungen des Auges und des Gehirns vorschlagen, die ich berücksichtigen müsste?

human-vision David Kuri
quelle

Ich habe einmal gehört, dass wir das gleiche Rauschen haben wie Kameras, weil das Rauschen physisch und nicht nur elektrisch ist. (dh es gibt doch nicht so viele Photonen). Aber das Gehirn löscht es mit temporalem Antialiasing, wie ich finde. (dh wir sehen nachts mit viel Bewegungsunschärfe).

v.oddou

Ich verstehe die Idee nicht ganz. Wenn Sie ein Bild bei schlechten Lichtverhältnissen rendern und einen Purkinje-Effekt simulieren, wird es nicht realistisch aussehen, da das menschliche Auge seinen eigenen Effekt hinzufügt, oder?

Yves Daoust

@YvesDaoust Da das Bild auf einem LDR-Monitor bei unbekannten Lichtverhältnissen angezeigt wird, wahrscheinlich nicht. Einfach ausgedrückt, das auf dem Bildschirm angezeigte Bild wird heller, so dass es leichter wahrgenommen werden kann. Wenn wir einen HDR-Monitor verwenden und die Luminanzwerte einer Nachtszene exakt wiedergeben könnten (und einen ansonsten dunklen Raum hätten), haben Sie Recht.

David Kuri

Es ist nichts Falsches daran, wonach Sie streben, aber ich fürchte, dass mir dies ein bisschen zu umfassend erscheint, da es so viele Effekte gibt, die wir berücksichtigen müssen. Ich konnte das nicht im SE-Format schreiben, da es ja falsch wäre. Wenn Sie Ihren Bereich jedoch ein wenig wie "Können Sie einige der Effekte vorschlagen , die ich berücksichtigen müsste " anpassen, ist es einfacher, zu beginnen.

Joojaa

@joojaa Ich habe die Fragen wie von dir vorgeschlagen geändert, danke.

David Kuri

Antworten:

Vielleicht möchten Sie es weiterentwickeln: Rendern Sie ein Bild so, wie es das menschliche Auge erfassen würde, oder sogar so, wie es der Mensch wahrnehmen würde.

Es gibt zwei Möglichkeiten, dies zu interpretieren. Ich mache beides.

Interpretation 1: Rendern Sie ein Bild, das perzeptuell realistisch aussieht.

Am Ende des Tages muss Ihr Bild noch irgendwo angezeigt werden . Hier ist der Schlüssel: Sie möchten Ihr Bild so rendern, dass es beim * Anzeigen * dieses Bildes auf einem bestimmten Anzeigegerät die gleiche Empfindung erzeugt, die das ursprüngliche radiometrische Bild erzeugt hätte.

So packen Sie diese Idee aus.

In der realen Welt gelangen radiometrische Spektren (dh reale Lichtverteilungen) in Ihr Auge und stimulieren ungefähr ^{1 bis} 4 Lichtrezeptoren. Die Stimulation der Rezeptoren erzeugt die Farbempfindungen, die wir mit Bildern assoziieren.

Beim Rendern haben wir keine willkürliche Kontrolle über die von uns erzeugten Spektren. Da wir (normalerweise) nur drei Kegel haben, von denen jeder nur einen skalaren Wert erzeugt, kann das Farbsehen glücklicherweise unter Verwendung von genau drei Primärfarben reproduziert werden. Die Quintessenz ist, dass Sie jedes Farbempfinden erzeugen können , indem Sie nur eine lineare Kombination von drei Wellenlängen verwenden (bis zu ein paar Farben, die möglicherweise negativ sein müssen, in diesem Fall verwenden Sie nur verschiedene Primärfarben).

Sie haben keine Wahl zwischen Vorwahlen. Fast alle Farbdisplays verwenden den sRGB-Standard, der drei Primärfarben (die normalerweise keine einzige Wellenlänge haben) bereitstellt. Das ist in Ordnung, denn es stellt sich heraus, dass alles abstrahiert ist und Sie sich nicht darum kümmern müssen.

Der folgende Algorithmus verdeutlicht die Unordnung bei der wahrnehmungsgetreuen Wiedergabe:

Rendern Sie Ihr Bild mit korrekten radiometrischen Berechnungen. Sie verfolgen einzelne Wellenlängen des Lichts oder Schaufeln von Wellenlängen. Was auch immer. Am Ende haben Sie ein Bild, das eine Darstellung des Spektrums hat, das an jedem Punkt empfangen wurde.
An jedem Pixel nehmen Sie das von Ihnen gerenderte Spektrum und konvertieren es in den CIE XYZ-Farbraum . Dies hat zur Folge, dass das Produkt des Spektrums in die Standardbeobachterfunktionen integriert wird (siehe CIE XYZ-Definition) .
Dies erzeugt drei Skalarwerte, die die CIE XYZ-Farben sind.
Verwenden Sie eine Matrixtransformation, um dies in lineares RGB zu konvertieren, und verwenden Sie dann eine Linear / Power-Transformation, um lineares RGB in sRGB zu konvertieren .
Konvertieren Sie von Fließkomma zu uint8 und speichern Sie Werte außerhalb des Bereichs (Ihr Monitor kann sie nicht darstellen).
Senden Sie die uint8-Pixel an den Framebuffer.
Die Anzeige nimmt die sRGB-Farben auf und führt die inverse Transformation durch, um drei Primärfarben mit bestimmten Intensitäten zu erzeugen. Jedes skaliert die Ausgabe des Bildelements, für das es verantwortlich ist. Die Bildelemente leuchten auf und erzeugen ein Spektrum. Dieses Spektrum wird (hoffentlich) ein Metamer für das von Ihnen gerenderte ursprüngliche Spektrum sein.
Sie nehmen das Spektrum so wahr, wie Sie das gerenderte Spektrum wahrgenommen hätten.

Interpretation 2: Versuchen Sie, die Enddaten zu simulieren, die das menschliche Auge möglicherweise zu Visualisierungszwecken oder zur Kompensation von LDR-Anzeigen erhält.

Dieser hat eine weniger nützliche Bedeutung, denke ich. Im Wesentlichen versuchen Sie, ein Bild zu erstellen, das die Art und Weise, wie das Gehirn es wahrnimmt, aus Spaß und Gewinn optimiert.

Zum Beispiel gab es dieses Jahr auf der SIGGRAPH ein Papier, in dem Nachbilder und Farbreduzierungen simuliert wurden, um die Wahrnehmung von Bildern zu verändern. Natürlich ist der einzige Grund, warum sie dies überhaupt tun, der, dass die Displays, mit denen wir arbeiten, alle Low Dynamic Range (LDR) sind. Der Punkt ist, die Effekte zu simulieren, die jemand sehen könnte, wenn er einer HDR-Anzeige (Real High Dynamic Range) als tatsächliche Bilddaten ausgesetzt wird.

In der Praxis stellt sich heraus, dass dies nicht sehr gut funktioniert. Für Nachbilder sehen wir zum Beispiel Nachbilder aufgrund eines sehr hellen Reizes, der die Farbzellen erschöpft. Wenn Sie stattdessen versuchen, den Effekt mit einem gefälschten Nachbild zu stimulieren, sieht es möglicherweise ähnlich aus - aber da es sich um einen völlig anderen Mechanismus handelt, ist es nicht sehr überzeugend.

Diese Art von Grafik ist in der Literatur tatsächlich untererforscht, wenn Sie es ausprobieren möchten. Das erwähnte Papier ist ein Beispiel für mehr oder weniger die modernsten Ansätze, die wir haben. Ich bin jedoch der Meinung, dass es sich derzeit nicht wirklich lohnt, zu simulieren (zumindest zu diesem Zeitpunkt), da Sie im besten Fall echte Vision-Effekte nur durch Ersetzen verschiedener Effekte approximieren würden und dies nicht wirklich der Fall ist Arbeit.

¹ Stange + 3 * Zapfen, der übliche Fall. Ungefähr, weil Menschen möglicherweise nur null funktionierende Lichtrezeptoren haben, bis zu einem mutmaßlichen Maximum von sieben (wobei das höchste jemals beobachtete Maximum fünf beträgt).

imallett
quelle

Danke für deine Antwort. Ich halte es jedoch für unvollständig. Ihre Aussage aus Interpretation 1 "Sie nehmen das Spektrum so wahr, wie Sie das gerenderte Spektrum wahrgenommen hätten" ist wohl falsch. Bei der Wahrnehmung des realen Spektrums treten Effekte auf, die bei Verwendung der von Ihnen beschriebenen Konvertierung nicht eintreten (z. B. müssten Sie bei schlechten Lichtverhältnissen einen Skotop-Standardbeobachter verwenden , wie in Jameson, Hurvich: Visual Psychophysics, erwähnt). Was Sie beschrieben haben, ist die Idee des spektralen Renderns. Über Interpretation 2 möchte ich mehr erfahren. Das Papier wird ein guter Anfang sein, danke dafür.

David Kuri

In Bezug auf die Wahrnehmung stellt sich auch die Frage, wofür wir (in Bezug auf Eigenschaften oder Artefakte) fast blind sind und was wir für die Wahrnehmung erzwungen haben.

In Bezug auf den Klang haben Sie beispielsweise Kontraste oder Frequenzen, die Sie weniger oder gar nicht auf andere Inhalte aufmerksam machen (ein altes SIGGRAPH-Papier zeigt, wie Texturen die Netzauflösung maskieren können), sowie alle Zeitaspekte (Google für "Blindheit ändern"). In ähnlicher Weise können Details der Oberfläche, Normalen, BRDF in Abhängigkeit von Werten und relativen Werten gesehen werden oder auch nicht.

Da unser Wahrnehmungssystem dazu neigt, sich lokal und global anzupassen, ist es für niederfrequente Werte wichtig, Maxima und Minima an den richtigen Stellen zu haben, aber ihr genauer Wert wird nicht wirklich bemerkt.

Manchmal kann es sein, dass Erkenntnis dazu da ist, wie Sie viele Fehler in Wolken und Bäumen zulassen, aber sicherlich weniger in menschlichen Gesichtern. (Manchmal kann es sein, dass Sie eine Herabstufung auf die Statistik der Parameter für eine bestimmte Kategorie vornehmen.)

Deshalb benutze ich lieber das Wort "plausibel" als "fotorealistisch".

Im Gegensatz dazu sind wir äußerst empfindlich gegenüber Artefakten wie falschen Pixeln oder flackernden Pixeln, äußerst empfindlich gegenüber Korrelationen wie Fehlerfronten mit nur 1 Graustufe, unerwünschten Mustern wie Moiré, Aliasing oder schlechtem Zufall usw.

Übrigens ist es einer der Gründe, warum optimierungsbasierte Lösungen, die alles in einer einfachen Energie zusammenfassen, eine sehr schlechte Idee sein können, da dies in allen paradoxen Situationen zu einer Konzentration von Fehlern in Linien oder Punkten führen kann. Aus dem gleichen Grund waren frühe globale Beleuchtungskünstler wirklich enttäuscht darüber, dass energiegenaue Lösungen weniger akzeptiert wurden als geglättete ungefähre Schatten (und kamen dann von Quad-Tree-basierten zu Mesh-basierten adaptiven Methoden).

Eine (recht allgemeine) Übersicht über die Wahrnehmung von Grafiken finden Sie in diesem SigAsia'11-Kurs zum Thema "Wahrnehmung in Grafiken, Visualisierung, virtuellen Umgebungen und Animation".

Fabrice NEYRET
quelle