Fotorealistisches Rendern hat das Ziel, ein Bild so zu rendern, wie es eine echte Kamera erfassen würde. Obwohl dies bereits ein ehrgeiziges Ziel ist, möchten Sie es in bestimmten Szenarien vielleicht weiterentwickeln: Rendern Sie ein Bild so, wie es das menschliche Auge erfassen würde oder sogar so, wie der Mensch es wahrnehmen würde. Man könnte es visiorealistisches oder perzeptiorealistisches Rendering nennen , aber wenn jemand einen eingängigeren Begriff finden könnte (oder mir sagen würde, dass es bereits einen gibt), würde ich das begrüßen.
Hier sind einige Beispiele, um meinen Standpunkt klar zu machen. Wenn Sie ein Bild mit einer Kamera bei schwacher Beleuchtung aufnehmen, haben Sie entweder ein gutes Objektiv oder ein verrauschtes Bild. Für einen menschlichen Beobachter setzt das skotopische Sehen ein und verursacht den Purkinje-Effekt (Farben werden in Richtung Blau verschoben). Dieser Effekt hängt von den HDR-Luminanzinformationen ab, die verloren gehen, wenn ich das Bild auf einem LDR-Display anzeige. Darüber hinaus kann das menschliche Gehirn Tiefeninformationen verwenden, um das wahrgenommene Bild zu "filtern" - Informationen, die bei einer endgültigen (nicht-Stereo) Wiedergabe verloren gehen.
Das Zusammenstellen einer vollständigen Liste ist wahrscheinlich ein schwer fassbares Ziel. Könnten Sie einige der Wirkungen des Auges und des Gehirns vorschlagen, die ich berücksichtigen müsste?
quelle
Antworten:
Es gibt zwei Möglichkeiten, dies zu interpretieren. Ich mache beides.
Interpretation 1: Rendern Sie ein Bild, das perzeptuell realistisch aussieht.
Am Ende des Tages muss Ihr Bild noch irgendwo angezeigt werden . Hier ist der Schlüssel: Sie möchten Ihr Bild so rendern, dass es beim * Anzeigen * dieses Bildes auf einem bestimmten Anzeigegerät die gleiche Empfindung erzeugt, die das ursprüngliche radiometrische Bild erzeugt hätte.
So packen Sie diese Idee aus.
In der realen Welt gelangen radiometrische Spektren (dh reale Lichtverteilungen) in Ihr Auge und stimulieren ungefähr 1 bis 4 Lichtrezeptoren. Die Stimulation der Rezeptoren erzeugt die Farbempfindungen, die wir mit Bildern assoziieren.
Beim Rendern haben wir keine willkürliche Kontrolle über die von uns erzeugten Spektren. Da wir (normalerweise) nur drei Kegel haben, von denen jeder nur einen skalaren Wert erzeugt, kann das Farbsehen glücklicherweise unter Verwendung von genau drei Primärfarben reproduziert werden. Die Quintessenz ist, dass Sie jedes Farbempfinden erzeugen können , indem Sie nur eine lineare Kombination von drei Wellenlängen verwenden (bis zu ein paar Farben, die möglicherweise negativ sein müssen, in diesem Fall verwenden Sie nur verschiedene Primärfarben).
Sie haben keine Wahl zwischen Vorwahlen. Fast alle Farbdisplays verwenden den sRGB-Standard, der drei Primärfarben (die normalerweise keine einzige Wellenlänge haben) bereitstellt. Das ist in Ordnung, denn es stellt sich heraus, dass alles abstrahiert ist und Sie sich nicht darum kümmern müssen.
Der folgende Algorithmus verdeutlicht die Unordnung bei der wahrnehmungsgetreuen Wiedergabe:
Interpretation 2: Versuchen Sie, die Enddaten zu simulieren, die das menschliche Auge möglicherweise zu Visualisierungszwecken oder zur Kompensation von LDR-Anzeigen erhält.
Dieser hat eine weniger nützliche Bedeutung, denke ich. Im Wesentlichen versuchen Sie, ein Bild zu erstellen, das die Art und Weise, wie das Gehirn es wahrnimmt, aus Spaß und Gewinn optimiert.
Zum Beispiel gab es dieses Jahr auf der SIGGRAPH ein Papier, in dem Nachbilder und Farbreduzierungen simuliert wurden, um die Wahrnehmung von Bildern zu verändern. Natürlich ist der einzige Grund, warum sie dies überhaupt tun, der, dass die Displays, mit denen wir arbeiten, alle Low Dynamic Range (LDR) sind. Der Punkt ist, die Effekte zu simulieren, die jemand sehen könnte, wenn er einer HDR-Anzeige (Real High Dynamic Range) als tatsächliche Bilddaten ausgesetzt wird.
In der Praxis stellt sich heraus, dass dies nicht sehr gut funktioniert. Für Nachbilder sehen wir zum Beispiel Nachbilder aufgrund eines sehr hellen Reizes, der die Farbzellen erschöpft. Wenn Sie stattdessen versuchen, den Effekt mit einem gefälschten Nachbild zu stimulieren, sieht es möglicherweise ähnlich aus - aber da es sich um einen völlig anderen Mechanismus handelt, ist es nicht sehr überzeugend.
Diese Art von Grafik ist in der Literatur tatsächlich untererforscht, wenn Sie es ausprobieren möchten. Das erwähnte Papier ist ein Beispiel für mehr oder weniger die modernsten Ansätze, die wir haben. Ich bin jedoch der Meinung, dass es sich derzeit nicht wirklich lohnt, zu simulieren (zumindest zu diesem Zeitpunkt), da Sie im besten Fall echte Vision-Effekte nur durch Ersetzen verschiedener Effekte approximieren würden und dies nicht wirklich der Fall ist Arbeit.
1 Stange + 3 * Zapfen, der übliche Fall. Ungefähr, weil Menschen möglicherweise nur null funktionierende Lichtrezeptoren haben, bis zu einem mutmaßlichen Maximum von sieben (wobei das höchste jemals beobachtete Maximum fünf beträgt).
quelle
In Bezug auf die Wahrnehmung stellt sich auch die Frage, wofür wir (in Bezug auf Eigenschaften oder Artefakte) fast blind sind und was wir für die Wahrnehmung erzwungen haben.
In Bezug auf den Klang haben Sie beispielsweise Kontraste oder Frequenzen, die Sie weniger oder gar nicht auf andere Inhalte aufmerksam machen (ein altes SIGGRAPH-Papier zeigt, wie Texturen die Netzauflösung maskieren können), sowie alle Zeitaspekte (Google für "Blindheit ändern"). In ähnlicher Weise können Details der Oberfläche, Normalen, BRDF in Abhängigkeit von Werten und relativen Werten gesehen werden oder auch nicht.
Da unser Wahrnehmungssystem dazu neigt, sich lokal und global anzupassen, ist es für niederfrequente Werte wichtig, Maxima und Minima an den richtigen Stellen zu haben, aber ihr genauer Wert wird nicht wirklich bemerkt.
Manchmal kann es sein, dass Erkenntnis dazu da ist, wie Sie viele Fehler in Wolken und Bäumen zulassen, aber sicherlich weniger in menschlichen Gesichtern. (Manchmal kann es sein, dass Sie eine Herabstufung auf die Statistik der Parameter für eine bestimmte Kategorie vornehmen.)
Deshalb benutze ich lieber das Wort "plausibel" als "fotorealistisch".
Im Gegensatz dazu sind wir äußerst empfindlich gegenüber Artefakten wie falschen Pixeln oder flackernden Pixeln, äußerst empfindlich gegenüber Korrelationen wie Fehlerfronten mit nur 1 Graustufe, unerwünschten Mustern wie Moiré, Aliasing oder schlechtem Zufall usw.
Übrigens ist es einer der Gründe, warum optimierungsbasierte Lösungen, die alles in einer einfachen Energie zusammenfassen, eine sehr schlechte Idee sein können, da dies in allen paradoxen Situationen zu einer Konzentration von Fehlern in Linien oder Punkten führen kann. Aus dem gleichen Grund waren frühe globale Beleuchtungskünstler wirklich enttäuscht darüber, dass energiegenaue Lösungen weniger akzeptiert wurden als geglättete ungefähre Schatten (und kamen dann von Quad-Tree-basierten zu Mesh-basierten adaptiven Methoden).
Eine (recht allgemeine) Übersicht über die Wahrnehmung von Grafiken finden Sie in diesem SigAsia'11-Kurs zum Thema "Wahrnehmung in Grafiken, Visualisierung, virtuellen Umgebungen und Animation".
quelle