Wie vergleicht sich das menschliche Auge mit modernen Kameras und Objektiven?

23

Ein Ziel bei den meisten Fotografien ist es, eine Szene zu präsentieren, die dem ähnelt, was eine Person, die in diesem Moment dort gewesen war, gesehen hätte. Selbst wenn man absichtlich außerhalb davon arbeitet, ist das menschliche Sehen de facto die Basis.

Es scheint also nützlich zu sein, etwas darüber zu wissen, wie das Auge mit unserer Kameratechnologie verglichen wird. Abgesehen von Fragen der Psychologie, der Mustererkennung und der Farbwahrnehmung (denn das ist eine separate Frage!), Wie vergleicht sich das menschliche Auge mit einer modernen Kamera und einem Objektiv?

Was ist die effektive Auflösung? Sichtfeld? Maximale (und minimale) Blende? ISO-Äquivalenz? Dynamikbereich? Haben wir etwas, das der Verschlusszeit entspricht?

Welche Strukturen sind direkt analog zu Teilen einer Kamera und eines Objektivs (z. B. Pupille und Iris) und welche Merkmale sind einzigartig menschlich (oder in Kameras zu finden, aber nicht in der Biologie)?

mattdm
quelle
+1 Ich bin auch interessiert. Einige Teile der Frage wurden bereits in anderen, spezifischeren Fragen beantwortet!
JoséNunoFerreira
1
Ich habe die erste Frage gestellt, mich aber gelöscht, weil sich einige Benutzer über die Subjektivität beschwert haben. Ich bin froh, dass Sie dieselbe Frage so stellen konnten, wie sich niemand beschwert!
tomm89
1
Dies ist eine interessante Frage, aber letztendlich kommt es darauf an, Äpfel und Orangen zu vergleichen. Das menschliche Auge ist hochentwickelt, um mit den alltäglichen Situationen umzugehen, mit denen Menschen seit Tausenden von Jahren konfrontiert sind. Außerdem ist das Auge für sich genommen nicht mit einem modernen Kamera / Objektiv-System vergleichbar - Sie müssen auch das Gehirn einbeziehen (was nicht viel analoger ist). An diesem Punkt verliert die Kamera aufgrund von Anpassungsfähigkeit, Geschwindigkeit, Nützlichkeit, usw. Vergessen wir auch nicht, dass das, was eine Kamera produziert, ohne Auge / Gehirn ziemlich nutzlos ist, um es in etwas Sinnvolles zu interpretieren.
Nick
2
@ Nick - Auf jeden Fall! Das ist genau der Punkt der Frage. Vergessen Sie nicht, Äpfel und Orangen können auf viele verschiedene sinnvolle Weise zu vergleichen. Sie haben unterschiedliche Farben, einen unterschiedlichen Geschmack, eine unterschiedliche Konsistenz, unterschiedliche Wachstumsbedingungen, einen unterschiedlichen Nährwert und werden zur Herstellung verschiedener Arten von Produkten verwendet ....
mattdm
1
Diese Fragen wurden alle als nicht thematisch gekennzeichnet, aber ich bin nicht sicher, ob das stimmt. Vision ist ein Schlüsselfaktor in der Arbeit eines jeden Fotografen, und obwohl nicht jeder an diesen Themen interessiert ist, sind es viele von uns. Ich denke, es ist eine relevante Diskussion, zumal wir in diesen Foren viele technische und naturwissenschaftliche Typen haben. Die Fragen beziehen sich speziell auf Fotografie, die Leute beantworten sie und es gibt keine Stimmen, die geschlossen werden könnten.
jrista

Antworten:

11

Das menschliche Auge saugt wirklich im Vergleich zu modernen Kameraobjektiven.

Das menschliche visuelle System hingegen übertrifft jedes moderne Kamerasystem (Objektiv, Sensor, Firmware) bei weitem.

  • Das menschliche Auge ist nur in der Mitte scharf. Tatsächlich ist es nur an einem sehr, sehr kleinen Punkt scharf, der als Fovea bekannt ist. Dies ist ein Punkt, dessen Durchmesser weniger als ein Prozent unseres gesamten Blickwinkels beträgt. Wir haben also eine ernsthafte Weichheit in den Ecken.

    Das menschliche Gehirn kann dies jedoch korrigieren. Es weist das Auge an, sehr schnelle Bewegungen rund um eine Szene auszuführen, so dass der scharfe Teil in der Mitte herumfliegt. Das Gehirn hat dann eine ziemlich beeindruckende Bildstabilisierung im Körper, weil es all diese schnellen Bewegungen braucht und sie zusammennäht, um eine scharfe Szene zu erzeugen - nun, zumindest alle Teile, auf die das Auge beim Herumflitzen gelandet ist, werden scharf sein.

  • Das menschliche Auge ist sehr lichtempfindlich, bei schlechten Lichtverhältnissen sind jedoch keine Farbinformationen verfügbar. Darüber hinaus ist der scharfe Teil in der Mitte (die Fovea) weniger lichtempfindlich.

    Technisch ist das so, weil das Auge getrennte Photosites hat, die als Kegel für die drei Farben (Rot, Grün, Blau) bezeichnet werden, und eine andere Art von Photosite, die als Stäbchen bezeichnet wird und nur Schwarz und Weiß erfasst, aber viel effizienter ist.

    Das Gehirn fügt all dies zusammen, um tagsüber ein exzellentes Farbbild zu erzeugen, aber selbst wenn es wirklich sehr, sehr dunkel ist, entsteht ein weiches, farbloses Bild, das von allen Stäbchen erzeugt wird.

  • Das Auge hat nur ein Linsenelement und es erzeugt eine schreckliche chromatische Aberration in Form von violetten Rändern.

    Eigentlich liegt dieser Streifen nur in den sehr kurzen Wellenlängen des Lichts. Das menschliche visuelle System ist für diese Blautöne und Veilchen am unempfindlichsten. Darüber hinaus ist es in der Lage, die in einigen Punkten vorhandenen Randbereiche zu korrigieren. Erstens, weil das menschliche Sehsystem nur in der Mitte scharf ist und dort die geringste chromatische Aberration vorliegt. Und zweitens, weil unsere Farbauflösung (außerhalb der Fovea) viel niedriger als unsere Helligkeitsauflösung ist und das Gehirn beim Ermitteln der Helligkeit nicht dazu neigt, Blau zu verwenden.

  • Wir können in drei Dimensionen sehen. Dies liegt zum Teil daran, dass wir zwei Augen haben und das Gehirn erstaunliche Berechnungen in Bezug auf die Konvergenz zwischen ihnen durchführen kann. Aber es ist auch weiter fortgeschritten; Neben dem "3D-Effekt", den Sie durch Stereovision erhalten, kann das Gehirn auch dreidimensionale Szenen rekonstruieren, selbst wenn Sie ein zweidimensionales Foto der Szene betrachten. Das liegt daran, dass es Hinweise wie Okklusion, Schatten, Perspektive und Größe versteht und diese verwendet, um die Szene als 3D-Raum zusammenzustellen. Wenn wir uns ein Foto von einem langen Flur ansehen, können wir sehen, dass sich der Flur von uns weg erstreckt, obwohl wir keine Stereovision haben, weil das Gehirn die Perspektive versteht.

thomasrutter
quelle
Der blinde Fleck ist auch interessant zu erwähnen
clabacchio
10

(Mit viel Hilfe aus dem Wikipedia-Artikel )

Unsere Augen sind ein 2-Linsensystem, wobei das erste unser äußeres Auge und das zweite eine Linse direkt in unserem Auge ist. Unsere Augen haben eine feste Brennweite von ca. 22-24 mm. In der Mitte haben wir eine deutlich höhere Auflösung als an den Rändern. Die Auflösung variiert erheblich, je nachdem, wo im Bild Sie sich gerade befinden. Im mittleren Bereich beträgt sie jedoch ungefähr 1,2 Bogenminuten / Linienpaar. Wir haben ungefähr 6-7 Millionen Sensoren, also 6-7 Megapixel, aber sie sind etwas anders. Das Muster der Farbdetektoren ist nicht sehr einheitlich. Im Zentrum gibt es im Vergleich zum peripheren Sehen unterschiedliche Farberkennungsfunktionen. Das Sichtfeld ist ungefähr 90 Grad von der Mitte entfernt.

Ein interessanter Punkt ist, dass das menschliche Auge niemals einen vollständigen "Schnappschuss" bildet, sondern eher ein kontinuierliches System ist. Es kann sehr schwierig sein, dies zu sagen, da unser Gehirn sehr gut in der Lage ist, dies zu korrigieren, aber unser System ist eher ein Leaky-Bucket-Ansatz für die Fotografie, der einem digitalen Camcorder etwas, aber nicht genau ähnlich ist.

Die "normale" Linse wird normalerweise ausgewählt, um den primären Bereich des menschlichen Fokus darzustellen, wodurch ihre Unterschiede erklärt werden.

Kameras haben verschiedene Arten von Sensoren, aber sie sind normalerweise ziemlich gleichmäßig um den Sensor verteilt. Der Sensor ist immer flach (der Sensor des Menschen ist gekrümmt), was möglicherweise zu Kantenverzerrungen führt. Es ist schwierig, die Auflösung in dem Format zu erhalten, in dem die menschliche Sicht gegeben ist, und sie hängt etwas von der Linse ab. Man kann jedoch mit Sicherheit sagen, dass das menschliche Auge in der Mitte seines Fokus eine höhere Auflösung hat, in den Randbereichen jedoch eine geringere.

PearsonArtPhoto
quelle
1
In Bezug auf die Auflösung, auf die in einer meiner anderen Antworten ein wenig eingegangen wurde, ist der 60. Grad (1 Bogenminute) für das 20/20-Sehen. Während dies für die meisten Menschen "normal" ist, gibt es Millionen von Menschen, die 20/10 als Erwachsene sehen. Kinder haben auch eine bessere Sehschärfe im Bereich von 20/10 oder sogar 20/8, der bei 0,4 bis 0,75 Bogenminuten liegt.
jrista
Es ist nicht so sehr, dass das äußere Auge schlecht abschneidet, sondern dass es einen anderen Job macht. In der Mitte des Sichtfelds haben wir eine gute Sicht, während das äußere Auge für Situationen mit schlechten Lichtverhältnissen besser ist.
Zachary K
5

Pixiq hat einen sehr interessanten Artikel zu diesem Thema, der vor wenigen Tagen veröffentlicht wurde: http://web.archive.org/web/20130102112517/http://www.pixiq.com/article/eyes-vs-cameras

Sie sprechen über die ISO-Äquivalenz, Fokussierung, Blende, Verschlusszeit usw. Es wird diskutiert, aber es ist immer noch interessant zu lesen.

Das Auge selbst ist ein gutes Stück Technik, aber das Gehirn erledigt einen Großteil der Arbeit beim Zusammensetzen der Teile. Beispielsweise können wir einen sehr großen Dynamikbereich wahrnehmen, was jedoch hauptsächlich darauf zurückzuführen ist, dass das Gehirn die verschiedenen Regionen zusammenfügt, ohne dass wir dies realisieren müssen. Wie bei der Auflösung hat das Auge eine gute Auflösung in der Mitte, ist aber überall unterdurchschnittlich. Das Gehirn stellt die Details für uns zusammen. Das Gleiche gilt für die Farben, wir nur perceive Farben in der Mitte, aber das Gehirn Narren uns durch das Caching von Farbinformationen , wenn sie gehen außerhalb Zentrum Umfang.

decasteljau
quelle
1

Lassen Sie mich eine Frage zurückwerfen: Was ist die Bitrate und Bittiefe einer Schallplatte?

Kameras sind Geräte, die so genau wie möglich das auf ihren CCD projizierte Bild reproduzieren sollen. Ein menschliches Auge ist ein weiterentwickeltes Gerät, dessen Zweck einfach darin besteht, das Überleben zu verbessern. Es ist ziemlich komplex und verhält sich oft kontraintuitiv. Sie haben nur sehr wenige Ähnlichkeiten:

  • Eine optische Struktur zum Fokussieren von Licht
  • Eine aufnahmefähige Membran zur Erfassung des projizierten Lichts

Die Photorezeptoren der Netzhaut

Das Auge selbst ist nicht bemerkenswert. Wir haben Millionen von Photorezeptoren, aber sie liefern redundante (und gleichzeitig mehrdeutige!) Eingaben in unser Gehirn. Die Stabfotorezeptoren sind sehr lichtempfindlich (insbesondere auf der bläulichen Seite des Spektrums) und können ein einzelnes Photon erfassen . In der Dunkelheit funktionieren sie in einem Modus namens Scotopic Vision recht gut. Wenn es heller wird, wie zum Beispiel in der Dämmerung, beginnen die Kegelzellen aufzuwachen. Kegelzellen benötigen mindestens 100 Photonen, um Licht zu detektieren. Bei dieser Helligkeit sind sowohl Stabzellen als auch Kegelzellen in einem als mesopisches Sehen bezeichneten Modus aktiv. Stabzellen liefern zu diesem Zeitpunkt eine kleine Menge an Farbinformationen. Wenn es heller wird, sättigen sich die Stabzellen und können nicht mehr als Lichtdetektoren fungieren. Dies wird als photopisches Sehen bezeichnet, und nur Kegelzellen funktionieren.

Biologische Materialien sind überraschend reflektierend. Wenn nichts unternommen würde, würde Licht, das durch unsere Fotorezeptoren dringt und auf den Augenhintergrund trifft, in einem Winkel reflektiert und ein verzerrtes Bild erzeugen. Dies wird durch die letzte Schicht von Zellen in der Netzhaut gelöst, die mithilfe von Melanin Licht absorbieren. Bei Tieren, die eine gute Nachtsicht benötigen, ist diese Schicht absichtlich reflektierend, sodass Photonen, die Photorezeptoren vermissen, die Möglichkeit haben, sie auf dem Rückweg zu treffen. Deshalb haben Katzen reflektierende Netzhäute!

Ein weiterer Unterschied zwischen einer Kamera und dem Auge besteht darin, wo sich die Sensoren befinden. In einer Kamera befinden sie sich unmittelbar im Lichtweg. Im Auge ist alles rückwärts. Der Netzhautschaltkreis befindet sich zwischen dem Licht und den Fotorezeptoren, daher müssen Fotonen eine Schicht aus allen Arten von Zellen und Blutgefäßen passieren, bevor sie schließlich auf einen Stab oder Kegel treffen. Dies kann das Licht leicht verzerren. Zum Glück kalibrieren sich unsere Augen automatisch, sodass wir nicht auf eine Welt mit leuchtend roten Blutgefäßen starren müssen, die hin und her jagen!

Im Zentrum des Auges findet der gesamte hochauflösende Empfang statt, wobei die Peripherie immer weniger für Details und immer mehr für Farbenblindheit empfindlich wird (obwohl sie empfindlicher für kleine Mengen von Licht und Bewegung ist). Unser Gehirn geht damit um, indem wir unsere Augen schnell in einem sehr ausgeklügelten Muster bewegen, damit wir das Maximum an Details aus der Welt herausholen können. Eine Kamera ist eigentlich ähnlich, aber anstatt einen Muskel zu verwenden, tastet sie jeden CCD-Rezeptor nacheinander in einem schnellen Scanmuster ab. Dieser Scan ist viel, viel schneller als unsere Sakkadenbewegung, aber er ist auch auf jeweils nur ein Pixel begrenzt. Das menschliche Auge ist langsamer (und das Scannen ist nicht progressiv und erschöpfend), aber es kann viel mehr auf einmal aufnehmen.

Vorverarbeitung in der Netzhaut

Die Netzhaut selbst macht tatsächlich ziemlich viel Vorverarbeitung. Das physische Layout der Zellen dient zur Verarbeitung und Extraktion der wichtigsten Informationen.

Während jedes Pixel in einer Kamera ein 1: 1-Mapping des gespeicherten digitalen Pixels aufweist (zumindest für ein verlustfreies Bild), verhalten sich die Stäbchen und Zapfen in unserer Netzhaut unterschiedlich. Ein einzelnes "Pixel" ist ein Ring von Fotorezeptoren, der als Empfangsfeld bezeichnet wird. Um dies zu verstehen, ist ein grundlegendes Verständnis der Schaltkreise der Netzhaut erforderlich:

Netzhautschaltung

Die Hauptkomponenten sind die Photorezeptoren, die jeweils mit einer einzelnen bipolaren Zelle verbunden sind, die wiederum mit einem Ganglion verbunden ist, das über den Sehnerv zum Gehirn gelangt. Eine Ganglienzelle empfängt Eingangssignale von mehreren bipolaren Zellen in einem Ring, der als Empfangsfeld in der Mitte umgibt. Das Zentrum, wenn sich der Ring und die Umgebung des Rings gegensätzlich verhalten. Licht, das das Zentrum aktiviert, regt die Ganglienzelle an, während Licht, das die Umgebung aktiviert, sie hemmt (ein zentrales Feld außerhalb der Umgebung). Es gibt auch Ganglienzellen, bei denen dies umgekehrt ist (exzentrisch, on-surround).

aufnahmefähige Felder

Diese Technik verbessert die Kantenerkennung und den Kontrast erheblich und opfert dabei die Schärfe. Eine Überlappung zwischen Empfangsfeldern (ein einzelner Photorezeptor kann als Input für mehrere Ganglienzellen dienen) ermöglicht es dem Gehirn, das, was es sieht, zu extrapolieren. Dies bedeutet, dass Informationen, die zum Gehirn geleitet werden, bereits stark verschlüsselt sind und dass eine Gehirn-Computer-Schnittstelle, die direkt mit dem Sehnerv verbunden ist, nichts produzieren kann, was wir erkennen können. Sie wird auf diese Weise codiert, weil unser Gehirn, wie andere bereits erwähnt haben, erstaunliche Nachbearbeitungsfunktionen bietet. Da dies nicht direkt mit dem Auge zusammenhängt, werde ich nicht viel auf sie eingehen. Die Grundlagen sind, dass das Gehirn einzelne Linien (Kanten), dann ihre Länge und dann ihre Bewegungsrichtung erkennt, jeweils in später tieferen Bereichen der Kortikalis.ventraler Strom und dorsaler Strom , die dazu dienen, hochauflösende Farben bzw. Bewegungen zu verarbeiten.

Randkontrast

Die Fovea centralis ist das Zentrum des Auges und, wie andere betont haben, kommt der größte Teil unserer Sehschärfe von dort. Es enthält nur Zapfenzellen und hat im Gegensatz zum Rest der Netzhaut eine 1: 1-Zuordnung zu dem, was wir sehen. Ein einzelner Kegel-Photorezeptor ist mit einer einzelnen bipolaren Zelle verbunden, die mit einer einzelnen Ganglienzelle verbunden ist.

Die Angaben des Auges

Das Auge ist nicht als Kamera konzipiert, daher gibt es keine Möglichkeit, viele dieser Fragen so zu beantworten, wie Sie es möchten.

Was ist die effektive Auflösung?

In einer Kamera ist die Genauigkeit ziemlich gleichmäßig. Die Peripherie ist genauso gut wie das Zentrum, daher ist es sinnvoll, eine Kamera an der absoluten Auflösung zu messen. Das Auge ist andererseits nicht nur ein Rechteck, sondern verschiedene Teile des Auges sehen mit unterschiedlicher Genauigkeit. Anstatt die Auflösung zu messen, werden die Augen am häufigsten in VA gemessen . Eine 20/20 VA ist durchschnittlich. Eine 20/200 VA macht Sie legal blind. Eine andere Messung ist LogMAR , sie ist jedoch weniger verbreitet.

Sichtfeld?

Unter Berücksichtigung beider Augen haben wir ein horizontales Sichtfeld von 210 Grad und ein vertikales Sichtfeld von 150 Grad. 115 Grad in der horizontalen Ebene ermöglichen binokulares Sehen. Mit nur 6 Grad haben wir jedoch eine hochauflösende Sicht.

Maximale (und minimale) Blende?

Typischerweise hat die Pupille einen Durchmesser von 4 mm. Sein maximaler Bereich beträgt 2 mm (1 : 8,3 ) bis 8 mm (1 : 2,1 ). Im Gegensatz zu einer Kamera können wir die Blende nicht manuell steuern, um beispielsweise die Belichtung anzupassen. Ein kleines Ganglion hinter dem Auge, das Ciliarganglion, passt die Pupille automatisch an das Umgebungslicht an.

ISO-Äquivalenz?

Sie können dies nicht direkt messen, da wir zwei Photorezeptortypen mit jeweils unterschiedlicher Empfindlichkeit haben. Zumindest sind wir in der Lage, ein einzelnes Photon zu detektieren (obwohl dies nicht garantiert, dass ein Photon, das auf unsere Netzhaut trifft, eine Stabzelle trifft). Außerdem erhalten wir nichts, wenn wir 10 Sekunden lang auf etwas starren. Daher bedeutet zusätzliche Belichtung für uns wenig. Daher ist ISO für diesen Zweck kein gutes Maß.

Eine Schätzung der Astrofotografen im Stadion liegt offenbar bei 500-1000 ISO, wobei die Tageslicht-ISO nur 1 beträgt. Auch dies ist jedoch keine gute Messung für das Auge.

Dynamikbereich?

Der dynamische Bereich des Auges selbst ist dynamisch, da verschiedene Faktoren für das scotopische, mesopische und photopische Sehen eine Rolle spielen. Dies scheint in gut erforscht zu sein. Wie ist der Dynamikumfang des menschlichen Auges mit dem von Digitalkameras vergleichbar? .

Haben wir etwas, das der Verschlusszeit entspricht?

Das menschliche Auge ist eher eine Videokamera. Es nimmt alles auf einmal auf, verarbeitet es und sendet es an das Gehirn. Das der Verschlusszeit (oder FPS) am nächsten kommende Äquivalent ist die CFF (Critical Fusion Frequency), auch Flicker Fusion Rate genannt. Dies ist als der Übergangspunkt definiert, an dem intermittierendes Licht mit zunehmender zeitlicher Frequenz in ein einzelnes, festes Licht übergeht. Die CFF ist in unserer Peripherie höher (weshalb Sie manchmal das Flimmern alter Leuchtstofflampen nur dann sehen können, wenn Sie sie indirekt betrachten), und sie ist höher, wenn sie hell ist. Bei hellem Licht hat unser visuelles System eine CFF von etwa 60. Bei Dunkelheit kann sie bis zu 10 betragen.

Dies ist jedoch nicht die ganze Geschichte, da ein Großteil davon durch visuelle Persistenz im Gehirn verursacht wird. Das Auge selbst hat eine höhere CFF (obwohl ich im Moment keine Quelle finde, erinnere ich mich an diese in der Größenordnung von 100), aber unser Gehirn verwischt die Dinge, um die Verarbeitungslast zu verringern und uns mehr Zeit zu geben einen vorübergehenden Reiz zu analysieren.

Versucht, eine Kamera und das Auge zu vergleichen

Augen und Kameras haben völlig unterschiedliche Zwecke, auch wenn sie oberflächlich dasselbe zu tun scheinen. Kameras basieren absichtlich auf Annahmen, die bestimmte Arten von Messungen vereinfachen, während für die Entwicklung des Auges kein solcher Plan ins Spiel kam.

Wald
quelle