Sagen , ich habe ein Modell von Eckpunkten aus, die jeweils mit position
, normal
, tangent
, und texcoord
Attribute, wobei Dreiecke durch den Index Tripel angegeben sind.
Wenn wir uns nur auf die Scheitelpunktattribute konzentrieren, sind mir zwei allgemeine Strategien bekannt: die Struktur von Arrays und das Array von Strukturen. Ich habe auch gehört, dass das Array von Strukturen bevorzugt wird, weil es die Speicherlokalität (und damit die Cache-Lokalität) der Attribute für einen bestimmten Scheitelpunkt erhöht.
Ist es wirklich so, dass dies die Leistung verbessert? Ich könnte mir vorstellen, dass dies hauptsächlich durch Scheitelpunktindizes geschehen würde, bei denen der Rasterizer Scheitelpunktdaten erfassen muss, die längst aus dem Cache entfernt wurden. Wenn der Zugriff auf Scheitelpunktdaten so zufällig ist, würde das Beibehalten aller Attribute für einen Scheitelpunkt in derselben Cache-Zeile die Dinge sicherlich beschleunigen. Ist dies jedoch kein Problem, das durch die Optimierung der Reihenfolge der Dreiecksspezifikation größtenteils gemildert werden könnte?
Ich verstehe außerdem, dass moderne GPUs lange Vektoren desselben Typs besser entpacken können als Vektoren von Strukturen vieler Typen. Wäre es dann möglich, dass ein Array-Struktur-Layout ein Array-Struktur-Layout mit denselben Scheitelpunktdaten konsistent übertrifft, wenn die Indexreihenfolge optimiert wird?
quelle
Antworten:
Entschuldigung, ich wollte Ihrem Fragethread einen Kommentar hinzufügen, habe aber festgestellt, dass ich zu viel ausgearbeitet habe. Meine Entwicklungserfahrung ist aus einer DX 11-Perspektive, daher kann ein Teil davon in OpenGL nicht zutreffen
Die Speicherlokalität der Daten spielt sicherlich eine große Rolle. Aber es gibt noch ein paar andere Elemente, die dazu beitragen, die Breite der Daten, wie Sie wissen. Ich hatte ein paar GPUs und hatte aufgrund einiger Wendepunkte einen starken Leistungseinbruch bei einigen. Wenn ich mich recht erinnere, könnten Sie auf meinem alten AMD r290 im Grunde genommen bis zu 4 float4s ohne zusätzliche Kosten über 1 an den Vertex-Puffer weiterleiten. Sobald ich jedoch> 4 gepostet habe, gab es einen messbaren Abfall (im Frame) Bewertung). Dies ist nur aus meiner Erinnerung und so anekdotisch wie am besten. Die GPU-Architektur ändert sich jedoch ständig, und welche Nischentechniken, die Ihnen heute einen Leistungsvorteil verschaffen, sind möglicherweise der Fluch Ihrer Leistung von morgen. ICH'
Trotzdem haben Sie die Frage nach der Reihenfolge der Eckpunkte gestellt, und das wird sicherlich nur geringfügig helfen. Der Leistungsgewinn ergibt sich aus der Kombination mit Indexpuffern, mit denen die Hardware bereits berechnete Scheitelpunkte optimieren und zwischenspeichern kann. Sie können sicherlich noch mehr Gewinne aus Dreiecksstreifen usw. erzielen, die speziell nach Ihren Gedanken bestellt wurden. Das meiste Modell-Rendering, das ich mache, sind indizier- / vertexbasierte optimierte Modelle mit Instanzen. Ich verwende eine kleine Anzahl von Suchvorgängen für zyklische Bewegungseffekte (z. B. Äste). In diesen Fällen sucht der gesamte Ast des Baums nach demselben Wert. So kann auch hier das Caching genutzt werden.
Alles, was ich zusammenfassend von mir selbst sagen kann, ist:
Dies sind nur einige Gedanken und Erfahrungen, die ich gemacht habe. Es gibt viele Bücher, die Sie genau zu diesen Themen in die Hände bekommen sollten. Ich habe nicht gesehen, dass viele vorschreiben, was Sie vorschlagen, aber das bedeutet nicht, dass es falsch ist. Viel Glück.
quelle
Dies kann von der Zielhardware und der API abhängen, die Sie verwenden möchten. Können Sie weitere Informationen bereitstellen? Hier sind einige (sehr breite und allgemeine) Best Practices für OpenGL. https://www.khronos.org/opengl/wiki/Vertex_Specification_Best_Practices
Haben Sie auch ein Leistungsproblem? Oder bist du nur neugierig?
quelle