Ist es eine gute Idee, vector <vector <double >> zu verwenden, um eine Matrixklasse für Hochleistungs-Code für das wissenschaftliche Rechnen zu bilden?
37
Ist es eine gute Idee, vector<vector<double>>mit std eine Matrixklasse für hochperformanten wissenschaftlichen Code zu bilden?
-1 Natürlich ist es eine schlechte Idee. Sie können weder Blas noch Lapack oder eine andere vorhandene Matrixbibliothek mit einem solchen Speicherformat verwenden. Darüber hinaus führen Sie Ineffizienzen durch Nicht-Lokalisierung und Indirektion von Daten ein
Thomas Klimpel,
9
@Thomas Ist das wirklich eine Ablehnung wert?
akid
33
Nicht abstimmen. Es ist eine berechtigte Frage, auch wenn es sich um eine falsche Idee handelt.
Wolfgang Bangerth
3
std :: vector ist kein verteilter Vektor, daher können Sie nicht viel paralleles Rechnen damit ausführen (mit Ausnahme von gemeinsam genutzten Speichermaschinen). Verwenden Sie stattdessen Petsc oder Trilinos. Außerdem befasst man sich normalerweise mit spärlichen Matrizen und man würde vollständig dichte Matrizen speichern. Zum Spielen mit spärlichen Matrizen könnten Sie eine std :: vector <std :: map> verwenden, aber auch dies würde keine gute Leistung bringen, siehe @WolfgangBangerth Post unten.
gnzlbg
3
versuchen Sie es mit std :: vector <std :: vector <double >> mit MPI und Sie wollen , um sich selbst zu schießen
pyCthon
Antworten:
43
Dies ist eine schlechte Idee, da vector so viele Objekte im Raum zuordnen muss, wie Zeilen in Ihrer Matrix vorhanden sind. Die Zuweisung ist teuer, aber in erster Linie eine schlechte Idee, da die Daten Ihrer Matrix jetzt in einer Reihe von Arrays vorliegen, die über den Speicher verstreut sind, und nicht mehr an einem Ort, auf den der Prozessor-Cache problemlos zugreifen kann.
Es ist auch ein verschwenderisches Speicherformat: std :: vector speichert zwei Zeiger, einen zum Anfang des Arrays und einen zum Ende, da die Länge des Arrays flexibel ist. Auf der anderen Seite müssen die Längen aller Zeilen gleich sein, damit dies eine richtige Matrix ist. Es wäre also ausreichend, die Anzahl der Spalten nur einmal zu speichern, anstatt jede Zeile ihre Länge unabhängig speichern zu lassen.
Es ist tatsächlich schlimmer als Sie sagen, weil std::vectortatsächlich drei Zeiger gespeichert werden: Der Anfang, das Ende und das Ende des zugewiesenen Speicherbereichs (damit wir beispielsweise anrufen können .capacity()). Diese Kapazität kann sich von der Größe unterscheiden, was die Situation noch viel schlimmer macht!
user14717
18
Zusätzlich zu den von Wolfgang genannten Gründen müssen Sie bei Verwendung von a vector<vector<double> >die Referenz jedes Mal zweimal dereferenzieren , wenn Sie ein Element abrufen möchten. Dies ist rechenintensiver als eine einzelne Dereferenzierungsoperation. Ein typischer Ansatz besteht darin, stattdessen ein einzelnes Array (a vector<double>oder a double *) zuzuweisen . Ich habe auch Leute gesehen, die syntaktischen Zucker zu Matrixklassen hinzugefügt haben, indem sie einige intuitivere Indizierungsoperationen um dieses einzelne Array gewickelt haben, um den "mentalen Overhead" zu reduzieren, der zum Aufrufen der richtigen Indizes erforderlich ist.
@Wolfgang: Abhängig von der Größe der dichten Matrix können zwei zusätzliche Zeiger pro Zeile vernachlässigbar sein. Bei verstreuten Daten könnte man sich einen benutzerdefinierten Allokator vorstellen, der sicherstellt, dass sich die Vektoren im zusammenhängenden Speicher befinden. Solange der Speicher nicht recycelt wird, verwendet selbst der Standard-Allokator zusammenhängenden Speicher mit einer Lücke von zwei Zeigern.
@Geoff: Wenn Sie einen Direktzugriff durchführen und nur ein Array verwenden, müssen Sie den Index noch berechnen. Könnte nicht schneller sein.
Auf meinem System gibt es jetzt klare Gewinner (Compiler gcc 4.7 mit -O3)
Zeitvektormatrix druckt:
index 997:3
index 998:3
index 999:30xc7fc680xc7fc80
calc took:185.507 k=100000000
real 0m0.257s
user 0m0.244s
sys 0m0.008s
Wir sehen auch, dass die Daten zusammenhängend sind, solange der Standard-Allokator den freigegebenen Speicher nicht wiederverwendet. (Natürlich gibt es nach einigen Aufhebungen keine Garantie dafür.)
Zeitarraymatrix druckt:
index 997:1
index 998:1
index 999:10x7ff41f208f480x7ff41f208f50
calc took:187.349 k=100000000
real 0m0.257s
user 0m0.248s
sys 0m0.004s
Sie schreiben "Auf meinem System gibt es jetzt eindeutige Gewinner" - meinten Sie keinen eindeutigen Gewinner?
akid
9
-1 Das Verständnis der Leistung von HPC-Code kann nicht trivial sein. In Ihrem Fall überschreitet die Größe der Matrix einfach die Cache-Größe, sodass Sie nur die Speicherbandbreite Ihres Systems messen. Wenn ich N in 200 ändere und die Anzahl der Iterationen auf 1000 erhöhe, erhalte ich "calc took: 65" vs "calc took: 36". Wenn ich weiter a = a * a durch a + = a1 * a2 ersetze, um es realistischer zu machen, erhalte ich "calc took: 176" vs "calc took: 84". Es sieht also so aus, als ob Sie einen Faktor zwei an Leistung verlieren können, wenn Sie einen Vektor von Vektoren anstelle einer Matrix verwenden. Das wirkliche Leben wird komplizierter, aber es ist immer noch eine schlechte Idee.
Thomas Klimpel
ja, aber versuchen Sie es mit std :: vectors mit MPI, C gewinnt
zweifellos
4
Ich empfehle es nicht, aber nicht wegen Leistungsproblemen. Es ist etwas weniger performant als eine herkömmliche Matrix, die normalerweise als großer Teil zusammenhängender Daten zugeordnet wird, die mit einer einzigen Zeiger-Dereferenzierung und einer Ganzzahl-Arithmetik indiziert werden. Der Grund für die Leistungsbeeinträchtigung sind hauptsächlich Unterschiede im Caching. Wenn Ihre Matrixgröße jedoch groß genug ist, wird dieser Effekt amortisiert. Wenn Sie einen speziellen Allokator für die inneren Vektoren verwenden, damit diese an den Cache-Grenzen ausgerichtet sind, wird das Caching-Problem weiter verringert .
Das allein ist meiner Meinung nach kein Grund genug, es nicht zu tun. Der Grund für mich ist, dass es viele Probleme mit der Programmierung verursacht. Hier ist eine Liste der Kopfschmerzen, die dies langfristig verursachen wird
Verwendung von HPC-Bibliotheken
Wenn Sie die meisten HPC-Bibliotheken verwenden möchten, müssen Sie über Ihren Vektor iterieren und alle ihre Daten in einem zusammenhängenden Puffer ablegen, da die meisten HPC-Bibliotheken dieses explizite Format erwarten. BLAS und LAPACK kommen in den Sinn, aber auch die allgegenwärtige HPC-Bibliothek MPI wäre viel schwieriger zu verwenden.
Mehr Potenzial für Codierungsfehler
std::vectorweiß nichts über seine Einträge. Wenn Sie ein std::vectormit mehr std::vectors füllen, ist es Ihre Aufgabe, sicherzustellen, dass alle die gleiche Größe haben, denn denken Sie daran, dass wir eine Matrix und Matrizen ohne variable Anzahl von Zeilen (oder Spalten) wollen. Daher müssen Sie für jeden Eintrag Ihres äußeren Vektors alle korrekten Konstruktoren aufrufen, und jeder andere, der Ihren Code verwendet, muss sich der Versuchung widersetzen, std::vector<T>::push_back()einen der inneren Vektoren zu verwenden, was dazu führen würde, dass der gesamte folgende Code beschädigt wird. Natürlich können Sie dies ablehnen, wenn Sie Ihre Klasse korrekt schreiben, aber es ist viel einfacher, dies einfach mit einer großen zusammenhängenden Zuordnung zu erzwingen.
HPC-Kultur und Erwartungen
HPC-Programmierer erwarten einfach Daten auf niedriger Ebene. Wenn Sie ihnen eine Matrix geben, besteht die Erwartung, dass, wenn sie den Zeiger auf das erste Element der Matrix und einen Zeiger auf das letzte Element der Matrix aufgenommen haben, alle Zeiger zwischen diesen beiden gültig sind und auf Elemente desselben verweisen Matrix. Dies ist ähnlich zu meinem ersten Punkt, aber anders, weil es nicht so sehr mit Bibliotheken zu tun hat, sondern eher mit Teammitgliedern oder jemandem, mit dem Sie Ihren Code teilen.
Einfachere Begründung für die Leistung von Daten auf niedrigerer Ebene
Wenn Sie sich auf die unterste Ebene der gewünschten Datenstruktur begeben, wird HPC auf lange Sicht das Leben erleichtern. Wenn Sie Tools wie perfund verwenden vtune, erhalten Sie Leistungsindikatormessungen auf sehr niedrigem Niveau, die Sie mit herkömmlichen Profilerstellungsergebnissen kombinieren, um die Leistung Ihres Codes zu verbessern. Wenn Ihre Datenstruktur viele ausgefallene Container verwendet, ist es schwer zu verstehen, dass Cache-Fehler auf ein Problem mit dem Container oder auf eine Ineffizienz des Algorithmus selbst zurückzuführen sind. Für kompliziertere Codecontainer sind sie notwendig, für die Matrixalgebra jedoch nicht - Sie können damit auskommen, nur 1std::vectordie Daten anstatt der nstd::vectors zu speichern .
Ich schreibe auch einen Benchmark. Für eine Matrix kleiner Größe (<100 * 100) ist die Leistung für einen Vektor <Vektor <doppelt >> und einen umwickelten 1D-Vektor ähnlich. Für eine Matrix mit großer Größe (~ 1000 * 1000) ist der umhüllte 1D-Vektor besser. Die Eigenmatrix verhält sich schlechter. Es überrascht mich, dass das Eigen das Schlimmste ist.
Wie andere betont haben, versuchen Sie nicht, damit zu rechnen oder etwas Performantes zu tun.
Trotzdem habe ich diese Struktur als temporäres Element verwendet, wenn der Code ein 2D-Array zusammenstellen muss, dessen Abmessungen zur Laufzeit und nach dem Beginn der Datenspeicherung ermittelt werden. Beispielsweise können Sie Vektorausgaben aus einem teuren Prozess erfassen, bei dem es nicht einfach ist, genau zu berechnen, wie viele Vektoren Sie beim Start speichern müssen.
Sie könnten einfach alle Ihre Vektoreingaben in einem Puffer zusammenfassen, wenn sie eingehen, aber der Code ist haltbarer und lesbarer, wenn Sie a verwenden vector<vector<T>>.
Antworten:
Dies ist eine schlechte Idee, da vector so viele Objekte im Raum zuordnen muss, wie Zeilen in Ihrer Matrix vorhanden sind. Die Zuweisung ist teuer, aber in erster Linie eine schlechte Idee, da die Daten Ihrer Matrix jetzt in einer Reihe von Arrays vorliegen, die über den Speicher verstreut sind, und nicht mehr an einem Ort, auf den der Prozessor-Cache problemlos zugreifen kann.
Es ist auch ein verschwenderisches Speicherformat: std :: vector speichert zwei Zeiger, einen zum Anfang des Arrays und einen zum Ende, da die Länge des Arrays flexibel ist. Auf der anderen Seite müssen die Längen aller Zeilen gleich sein, damit dies eine richtige Matrix ist. Es wäre also ausreichend, die Anzahl der Spalten nur einmal zu speichern, anstatt jede Zeile ihre Länge unabhängig speichern zu lassen.
quelle
std::vector
tatsächlich drei Zeiger gespeichert werden: Der Anfang, das Ende und das Ende des zugewiesenen Speicherbereichs (damit wir beispielsweise anrufen können.capacity()
). Diese Kapazität kann sich von der Größe unterscheiden, was die Situation noch viel schlimmer macht!Zusätzlich zu den von Wolfgang genannten Gründen müssen Sie bei Verwendung von a
vector<vector<double> >
die Referenz jedes Mal zweimal dereferenzieren , wenn Sie ein Element abrufen möchten. Dies ist rechenintensiver als eine einzelne Dereferenzierungsoperation. Ein typischer Ansatz besteht darin, stattdessen ein einzelnes Array (avector<double>
oder adouble *
) zuzuweisen . Ich habe auch Leute gesehen, die syntaktischen Zucker zu Matrixklassen hinzugefügt haben, indem sie einige intuitivere Indizierungsoperationen um dieses einzelne Array gewickelt haben, um den "mentalen Overhead" zu reduzieren, der zum Aufrufen der richtigen Indizes erforderlich ist.quelle
Nein, verwenden Sie eine der frei verfügbaren Bibliotheken für lineare Algebra. Eine Diskussion über verschiedene Bibliotheken finden Sie hier: Empfehlungen für eine brauchbare, schnelle C ++ - Matrixbibliothek?
quelle
Ist es wirklich so schlimm?
@Wolfgang: Abhängig von der Größe der dichten Matrix können zwei zusätzliche Zeiger pro Zeile vernachlässigbar sein. Bei verstreuten Daten könnte man sich einen benutzerdefinierten Allokator vorstellen, der sicherstellt, dass sich die Vektoren im zusammenhängenden Speicher befinden. Solange der Speicher nicht recycelt wird, verwendet selbst der Standard-Allokator zusammenhängenden Speicher mit einer Lücke von zwei Zeigern.
@Geoff: Wenn Sie einen Direktzugriff durchführen und nur ein Array verwenden, müssen Sie den Index noch berechnen. Könnte nicht schneller sein.
Also lasst uns einen kleinen Test machen:
vectormatrix.cc:
Und jetzt mit einem Array:
arraymatrix.cc
Auf meinem System gibt es jetzt klare Gewinner (Compiler gcc 4.7 mit -O3)
Zeitvektormatrix druckt:
Wir sehen auch, dass die Daten zusammenhängend sind, solange der Standard-Allokator den freigegebenen Speicher nicht wiederverwendet. (Natürlich gibt es nach einigen Aufhebungen keine Garantie dafür.)
Zeitarraymatrix druckt:
quelle
Ich empfehle es nicht, aber nicht wegen Leistungsproblemen. Es ist etwas weniger performant als eine herkömmliche Matrix, die normalerweise als großer Teil zusammenhängender Daten zugeordnet wird, die mit einer einzigen Zeiger-Dereferenzierung und einer Ganzzahl-Arithmetik indiziert werden. Der Grund für die Leistungsbeeinträchtigung sind hauptsächlich Unterschiede im Caching. Wenn Ihre Matrixgröße jedoch groß genug ist, wird dieser Effekt amortisiert. Wenn Sie einen speziellen Allokator für die inneren Vektoren verwenden, damit diese an den Cache-Grenzen ausgerichtet sind, wird das Caching-Problem weiter verringert .
Das allein ist meiner Meinung nach kein Grund genug, es nicht zu tun. Der Grund für mich ist, dass es viele Probleme mit der Programmierung verursacht. Hier ist eine Liste der Kopfschmerzen, die dies langfristig verursachen wird
Verwendung von HPC-Bibliotheken
Wenn Sie die meisten HPC-Bibliotheken verwenden möchten, müssen Sie über Ihren Vektor iterieren und alle ihre Daten in einem zusammenhängenden Puffer ablegen, da die meisten HPC-Bibliotheken dieses explizite Format erwarten. BLAS und LAPACK kommen in den Sinn, aber auch die allgegenwärtige HPC-Bibliothek MPI wäre viel schwieriger zu verwenden.
Mehr Potenzial für Codierungsfehler
std::vector
weiß nichts über seine Einträge. Wenn Sie einstd::vector
mit mehrstd::vector
s füllen, ist es Ihre Aufgabe, sicherzustellen, dass alle die gleiche Größe haben, denn denken Sie daran, dass wir eine Matrix und Matrizen ohne variable Anzahl von Zeilen (oder Spalten) wollen. Daher müssen Sie für jeden Eintrag Ihres äußeren Vektors alle korrekten Konstruktoren aufrufen, und jeder andere, der Ihren Code verwendet, muss sich der Versuchung widersetzen,std::vector<T>::push_back()
einen der inneren Vektoren zu verwenden, was dazu führen würde, dass der gesamte folgende Code beschädigt wird. Natürlich können Sie dies ablehnen, wenn Sie Ihre Klasse korrekt schreiben, aber es ist viel einfacher, dies einfach mit einer großen zusammenhängenden Zuordnung zu erzwingen.HPC-Kultur und Erwartungen
HPC-Programmierer erwarten einfach Daten auf niedriger Ebene. Wenn Sie ihnen eine Matrix geben, besteht die Erwartung, dass, wenn sie den Zeiger auf das erste Element der Matrix und einen Zeiger auf das letzte Element der Matrix aufgenommen haben, alle Zeiger zwischen diesen beiden gültig sind und auf Elemente desselben verweisen Matrix. Dies ist ähnlich zu meinem ersten Punkt, aber anders, weil es nicht so sehr mit Bibliotheken zu tun hat, sondern eher mit Teammitgliedern oder jemandem, mit dem Sie Ihren Code teilen.
Einfachere Begründung für die Leistung von Daten auf niedrigerer Ebene
Wenn Sie sich auf die unterste Ebene der gewünschten Datenstruktur begeben, wird HPC auf lange Sicht das Leben erleichtern. Wenn Sie Tools wie
perf
und verwendenvtune
, erhalten Sie Leistungsindikatormessungen auf sehr niedrigem Niveau, die Sie mit herkömmlichen Profilerstellungsergebnissen kombinieren, um die Leistung Ihres Codes zu verbessern. Wenn Ihre Datenstruktur viele ausgefallene Container verwendet, ist es schwer zu verstehen, dass Cache-Fehler auf ein Problem mit dem Container oder auf eine Ineffizienz des Algorithmus selbst zurückzuführen sind. Für kompliziertere Codecontainer sind sie notwendig, für die Matrixalgebra jedoch nicht - Sie können damit auskommen, nur1
std::vector
die Daten anstatt dern
std::vector
s zu speichern .quelle
Ich schreibe auch einen Benchmark. Für eine Matrix kleiner Größe (<100 * 100) ist die Leistung für einen Vektor <Vektor <doppelt >> und einen umwickelten 1D-Vektor ähnlich. Für eine Matrix mit großer Größe (~ 1000 * 1000) ist der umhüllte 1D-Vektor besser. Die Eigenmatrix verhält sich schlechter. Es überrascht mich, dass das Eigen das Schlimmste ist.
quelle
Wie andere betont haben, versuchen Sie nicht, damit zu rechnen oder etwas Performantes zu tun.
Trotzdem habe ich diese Struktur als temporäres Element verwendet, wenn der Code ein 2D-Array zusammenstellen muss, dessen Abmessungen zur Laufzeit und nach dem Beginn der Datenspeicherung ermittelt werden. Beispielsweise können Sie Vektorausgaben aus einem teuren Prozess erfassen, bei dem es nicht einfach ist, genau zu berechnen, wie viele Vektoren Sie beim Start speichern müssen.
Sie könnten einfach alle Ihre Vektoreingaben in einem Puffer zusammenfassen, wenn sie eingehen, aber der Code ist haltbarer und lesbarer, wenn Sie a verwenden
vector<vector<T>>
.quelle