Ich habe folgendes Problem:
Bei gegebenen Eingaben ( dimensionaler Vektor) von Skalaren, geordneten ganzen Zahlen und ungeordneten ganzen Zahlen (dh Beschriftungen) und einer oder mehreren Ausgaben möchte ich Folgendes schätzen:
- Welche Eingänge erklären die Ausgänge am besten?
- Inwieweit Variationen eines Eingangs Variationen der Ausgänge implizieren.
Dies soll mit der Unsicherheits- und Sensitivitätsanalyse zusammenhängen, die ziemlich weit gefasst ist. Kennen Sie Methoden / Ressourcen mit einem Ansatz, der mit meinem Problem zusammenhängt?
Antworten:
Sie können eines der hier bereitgestellten Tools ausprobieren . Das sind Matlab-Lösungen, sehr schöner Code und moderne Methoden. Zunächst würde ich Ihnen empfehlen, grafische Tools aus der Bibliothek auszuprobieren, um einen Sinn für die Daten zu erhalten.
Da Sie hier nicht die Details zu den benötigten Informationen angegeben haben, finden Sie hier einige Kommentare zu den implizierten Methoden:
Globale Sensitivitätsanalyse . Die globale Sensitivitätsanalyse ist die Untersuchung, wie die Unsicherheit in der Ausgabe eines Modells (numerisch oder anderweitig) auf verschiedene Unsicherheitsquellen in der Modelleingabe aufgeteilt werden kann. Global könnte hier eine unnötige Spezifikation sein, wäre es nicht die Tatsache, dass die meisten in der Literatur getroffenen Analysen lokal oder einzeln sind.
Monte-Carlo-Analyse (oder probenbasierte Analyse) . Die Monte-Carlo-Analyse (MC) basiert auf der Durchführung mehrerer Bewertungen mit zufällig ausgewählten Modelleingaben und der anschließenden Verwendung der Ergebnisse dieser Bewertungen, um sowohl die Unsicherheit bei Modellvorhersagen als auch die Aufteilung ihres Beitrags zu dieser Unsicherheit auf die Eingabefaktoren zu bestimmen. Eine MC-Analyse beinhaltet die Auswahl von Bereichen und Verteilungen für jeden Eingabefaktor; Erzeugung einer Stichprobe aus den im ersten Schritt angegebenen Bereichen und Verteilungen; Bewertung des Modells für jedes Element der Stichprobe; Unsicherheitsanalyse und Sensitivitätsanalyse.
Antwortoberflächenmethodik . Dieses Verfahren basiert auf der Entwicklung einer Annäherung der Antwortfläche an das betrachtete Modell. Diese Näherung wird dann als Ersatz für das ursprüngliche Modell in der Unsicherheits- und Sensitivitätsanalyse verwendet. Die Analyse umfasst die Auswahl von Bereichen und Verteilungen für jeden Eingabefaktor, die Entwicklung eines experimentellen Designs, das die Kombinationen von Faktorwerten definiert, anhand derer das Modell bewertet wird, Bewertungen des Modells, die Erstellung einer Annäherung der Antwortfläche an das ursprüngliche Modell und die Unsicherheitsanalyse und Sensitivitätsanalyse.
Screening-Designs . Das Faktor-Screening kann als erster Schritt nützlich sein, wenn es sich um ein Modell handelt, das eine große Anzahl von Eingabefaktoren (Hunderte) enthält. Mit Eingabefaktor ist jede Größe gemeint, die vor ihrer Ausführung im Modell geändert werden kann. Dies kann ein Modellparameter, eine Eingabevariable oder ein Modellszenario sein. Oft haben nur einige der Eingabefaktoren und Gruppierungen von Faktoren einen signifikanten Einfluss auf die Modellausgabe.
Lokal (Differentialanalyse) . Local SA untersucht den Einfluss der Eingabefaktoren auf das Modell lokal, dh an einem festen Punkt im Raum der Eingabefaktoren. Die lokale SA wird normalerweise durchgeführt, indem partielle Ableitungen der Ausgangsfunktionen in Bezug auf die Eingangsvariablen berechnet werden (Differentialanalyse). Um die Ableitung numerisch zu berechnen, werden die Eingabeparameter innerhalb eines kleinen Intervalls um einen Nennwert variiert. Das Intervall hängt nicht mit unserem Kenntnisstand der Variablen zusammen und ist normalerweise für alle Variablen gleich.
FORM-SORM . FORM und SORM sind nützliche Methoden, wenn der Analytiker nicht an der Größe von Y (und damit an seiner möglichen Variation) interessiert ist, sondern an der Wahrscheinlichkeit, dass Y einen kritischen Wert überschreitet. Die Bedingung (Y-Ycrit <0) bestimmt eine Hyperfläche im Raum der Eingabefaktoren X. Der minimale Abstand zwischen einem Entwurfspunkt für X und der Hyperfläche ist die interessierende Größe.
Viel Glück!
quelle
Um die erste Frage zu beantworten, schlage ich vor, dass Sie sich die kanonische Korrelationsanalyse und eine neuere Dimensionsreduktionstechnik ansehen , die als geschnittene inverse Regression bezeichnet wird . Zu letzterem siehe das erste Papier von Ker Chau Li
Es ist im Internet frei verfügbar. Die Version mit den (interessanten) Kommentaren muss man sich wohl überlegen.
Einige wichtige Parameter für die Auswahl einer Methode in Ihrer Situation sind:
Sie erwähnen auch eine mögliche multivariate Ausgabe. Wenn Sie einige davon haben, die völlig unterschiedliche Dinge darstellen, führen Sie einfach mehrere unabhängige Sensitivitätsanalysen durch.
Wenn sie stark korreliert oder funktional sind, ändert sich auch das Problem erheblich.
Sie sollten all diese Punkte klarstellen, bevor Sie sich für eine bestimmte Methodik entscheiden.
quelle
Möglicherweise können Sie einen Varianz-basierten Ansatz zur globalen Sensitivitätsanalyse verwenden, um die zweite Frage zu beantworten. Nach Saltelli (2008) ist die Sensitivitätsanalyse
Vorausgesetzt, Sie verfügen über eine vorhandene Datenranch, ist dies eine alternative Methode, wie sie von Delta Moment-Independent Measure (Borgonovo 2007, Plischke et al. 2013) vorgeschlagen und in der Python-Bibliothek SALib implementiert wurde .
Mit dem folgenden Code aus dem Beispiel können Sie die Empfindlichkeitsindizes aus Ihren vorhandenen Daten generieren:
quelle