tl; dr
- Was ist die empfohlene Methode zum Umgang mit
discrete
Daten bei der Erkennung von Anomalien? - Was ist die empfohlene Methode zum Umgang mit
categorical
Daten bei der Erkennung von Anomalien? - Diese Antwort schlägt vor, diskrete Daten zu verwenden, um nur die Ergebnisse zu filtern.
- Vielleicht den Kategoriewert durch die prozentuale Beobachtungswahrscheinlichkeit ersetzen?
Intro
Dies ist das erste Mal, dass ich hier etwas veröffentliche. Wenn also etwas technisch nicht korrekt erscheint, sei es in Bezug auf die Formatierung oder die Verwendung korrekter Definitionen, möchte ich wissen, was stattdessen hätte verwendet werden sollen.
Weiter.
Ich habe vor kurzem an der Maschinellen Lernklasse von Andrew Ng teilgenommen
Zur Erkennung von Anomalien wurde uns beigebracht, die Normal- / Gauß-Verteilungsparameter für ein bestimmtes Merkmal / eine bestimmte Variable innerhalb eines Datensatzes zu bestimmen und dann die Wahrscheinlichkeit eines ausgewählten Satzes von Trainingsbeispielen / Beobachtungswerten zu bestimmen, wenn dieser bestimmte Wert gegeben ist Gaußsche Verteilung und dann das Produkt der Wahrscheinlichkeiten der Merkmale.
Methode
Wähle Merkmale / Variablen, die deiner Meinung nach die fragliche Aktivität erklären: { x 1 , x 2 , … , x i }
Passen Sie die Parameter des Gaußschen für jedes Merkmal an:
Dies gibt uns die Methode, mit der wir feststellen können, ob ein Beispiel einer weiteren Prüfung bedarf.
Meine Fragen)
Dies scheint für kontinuierliche Variablen / Merkmale in Ordnung zu sein, diskrete Daten werden jedoch nicht angesprochen.
Fragen: (aktualisiert: 24.11.2015)
Gibt es insgesamt eine andere Methode, die berücksichtigt, was ich hier frage, um weiter zu recherchieren / lernen zu können?- Was ist die empfohlene Methode zum Umgang mit
discrete
Daten bei der Erkennung von Anomalien? - Was ist die empfohlene Methode zum Umgang mit
categorical
Daten bei der Erkennung von Anomalien?
Bearbeiten: 2017-05-03
- Diese Antwort schlägt vor, diskrete Daten zu verwenden, um nur die Ergebnisse zu filtern.
- Vielleicht den Kategoriewert durch die prozentuale Beobachtungswahrscheinlichkeit ersetzen?
quelle
Antworten:
Im Allgemeinen ist diese Methode sowohl für diskrete als auch für kategoriale Merkmale für Ausreißeranalysen nicht besonders geeignet. Da mit kategorialen Prädiktoren keine Größenordnung verbunden ist, arbeiten wir mit:
Beachten Sie, dass keine dieser Eigenschaften isoliert analysiert werden kann, wie es Ihre Gaußsche Methode erfordert. Stattdessen benötigen wir eine Methode, die kategoriale Merkmale kontextualisiert und die Korrelationscharakteristik der Daten berücksichtigt.
Hier einige Techniken für kategoriale und gemischte Attributdaten, die auf der Ausreißeranalyse von Aggarwal basieren :
* Diskrete Merkmale können möglicherweise ungefähr in Ihrer Gaußschen Methode behandelt werden. Unter den richtigen Bedingungen kann ein Merkmal durch eine Normalverteilung gut approximiert werden (z. B. binomische Zufallsvariable mit npq> 3). Wenn nicht, behandeln Sie sie wie oben beschrieben.
** Dies ähnelt Ihrer Vorstellung von "Ersetzen Sie den Kategoriewert durch die prozentuale Wahrscheinlichkeit der Beobachtung".
quelle
Die Andrew-Ng-Mathematik behandelt "diskrete" Daten genauso wie "nicht-diskrete" Daten. Alles, was wir tun müssen, ist eine empirische Schätzung der Normalverteilungsparameter, und dies kann perfekt für diskrete Daten durchgeführt werden.
Wenn Sie darüber nachdenken, geht es beim maschinellen Lernen sowieso immer um diskrete Daten: Die Anzahl der Datenpunkte ist nicht unendlich und die Anzahl der Bits, die von Computern verarbeitet werden, ist nicht unendlich.
Wenn diskrete Datenpunkte miteinander verglichen werden können, gibt es für Methoden des maschinellen Lernens keinen grundsätzlichen Unterschied, wenn es beispielsweise um Länge geht: 1,15 Fuß 1,34 Fuß 3,4 Fuß
oder wie viele Äste sind auf dem Baum: 1 2 3 5
Sie können Gleitkommazahlen oder ganze Zahlen auch addieren und mitteln.
Nun zu kategorialen Daten. Kategoriale Datenpunkte können nicht verglichen werden (Auto gegen Motorrad gegen Boot). Wie gehen wir damit um?
Die Anzahl der Kategorien muss mindestens zwei betragen, um einen Sinn zu ergeben. Ansonsten, worum geht es bei der konstanten Funktion? Bei 2 Kategorien können wir ein Kategoriefeature als binäres Feature {0, 1} darstellen. 0 und 1 können für Mathematik verwendet werden, siehe oben.
Wenn die Anzahl der Kategorien (K) [3 .. inf] ist, ordnen wir unser einzelnes Merkmal K binären, sich gegenseitig ausschließenden Merkmalen zu. Beispielsweise wird die Kategorie "Motorrad" zu einer Kombination von Binärfunktionen {IsCar: 0, IsMotorcycle: 1, IsBoat: 0}, Bootspunkt wird zu {IsCar: 0, IsMotorcycle: 0, IsBoat: 1} usw.
Aus diesen neuen Merkmalen können wir empirische Verteilungsparameter abschätzen. Wir werden einfach mehr Dimensionen haben, das ist alles.
quelle