Intuitiv ist es wahrscheinlich einfacher, ein hohes P / R / F1 für einen kleinen Datensatz oder einen sehr einheitlichen / vorhersagbaren Datensatz zu erhalten, als ein hohes P / R / F1 für größere oder chaotischere Datensätze. Daher ist eine Verbesserung von P / R / F1 bei einem größeren und chaotischeren Datensatz signifikanter.
Nach dieser Intuition benötigen Sie wahrscheinlich Zugriff auf die Ausgabe der "Black-Box" -Methoden, um den Unterschied in der Verteilung der Ergebnisse unter Berücksichtigung der Größe und Vielfalt in diesem Satz zu messen. Die P / R / F1 allein sind wahrscheinlich zu wenig Informationen.
Signifikanztests in dieser Einstellung werden normalerweise durchgeführt, indem eine Nullhypothese gebildet wird (die beiden Algorithmen erzeugen immer die gleiche Ausgabe) und dann die Wahrscheinlichkeit berechnet wird, den Unterschied in der Ausgabe zu beobachten, den Sie beobachten, wenn die Algorithmen tatsächlich gleich sind. Wenn die Wahrscheinlichkeit beispielsweise kleiner als 0,05 ist, lehnen Sie die Nullhypothese ab und schließen daraus, dass die Verbesserung signifikant ist.
Dieses Papier enthält relevante Diskussionen:
http://www.aclweb.org/anthology/C00-2137