Ich mache einen Abschlusskurs in Angewandter Statistik, der das folgende Lehrbuch verwendet (um Ihnen ein Gefühl für das Niveau des behandelten Materials zu vermitteln): Statistische Konzepte und Methoden , von GK Bhattacharyya und RA Johnson.
Der Professor verlangt von uns, SAS für die Hausaufgaben zu verwenden.
Meine Frage ist: Gibt es eine Java-Bibliothek (en), die anstelle von SAS für Probleme verwendet werden kann, die normalerweise in solchen Klassen auftreten?
Ich versuche gerade, mit Apache Math Commons auszukommen, und obwohl ich von der Bibliothek beeindruckt bin (sie ist benutzerfreundlich und verständlich), fehlen anscheinend auch einfache Dinge wie die Fähigkeit, Histogramme zu zeichnen (ich denke, sie mit einer Diagrammbibliothek zu kombinieren) ).
Ich habe mir Colt angesehen, aber mein anfängliches Interesse hat sich ziemlich schnell gelegt.
Würde mich über jeden Input freuen - und ich habe mir ähnliche Fragen zu Stackoverflow angeschaut, aber nichts überzeugendes gefunden.
ANMERKUNG: Mir sind R-, SciPy-, Octave- und Java-Bibliotheken bekannt, die sie aufrufen. Ich suche eine native Java-Bibliothek oder eine Reihe von Bibliotheken, die zusammen die von mir gesuchten Funktionen bereitstellen können.
ANMERKUNG: Die Themen, die in einer solchen Klasse behandelt werden, umfassen normalerweise: Tests mit einer Stichprobe und zwei Stichproben sowie Konfidenzintervalle für Mittelwerte und Mediane, deskriptive Statistiken, Anpassungsgütetests, Einweg- und Zweiweg-ANOVA, simultane Inferenz, Tests Varianzen, Regressionsanalyse und kategoriale Datenanalyse.
Antworten:
Wenn ich gezwungen bin, Java für grundlegende Statistiken zu verwenden, ist Apache Commons Math der richtige Weg. Für Zeichnungen verwende und empfehle ich JFreeChart . Letzteres ist weit verbreitet, sodass stackoverflow sogar ein gefülltes Tag hat .
Bearbeiten
Wenn man eine Suite sucht, ist Deducer vielleicht eine Option. Die GUI basiert auf JGR, während die statistischen Teile in R aufgerufen werden. Sie scheint sowohl über R als auch über Java erweiterbar zu sein . Man könnte zB die Aufrufe der Rengine überspringen, aber stattdessen referenzierte Java-Bibliotheken aufrufen. Aber ich gebe zu, ich habe es noch nicht ausprobiert.
Soweit ich das OP verstanden habe, wäre Rapidminer for Statistics das Optimum , da Rapidminer ein reines Java-Framework ist, das den GUI-Zugriff (einschließlich Visualisierungen), die Verwendung als Bibliothek und die Entwicklung benutzerdefinierter Plugins unterstützt. Sowas gibt es meines Wissens für Statistiken nicht. Ich empfehle Rapidminer für diese spezielle Aufgabe nicht , da es meines Wissens nur die grundlegendsten statistischen Tests enthält. Die Visualisierungen wurden in letzter Zeit erweitert, aber ich kann nicht einschätzen, wie anpassbar sie jetzt sind.
quelle
Schauen Sie sich Suan Shu: NumericalMethod.com an . Es ist im Allgemeinen nicht kostenlos, aber für den akademischen Gebrauch kostenlos.
quelle
Ähnlich wie bei Steffen's Vorschlag von RapidMiner solltest du Weka in Betracht ziehen . Es ist möglicherweise spezifischer auf maschinelles Lernen ausgerichtet, als Sie es sich erhoffen. Es verfügt über zahlreiche Algorithmen für Aufgaben wie Clustering, Klassifizierung und Regression. Weka hat eine GUI, kann aber auch als Softwarebibliothek verwendet werden. Ich habe Histogramme in der Benutzeroberfläche gesehen, bin mir aber nicht sicher, ob es einfach ist, sie in der Bibliothek wiederzuverwenden oder nicht.
quelle
Versuchen Sie http://www.roguewave.com/Portals/0/products/imsl-numerical-libraries/java-library/docs/5.0.1/api/overview-summary.html
Es ist gut dokumentiert und bietet viele nützliche statistische und mathematische Funktionen. Aber leider ist es nicht Open Source. Wenn Sie das nicht stört, sollte die Bibliothek in Ordnung sein.
Ich weiß jedoch nicht, ob es eine grafische Ausgabe bietet.
quelle
In der DataMelt- Computerumgebung gibt es viele statistische Java-Bibliotheken für fast jedes Thema. Sie können es mit Jython verwenden, wie auf der Website empfohlen, aber ich verwende es mit Java und Groovy.
Ich kann noch mehr sagen: Das DataMelt-Projekt deckt die folgenden statistischen Themen ab:
Hier ist ein Beispiel für eine nicht lineare Regression, bei der der Log-Likelihood-Ansatz verwendet wird, um Daten mit Fehlern anzupassen:
Das Paket ist kostenlos.
quelle