Bei der Installation von munin wird ein Standardsatz von Plugins aktiviert (zumindest unter Ubuntu). Alternativ können Sie einfach ausführen, munin-node-configure
um herauszufinden, welche Plugins von Ihrem System unterstützt werden. Die meisten dieser Plugins zeichnen einfache Daten. Meine Frage ist nicht , die Art der Daten zu erklären (na ja ... vielleicht für einige), aber wonach suchen Sie in diesen Grafiken?
Es ist einfach, munin zu installieren und ausgefallene Grafiken zu sehen. Aber die Grafiken zu haben und sie nicht "lesen" zu können, macht sie völlig nutzlos.
Ich werde Standard-Plugins auflisten, die auf meinem System standardmäßig aktiviert sind. Es wird also eine lange Liste. Der Vollständigkeit halber werde ich auch Plugins auflisten, die ich zu verstehen glaube, und eine kurze Erklärung geben, wofür sie meiner Meinung nach verwendet werden. Bitte korrigieren Sie, wenn ich mit einem von ihnen falsch liege.
Lassen Sie mich diese Fragen in drei Teile aufteilen:
- Plugins, bei denen ich die Daten nicht einmal verstehe
- Plugins, bei denen ich die Daten verstehe, aber nicht weiß, worauf ich achten soll
- Plugins, die ich zu verstehen denke
Plugins, bei denen ich die Daten nicht einmal verstehe
Diese können Fragen enthalten, die sich nicht unbedingt nur an Munin richten. Das Nichtverstehen der Daten bedeutet normalerweise eine Lücke im Grundwissen über Betriebssysteme / Hardware ....;) Sie können gerne mit einer "giyf" -Antwort antworten.
Dies sind Plugins, bei denen ich nur raten kann, was los ist ... Ich möchte mir diese "Vermutungen" kaum ansehen ...
- Festplatten-E / A pro Gerät (E / A / Sekunde)
Was ist eine E / A ? Ich weiß, dass es für Eingabe / Ausgabe steht. Aber so weit ist es. - Festplattenlatenz pro Gerät (durchschnittliche E / A-Wartezeit)
Keine Ahnung, was eine "E / A-Wartezeit" ist ... - E / A-Servicezeit
Dies ist ein großes Durcheinander, und es ist nahezu unmöglich, überhaupt etwas in der Grafik zu sehen.
Plugins, bei denen ich die Daten verstehe, aber nicht weiß, worauf ich achten soll
- IOStat (Blöcke / Sekunde gelesen / geschrieben)
Ich nehme an, das, worauf man hier achten muss, sind Spitzen? Was würde bedeuten, dass das Gerät stark beansprucht wird? - Verfügbare Entropie (Bytes)
Ich gehe davon aus, dass dies für die Zufallszahlengenerierung wichtig ist. Warum sollte ich das grafisch darstellen? Bisher war der Wert immer nahezu konstant. - VMStat (laufende / E / A-Schlafprozesse)
Was ist der Unterschied zwischen diesem und dem Diagramm "Prozesse"? Beide zeigen laufende / schlafende Prozesse, während das Diagramm "Prozesse" mehr Details zu enthalten scheint. - Festplattendurchsatz pro Gerät (Bytes / Sekunde gelesen / geschrieben)
Was ist der Unterschied zwischen diesem und dem "IOStat" -Diagramm? - Verwendung der Inode-Tabelle
Worauf sollte ich in diesem Diagramm achten?
Plugins, die ich zu verstehen denke
Ich werde hier einige Dinge erraten ... korrigiere mich, wenn ich falsch liege.
- Festplattennutzung in Prozent (Prozent)
Wie viel Festplattenspeicher wird verwendet / verbleibt. Da sich dies 100% nähert, sollten Sie in Betracht ziehen, die Partition zu bereinigen oder zu erweitern. Das ist extrem wichtig für die Root-Partition. - Firewall-Durchsatz (Pakete / Sekunde)
Die Anzahl der Pakete, die die Firewall passieren. Wenn dies über einen längeren Zeitraum ansteigt, kann dies ein Zeichen für einen DOS-Angriff sein (oder wir erhalten einfach eine große Datei). Es kann Ihnen auch eine Vorstellung von Ihrer Firewall-Leistung geben. Wenn es sich nivelliert und Sie mehr "Leistung" benötigen, sollten Sie einen Lastausgleich in Betracht ziehen. Wenn es sich nivelliert und eine Korrelation mit Ihrer CPU-Auslastung feststellt, kann dies auch bedeuten, dass Ihre Hardware nicht schnell genug ist. Korrelationen mit der Festplattennutzung können auf übermäßige LOG-Ziele in Ihrer FW-Konfiguration hinweisen. - eth0-Fehler (Pakete ein / aus)
Netzwerkfehler. Wenn dieser Wert zunimmt, kann dies ein Zeichen für eine fehlerhafte Hardware sein. - eth0-Verkehr (Bits / Sekunde ein / aus)
Roher Netzwerkverkehr. Dies sollte mit dem Firewall-Durchsatz korrelieren. - Anzahl der Threads
Ein ständig steigender Wert kann auf einen Prozess hinweisen, bei dem Threads nicht ordnungsgemäß geschlossen werden. Untersuchen! - Prozesse
Aufschlüsselung aktiver Prozesse (einschließlich Schlaf). Eine schnelle Spitze hier könnte auf eine Gabelbombe hindeuten. Ein langsam, aber stetig steigender Wert kann darauf hinweisen, dass eine Anwendung Unterprozesse erzeugt, diese jedoch nicht ordnungsgemäß schließt. Untersuchen Sie mitps faux
. - Prozesspriorität
Hier wird die Verteilung der Prozessprioritäten angezeigt. Nur Prozesse mit hoher Priorität zu haben, nützt nicht viel. Ziehen Sie in Betracht, einige zu priorisieren. - CPU auslastung
Ziemlich einfach. Wenn dies zu einem Spitzenwert führt, wird möglicherweise ein Angriff ausgeführt, oder ein Prozess belastet die CPU. Wenn es im normalen Betrieb langsam zunimmt und sich dem Maximum nähert, sollten Sie ein Upgrade Ihrer Hardware (oder einen Lastausgleich) in Betracht ziehen. - Verwendung
der Dateitabelle Anzahl der aktiv geöffneten Dateien. Wenn dies das Maximum erreicht, wird möglicherweise ein Prozess geöffnet, Dateien werden jedoch nicht ordnungsgemäß freigegeben. - Lastdurchschnitt
Zeigt einen zusammengefassten Wert für die Systemlast an. Sollte mit der CPU-Auslastung korrelieren. Steigende Werte können aus verschiedenen Quellen stammen. Suchen Sie nach Korrelationen mit anderen Diagrammen. - Speichernutzung
Eine grafische Darstellung Ihres Speichers. Solange Sie viele unbenutzte + Cache + Puffer haben, geht es Ihnen gut. - Swap In / Out
Zeigt die Aktivität auf Ihrer Swap-Partition an. Dies sollte immer 0 sein. Wenn Sie diesbezügliche Aktivitäten sehen, sollten Sie Ihrem Computer mehr Speicher hinzufügen!
quelle
Antworten:
Bei herkömmlichen Festplatten ist dies eine sehr wichtige Zahl. Die E / A-Operation ist eine Lese- oder Schreiboperation auf die Festplatte. Mit Rotationsspindeln können Sie je nach Festplattengeschwindigkeit und Nutzungsmuster zwischen Dutzenden und vielleicht 200 IOPS pro Sekunde arbeiten.
Das ist noch nicht alles: Moderne Betriebssysteme verfügen über E / A-Scheduler, die versuchen, mehrere E / A-Anforderungen zu einer zusammenzuführen und so die Arbeit zu beschleunigen. Auch die RAID-Controller usw. führen eine Neuordnung der intelligenten E / A-Anforderungen durch.
Wie lange hat es gedauert, die E / A-Anforderung auf einer einzelnen Festplatte auszuführen, um die Daten tatsächlich von dort zu empfangen? Wenn dies einige Millisekunden dauert, sind Sie in Ordnung, wenn es Dutzende von ms sind, dann beginnt Ihr Festplattensubsystem zu schwitzen, wenn es Hunderte von ms mehr sind, haben Sie große Probleme oder haben zumindest ein sehr, sehr langsames System.
Wie Ihr Festplattensubsystem (das möglicherweise viele Festplatten enthält) insgesamt funktioniert.
Wie viele Plattenblöcke wurden pro Sekunde gelesen / geschrieben? Suchen Sie nach Spitzen und auch dem Durchschnitt. Wenn sich der Durchschnitt dem maximalen Durchsatz Ihres Festplattensubsystems nähert, ist es Zeit, eine Leistungssteigerung zu planen. Planen Sie diesen Weg tatsächlich vor diesem Punkt.
Einige Anwendungen möchten "echte" Zufallsdaten erhalten. Der Kernel sammelt diese "wahre" Zufälligkeit aus verschiedenen Quellen, wie z. B. Tastatur- und Mausaktivität, einem Zufallszahlengenerator, der in vielen Motherboards zu finden ist, oder sogar aus Video- / Musikdateien (Video-Entropyd und Audio-Entropyd können dies tun).
Wenn Ihrem System die Entropie ausgeht, bleiben die Anwendungen, die diese Daten wünschen, stehen, bis sie ihre Daten erhalten. Persönlich habe ich dies in der Vergangenheit mit dem Cyrus IMAP-Daemon und seinem POP3-Dienst gesehen. Vor jeder Anmeldung und auf einem ausgelasteten Server, der den Entropiepool sehr schnell verbraucht hat, wurde eine lange zufällige Zeichenfolge generiert.
Eine Möglichkeit, dieses Problem zu beheben, besteht darin, die Anwendungen so zu ändern, dass nur halbzufällige Daten (/ dev / urandom) verwendet werden. Dies gehört jedoch nicht mehr zu diesem Thema.
Ich habe vorher noch nicht darüber nachgedacht, aber ich würde denken, dass dies Informationen über prozessbezogene E / A-Statistiken enthält oder hauptsächlich darüber, ob E / A ausgeführt werden oder nicht und ob diese E / A die E / A-Aktivität blockieren oder nicht.
Dies sind reine Bytes , die pro Sekunde gelesen / geschrieben werden, und häufiger ist dies eine besser lesbare Form als Blöcke , die variieren können. Die Blockgröße kann aufgrund der verwendeten Festplatten, des verwendeten Dateisystems (und seiner Einstellungen) usw. unterschiedlich sein. Manchmal beträgt die Blockgröße 512 Byte, manchmal 4096 Byte, manchmal etwas anderes.
Bei Dateisystemen mit dynamischen Inodes (wie XFS) nichts. Bei Dateisystemen mit statischen Inodes-Maps (wie ext3) ist alles möglich. Wenn Sie eine Kombination aus statischen Inodes, einem großen Dateisystem und einer großen Anzahl von Verzeichnissen und kleinen Dateien haben, kann es vorkommen, dass Sie nicht mehr Dateien auf dieser Partition erstellen können, obwohl theoretisch viel freier Speicherplatz übrig bleibt. Keine freien Inodes == schlecht.
quelle
df -i
, es meldet Ihre aktuelle Inode-Nutzung. ext4 hat Inodes behoben, zum Beispiel meine Fedora 16-Berichte für meine Root-Partitionrootfs 3276800 238083 3038717 8% /
df -i
Screenshot ( i44.tinypic.com/oixkiq.png ) gegen den Munin-Graphen ( i39.tinypic.com/dxl64z.png )df
Ausgabe eigentlich gar nicht zu sehen .open_inodes
den Wert von übernimmt/proc/sys/fs/inode-nr
. Es ist ein Kernel und kein Dateisystemwert. Ein bisschen mehr googeln hat mich darauf hingewiesen: mjmwired.net/kernel/Documentation/sysctl/fs.txt#119 Aus diesem Dokument würde ich annehmen, dass das Limit in gefunden werden kanninode-max
. Diese Datei ist jedoch auf meinem System nicht vorhanden. Ist es möglich, dass dies für neuere Kernel nicht mehr relevant ist? Dies würde es mir ermöglichen, dieses Diagramm aus meiner Munin-Instanz zu entfernen!