Wir befanden uns im Redundanztest von Etherchannel und Routing in unserem Netzwerk. Während dieser Intervention haben wir einige Messungen durchgeführt. Unser Überwachungstool ist Cacti for Graph. Das überwachte Gerät ist ein 4500-X auf VSS. Jede Verbindung befindet sich auf einem anderen physischen Gehäuse.
Schema:
Test-Chronologie:
[t0] Link am te1 / 1/14-Port wurde physisch entfernt. Der Te2 / 1/14 ist aktiv. Po1 ist betriebsbereit.
[t0 + 15] Link am Te1 / 1/14-Port wurde wieder in Betrieb genommen und überprüft, ob der Port im Etherchannel Po1
[t0 + 20] Link am Te1 / 1/14-Port physisch entfernt wurde. Der Te2 / 1/14 ist aktiv. Po1 ist betriebsbereit.
[t0 + 35] Der Link am Te1 / 1/14-Port wurde wieder in Betrieb genommen und überprüft, ob der Port wieder im Etherchannel Po1 ist
In unseren Tests haben wir den Verkehrskanal Po1 durch Cacti (Grafik unten) überwacht und eine signifikante Änderung des Durchflusswerts festgestellt, als wir die te1 / 1/14-Verbindung (Verbindung te2 / 1/14-Assets) während der Rückwärtsfahrt ziemlich stabil deaktiviert haben . Wir haben auch die Zähler auf int Po1 überprüft und diese wurden ziemlich stabil gehalten.
Zwei 10G-Schnittstellen sind in Etherchannels mit konfiguriertem LACP gebündelt. Im Ätherkanal befinden sich 2 Vlans. Eine für Multicast-Verkehr und eine für Internet / All Traffic.
Kennen Sie eine mögliche Ursache für dieses Verhalten?
quelle
Antworten:
Um den Kommentar von ytti zu erweitern.
Ihr Abfrageintervall scheint sehr klein zu sein, alle 10 Sekunden, wenn ich richtig lese. Es gibt einige Gründe, warum Sie dieses Ergebnis erzielen könnten.
Geräteseite:
Poller Seite:
quelle
Ihr Problem ist, dass Ihr Router-Sampling und Ihr eigenes Polling nicht im selben Moment auftreten. Das heißt, obwohl das Abfrageintervall statisch ist, enthalten die Abfrageintervalle eine unterschiedliche Anzahl von Abtastwerten, die Ihre Mathematik nicht berücksichtigt.
Angenommen, Sie haben t1, t2, t3 abgefragt, aber der Router hat im Intervall t1, t2 nichts abgetastet, sodass der gesamte Datenverkehr zwischen t1, t3 zum abgefragten Wert t2, t3 geführt hat. Dies bewirkt, dass Ihre Rate bei t1, t2 0 ist und bei t2, t3 über der Linie liegt
Jetzt werde ich eine Lösung vorschlagen, aber bitte überprüfen Sie dies mit jemandem, der flüchtige Kenntnisse der Mathematik hat.
Finde als erstes die Schnittstelle heraus, an der du interessiert bist (wenn ge-1/1/1):
Dann sehen Sie die ifIndex-Nummer. Nehmen wir an, es ist '42'.
Dann mache etwas wie:
Analysieren Sie nun die Ergebnisse, um festzustellen, wie oft die Zähler im Durchschnitt tatsächlich aktualisiert werden. (Ich kann bei Bedarf ein Skript für die Analyse erstellen)
Dann kommt der Teil, in dem wir Mathe brauchen würden, aber ich werde eine naive Lösung vorschlagen.
Wenn Ihr Aktualisierungsintervall 10 Sekunden beträgt, wählen Sie das Feld alle 5 Sekunden aus, dh doppelt so oft wie aktualisiert. Dann wären Ihre Proben
t0, t5, t10, t15, t20, t25, t30
Dies wären nun Ihre Rohdaten, die Sie nicht verwenden würden, aber Sie würden lieber die tatsächlichen Samples auf diese Weise wiederherstellen
Der Grund hierfür ist, dass wir über die Grenzen hinweg auslaufen möchten, um die Auswirkungen ungenauer Abfrageintervalle bei Ihrem Switch zu verringern.
Sie würden dann s1, s2, s3 zeichnen und Sie sollten ein viel flüssigeres / genaueres Ergebnis haben als das, was Sie jetzt sehen.
Ich bin mir jedoch sicher, dass dies kein neues Problem ist, und ich bin mir sicher, dass es eine formale Lösung gibt, um die optimale Genauigkeit wiederherzustellen. Leider liegt die Erstellung dieser Lösung außerhalb meiner Fähigkeiten. Etwas, für das die Leute von math.stackexchange besser gerüstet wären.
quelle
Da Sie mit der gleichen Rate abrufen, mit der die Zähler aktualisiert werden, sind Sie wahrscheinlich nicht synchron.
Durch konfigurieren
Sie können das Intervall, in dem die SNMP-Zähler aktualisiert werden, auf etwa 1 Sekunde reduzieren. Dies sollte zu einem genaueren Wert für den Durchsatz führen, wenn Sie alle 10 Sekunden abfragen.
Zu Ihrer Information, dies ist ein versteckter Befehl.
quelle