Ich habe ein HP c7000 Blade-Chassis, das Cisco 3120X- und Cisco 3120G-Switches enthält, auf denen ios 12.2 (58) SE1 ausgeführt wird. Die Blades selbst sind sehr leicht belastet, dennoch weisen viele Schnittstellen an verschiedenen Blade-Switches im Chassis eine relativ hohe Anzahl von Leistungsabfällen auf. Wenn ich überprüfe, dass die Anzahl der Ausgaben wiederholt abfällt, sehe ich nicht nur, dass der Zähler zunimmt, sondern manchmal auch abnimmt. Die Zahlen korrelieren nicht mit den auf der Schnittstelle aufgezeichneten Paketen. QoS-Einstellungen sind Standardeinstellungen für die Plattform.
Die folgenden Proben wurden alle innerhalb eines Zeitraums von 30 Sekunden entnommen:
bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 2255550 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 451110 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 451110 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 902220 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Die Gesamtleistung sinkt auf 1353330 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 1804440 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 1804440 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 1804440 bc1019-3120-stack> sh int gi2 / 0/7 | ich gebe Tropfen aus Eingabewarteschlange: 0/75/0/0 (Größe / max / Tropfen / Flushes); Gesamtleistung sinkt: 451490 bc1019-3120-stack> sh int gi2 / 0/7 | Ich gebe Rate aus 5 Minuten Ausgaberate 301000 Bits / Sek., 119 Pakete / Sek
1) Gibt es irgendetwas anderes, das zu Ausgabeausfällen führen kann, außer dass der Server die Frames nicht schnell genug empfängt?
2) Wie viele Ausgabefälle kann der Schnittstellenzähler maximal aufzeichnen? Überschlägt es sich, wenn es das Maximum erreicht?
3) Was würde als eine gesunde Rate von Leistungsabfällen angesehen werden?
quelle
Antworten:
Wenn nicht jemand Zähler löscht, sollten Sie niemals Zähler vom Typ Kilometerzähler sehen (diejenigen, die aufgrund einer Paketaktion inkrementiert werden), sie sollten immer zunehmen. Dieser Teil klingt wie ein Bug.
Was insbesondere den Output betrifft, gibt es so viele verschiedene Ursachen, dass es sehr schwierig ist, ihn genau zu lokalisieren. Manchmal ist die Rückwandplatine des Switch überlastet, und diese können angezeigt werden, wenn die Ausgabe an der ausgehenden Schnittstelle abfällt. In seltenen Fällen können auch Mikrobursts auftreten, die bei einer Abfrage in Intervallen von 1 Minute nicht angezeigt werden und die Schnittstelle schnell überlasten, aber dann sehr schnell wieder herunterfallen. Ich würde vorschlagen, die SNMP-OID für Ausgabeeinbrüche zu nehmen und diese dann grafisch darzustellen und zu sehen, wie sie dem CLI-Zähler entspricht.
Im Allgemeinen möchten Sie keine Ausgabefehler, da diese auf ein Paket hinweisen, das es nicht zum Ziel geschafft hat. Aber wenn Sie Ihre Links heiß laufen lassen (was Sie sagen, dass Sie es nicht sind), sind sie zu einem gewissen Grad unvermeidbar, hauptsächlich aufgrund der Pufferung der inneren Schalter usw.
quelle
Mein erster Gedanke ist Unicast-Flooding, vor allem, wenn die Zähler über mehrere Ports im selben VLAN gleichzeitig erhöht werden. Ich stimme Aaron zu, dass das Dekrementieren des Zählers wie ein Bug klingt. Der Zähler wird sich wahrscheinlich um 2 ^ 64 drehen, aber das wird nicht innerhalb von Sekunden geschehen. Ich würde eine gesunde Rate von Leistungsabfällen als Null betrachten, aber dies ist nicht realistisch - selbst im Rechenzentrum. Machst du 10G Uplinks?
quelle
Scheint, als würdest du den Fehler CSCtq86186 treffen. Dieser Fehler wurde in den Jahren 3750 und 2960 gefunden, wirkt sich jedoch möglicherweise auch auf die Blade-Schalter aus.
quelle
Wenn es zu einer Unicast-Flut kommt, sollte sich dies schnell zeigen, wenn Sie Wireshark auf einem der Hosts ausführen oder einen der Ports überbrücken.
Klingt es so, als hätten Sie redundante Kerne in einer quadratischen Topologie? Fügen Sie in diesem Fall den folgenden Befehl zu Ihrer VLAN-Schnittstelle hinzu:
CAM-Tabellen enthalten Einträge für 5 Minuten, ARP-Tabellen für vier Stunden (Standardeinstellung). Durch Einstellen des ARP auf die CAM kann die Unicast-Überflutung auf Kosten einer geringfügigen Erhöhung der CPU beseitigt werden. Catalyst 6500/6000 Switches ARP- oder CAM-Tabelle - Fehlerbehebung
quelle
Ausgangsverluste sind bei kleineren Schaltern mit kleinen Puffern eher üblich, da jeder Burst den Puffer erschöpft. Ich bin mit der 3120 nicht wirklich vertraut, daher kann ich nicht für die Größe des Puffers sprechen, aber zumindest ist dies ein häufiger Grund, bis man zu Leistungseinbrüchen kommen könnte.
Die spezifischen Gründe sind Head-of-Line-Blocking (HOLB), bei dem mehrere Quellports an ein Ziel gesendet werden und es zu einer Überlastung kommt. Ein weiterer häufiger Grund ist der Wechsel von einer höheren zu einer niedrigeren Portgeschwindigkeit, dh von 10G zu 1G oder von 40G zu 10G.
Ich empfehle, show controller ethernet-controller X auszuführen, wobei X Ihr Port ist. Sie sollten einige Informationen zu Ausgabefehlern erhalten, z. B. wenn versucht wird, Daten in großen Frames auszugeben, was passieren kann, wenn Sie keine konsistente MTU in Ihrem Netzwerk haben.
quelle