Fehlerbehebung bei "Down BGP" -Verbindungen

21

Unser Netzwerk hatte gestern einen kurzen Ausfall, als eine unserer BGP-Strecken für kurze Zeit ausfiel. Zum Glück sind unsere Verbindungen nach ein paar Minuten auf unsere sekundäre BGP-Route übergegangen, und die primäre Route wurde nach einem Shut / No-Shut auf der ISP-Seite betriebsbereit.

Wir verwenden zwei gestapelte Cisco 3750e-Switches (Backplane) mit iOS 12.2.

In meinem Gespräch mit unserem ISP konnten sie keine endgültigen Antworten auf die Ursache geben. Können wir irgendetwas tun, um die Ursache für unser Ende herauszufinden und dieses Problem in Zukunft zu vermeiden?

Zum Zeitpunkt des Fehlers protokollieren

172258: May  6 14:43:06: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Down BGP Notification sent
172259: May  6 14:43:06: %BGP-3-NOTIFICATION: sent to neighbor xxx.xxx.12.34 4/0 (hold time expired) 0 bytes
172260: May  6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Multicast topology base removed from session  BGP Notification sent
172261: May  6 14:43:06: %BGP_SESSION-5-ADJCHANGE: neighbor xxx.xxx.12.34 IPv4 Unicast topology base removed from session  BGP Notification sent

Protokollieren Sie, wann der ISP einen Shut / No-Shut-Vorgang durchgeführt hat, um BGP auf seiner Seite zurückzusetzen

172542: May  6 15:04:15: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to down
172543: May  6 15:04:16: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to down
172544: May  6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 DOWN on interface GigabitEthernet2/0/49 non DR
172545: May  6 15:04:16: %PIM-5-NBRCHG: neighbor xxx.xxx.12.34 UP on interface GigabitEthernet2/0/49 
172546: May  6 15:04:16: %PIM-5-DRCHG: DR change from neighbor 0.0.0.0 to xxx.xxx.12.35 on interface GigabitEthernet2/0/49
172547: May  6 15:04:18: %LINK-3-UPDOWN: Interface GigabitEthernet2/0/49, changed state to up
172548: May  6 15:04:19: %LINEPROTO-5-UPDOWN: Line protocol on Interface GigabitEthernet2/0/49, changed state to up

Loggen Sie sich ein, wenn die BGP-Verbindung endlich von Leerlauf auf Hoch ging

172828: May  6 15:27:33: %BGP-5-ADJCHANGE: neighbor xxx.xxx.12.34 Up

BGP-Schnittstelle auf unserer Seite (Hinweis: kein CRC, Stürze, Kollisionen gemeldet ...)

GigabitEthernet2/0/49 is up, line protocol is up (connected)
Hardware is Gigabit Ethernet, address is xxxx.xxxx
Internet address is xxx.xxx.12.35/31
MTU 1500 bytes, BW 1000000 Kbit/sec, DLY 10 usec,
reliability 255/255, txload 1/255, rxload 3/255
Encapsulation ARPA, loopback not set
Keepalive not set
Full-duplex, 1000Mb/s, link type is auto, media type is 1000BaseLX SFP
input flow-control is off, output flow-control is unsupported
ARP type: ARPA, ARP Timeout 04:00:00
Last input 00:00:09, output 00:00:12, output hang never
Last clearing of "show interface" counters never
Input queue: 0/75/52/0 (size/max/drops/flushes); Total output drops: 0
Queueing strategy: fifo
Output queue: 0/40 (size/max)
5 minute input rate 14536000 bits/sec, 1655 packets/sec
5 minute output rate 1010000 bits/sec, 640 packets/sec
413176726 packets input, 428902543141 bytes, 0 no buffer
Received 143495 broadcasts (0 IP multicasts)
0 runts, 0 giants, 0 throttles
0 input errors, 0 CRC, 0 frame, 0 overrun, 0 ignored
0 watchdog, 139275 multicast, 0 pause input
0 input packets with dribble condition detected
125748632 packets output, 42915625632 bytes, 0 underruns
0 output errors, 0 collisions, 0 interface resets
0 unknown protocol drops
0 babbles, 0 late collision, 0 deferred
0 lost carrier, 0 no carrier, 0 pause output
0 output buffer failures, 0 output buffers swapped out
John Lee
quelle
beachte, dass es in Meta (schon!) eine Diskussion über Tags gibt. Bitte überlegen Sie (oder gehen Sie zu Meta und Glockenspiel), wie Sie aus Ihrem Cisco-Modellnummernschild eine MANUFAC-MODELSERIES machen können ... Sie sind sich nicht sicher, ob es sich um eine 3750e handelt, aber vielleicht handelt es sich um eine 3700er-Serie? Also dann "cisco-3700" für den Tag. Sonst wird es ein Meer von Hardware-Modellsuppe sein. Bitte bewahren Sie auch Ihr 'cisco'-Tag auf, damit die Leute auch nach' cisco 'suchen / diesen folgen / sie abonnieren können.
Craig Constantine
Fertig wie vorgeschlagen.
John Lee
Es wird nicht erwähnt, ob die 2 BGP-Peers direkt verbunden sind oder nicht. Wenn sich ein anderes Gerät zwischen ihnen befindet, können eine Vielzahl anderer möglicher Probleme von ihnen generiert werden.
Noaru
Als Cisco-3750 umbenannt, da der 3700 ein älteres Router-Modell ist. Die Catalyst-Schalter sind 3750.
Dave Noonan
@noaru die 2 BGP-Peers sind direkt verbunden.
John Lee

Antworten:

19

172259: 6. Mai, 14:43:06 Uhr:% BGP-3-NOTIFICATION: an Nachbarn gesendet xxx.xxx.12.34 4/0 (Haltezeit abgelaufen) 0 Byte

Das bedeutet im Allgemeinen, dass die andere Seite der Verbindung nicht auf Keepalives innerhalb des Hold-Timers reagiert hat (Standard: 180 Sekunden). Es gibt eine Vielzahl von Problemen, die dies verursacht haben könnten. Normalerweise handelt es sich um ein Problem mit der Erreichbarkeit der Ebene 3. Wenn es wieder vorkommt, sollten Sie das Layer3-Problem ausschließen, indem Sie dem Peer über Ping und Telnet (Telnet an Port 179, prüfen Sie, ob es antwortet) einen Test unterbreiten.

Wenn es sich nicht um ein Problem mit der Erreichbarkeit der Ebene 3 handelt, liegt ein Problem mit einem Ende der Nachbarschaft vor (in diesem Fall eher mit der Gegenseite).

Justin Seabrook-Rocha
quelle
4

Wenn Sie nur nach der Ursache dieses Problems suchen:

Möglicherweise möchten Sie Ihren Provider fragen, ob unmittelbar vor diesem Ereignis Konfigurationsänderungen an dessen Ende vorgenommen wurden. Es gibt Fälle auf Cisco-Routern (bei denen nicht 100% sicher ist, welcher Code sich gerade dreht), in denen BGP-Sitzungen aufflammen, wenn eine Seite eine "Routenkarte" mit einer "mpls-ip" und / oder einer "mtu" entfernt und erneut hinzufügt "Konfiguration im BGP - Peering. Obwohl diese Art der Wartung keine Probleme mit der Peeringsitzung verursachen sollte, habe ich davon gehört.

Ich bin mir auch nicht sicher, ob sie die Schnittstelle löschen und neu starten müssten, um das Problem zu beheben. Ich denke, ein einfaches Zurücksetzen der Peering-Sitzung hätte ausgereicht, aber wenn zum Zeitpunkt des Ausfalls kein Datenverkehr übertragen wurde, könnte man argumentieren, dass es keine Rolle spielt, dass sie die Schnittstelle fallen lassen, um die Dinge wieder zum Laufen zu bringen.

GoatAtWork
quelle
Ich habe noch nichts von einem Zurücksetzen der Peeringsitzung gehört. Ist es ähnlich wie hier erwähnt? link Kann ich auf unserer Seite auch etwas tun, um die Verbindung zurückzusetzen?
John Lee
1
Es ist nur ein einfaches 'clear ip bgp nei xx.xx.xx.xx', auch bekannt als 'clearing the session'. Es setzt einfach die BGP-Nachbarschaft zurück (hartes Löschen bringt die Sitzung zum Erliegen und stellt sie wieder her).
Justin Seabrook-Rocha
Schnelle Frage: Muss das 'clear ip bgp nei' auf der ISP-Seite durchgeführt werden oder hätten wir es auch initiieren können?
John Lee
Jedes Ende kann das Löschen der Sitzung einleiten. Manchmal, wenn "seltsame" Dinge passieren, wie hier, lohnt es sich, es an beiden Enden zu versuchen. Ich würde jedes Ende nach dem anderen tun, nur um Fehler zu beheben.
GoatAtWork
Es ist erwähnenswert, dass Sie einen Soft-Reset durchführen können (fügen Sie einfach das Schlüsselwort 'soft' am Ende des Befehls hinzu) - es erzwingt das erneute Senden von Aktualisierungen, ohne die Verbindung (und die Nachbarbeziehung) zu unterbrechen.
Noaru
4

Es könnte ein MTU-Problem sein. Hatte das vor einer Weile. Startet einwandfrei, aber wenn ein UPDATE mit vielen Routen empfangen wird, geht es aufgrund einer MTU-Nichtübereinstimmung verloren. Auch wenn Sie L2-Geräte (Switch? Media Converter?) Zwischen Ihren beiden Routern haben, kann es sein, dass die Verbindung unterbrochen wird, ohne dass die Schnittstelle ausfällt.

Sebastian Wiesinger
quelle
0

Nicht von dem, was ich sehe. Der Router Ihres Internetdienstanbieters reagiert nicht mehr auf die Begrüßungsnachrichten Ihres Routers, weshalb Sie Ihre BGP-Verbindung verloren haben. Es ist auch möglich, dass Ihr Router die Begrüßungsnachrichten des Internetdienstanbieters nicht mehr abhört. In den Nachrichten wird jedoch nichts angezeigt, was zur Klärung des Problems beitragen könnte. Vielleicht kann jemand, der sich mehr auf die ISP-Spur konzentriert, etwas kommentieren und Licht ins Dunkel bringen?

Avery Abbott
quelle
Du meinst Keepalives, keine Hallo-Nachrichten - das ist BGP, nicht OSPF.
Niels
Danke ja Manchmal bin ich ein bisschen durcheinander.
Avery Abbott