Fibre-Channel-Fernweh

52

Ich brauche ein paar frische Augen.

Wir verwenden eine 15 km lange Glasfaserleitung, über die Faserkanal und 10 GbE gemultiplext werden (passives optisches CWDM). Für FC haben wir Langstreckenlaser, die bis zu 40 km lang sind ( Skylane SFCxx0404F0D ). Der Multiplexer ist durch die SFPs begrenzt, die max. 4 Gbit Faserkanal. Der FC-Switch ist eine Brocade 5000-Serie. Die jeweiligen Wellenlängen betragen 1550, 1570, 1590 und 1610 nm für FC und 1530 nm für 10 GbE.

Das Problem ist, dass die 4GbFC-Stoffe so gut wie nie sauber sind. Manchmal sind sie für eine Weile sogar mit viel Verkehr auf ihnen. Dann können sie plötzlich anfangen, Fehler zu produzieren (RX CRC, RX-Codierung, RX-Disparität, ...), selbst wenn nur geringfügiger Datenverkehr auf ihnen vorhanden ist. Ich füge einige Fehler- und Verkehrsdiagramme an. Fehler liegen derzeit in der Größenordnung von 50 bis 100 Fehlern pro 5 Minuten bei 1 Gbit / s Datenverkehr.


Optik

Hier ist die Ausgangsleistung eines Ports zusammengefasst (gesammelt mit sfpshowverschiedenen Switches)

SITE-A-Einheiten = uW (Mikrowatt) SITE-B
**********************************************
FAB1
SW1 TX 1234.3 RX 49.1 SW3 1550nm (ko)
      RX 95.2 TX 1175.6
FAB2
SW2 TX 1422.0 RX 104.6 SW4 1610nm (ok)
      RX 54.3 TX 1468.4      

Was ich an dieser Stelle neugierig finde, ist die Asymmetrie in den Leistungsstufen. Während SW2 mit 1422uW sendet und SW4 mit 104uW empfängt, empfängt SW2 nur mit 54uW das SW4-Signal mit ähnlicher Ausgangsleistung.

Umgekehrt für SW1-3.

Auf jeden Fall haben die SFPs eine Empfangsempfindlichkeit von bis zu -18dBm (ca. 20uW), also sollte es auf jeden Fall in Ordnung sein ... Aber nichts ist.

Einige SFPs wurden vom Hersteller als fehlerhaft diagnostiziert (die oben gezeigten mit "ko"). Die 1610nm sind anscheinend in Ordnung, sie wurden mit einem Verkehrsgenerator getestet. Die Standleitung wurde ebenfalls mehrmals getestet. Alles ist innerhalb der Toleranzen. Ich warte auf die Ersetzungen, aber aus irgendeinem Grund glaube ich nicht, dass es die Dinge verbessern wird, da die scheinbar guten auch keine ZERO-Fehler produzieren.

Früher waren aktive Geräte beteiligt (eine Art 4GFC-Retimer), bevor das Signal auf die Leitung gelegt wurde. Keine Ahnung warum. Diese Ausrüstung wurde aufgrund der Probleme beseitigt, so dass wir jetzt nur noch haben:

  • der Fernlaser im Schalter,
  • (neu) 10 m LC-SC-Monomode-Kabel zum Mux (für jedes Fabric),
  • die Mietleitung,
  • das gleiche, aber umgekehrt auf der anderen Seite des Links.


FC schaltet

Hier ist eine Portkonfiguration von Brocade portcfgshow(das ist natürlich auf beiden Seiten so)

Bereichsnummer: 0
Geschwindigkeitsstufe: 4G
Füllwort (Aktiv) 0 (Leerlauf-Leerlauf)
Füllwort (aktuell) 0 (Leerlauf-Leerlauf)
AL_PA Offset 13: AUS
Amtsanschluss EIN
Langstrecken-LS
VC Link Init OFF
Gewünschte Entfernung 32 Km
Reservierte Puffer 70
L_Port gesperrt AUS
G_Port gesperrt AUS
Disabled E_Port OFF
E_Port gesperrt AUS
ISL R_RDY-Modus AUS
RSCN unterdrückt AUS
Dauerhafte Deaktivierung AUS
LOS TOV aktivieren AUS
NPIV-Fähigkeit EIN
QOS E_Port OFF
Port Auto Disable: AUS
Ratenbegrenzung AUS
EX Port AUS
Spiegelanschluss AUS
Guthabenwiederherstellung EIN
F_Port Buffers OFF
Fehlerverzögerung: 0 (R_A_TOV)
NPIV PP-Limit: 126
CSCTL-Modus: AUS

Das Erzwingen der Links zu 2GbFC führt zu keinen Fehlern, aber wir haben 4GbFC gekauft und wollen 4GbFC.

Fehler- und Verkehrsgraphen

Ich weiß nicht mehr, wo ich suchen soll. Irgendwelche Ideen, was als nächstes zu versuchen ist oder wie es weitergeht?

Wenn 4GbFC nicht zuverlässig funktioniert, frage ich mich, was die Leute machen, die mit 8 oder 16 arbeiten ... Ich gehe nicht davon aus, dass "ein paar Fehler hier und da" akzeptabel sind.

Übrigens stehen wir mit allen Herstellern in Kontakt (FC-Switch, MUX, SFPs, ...). Außer den SFPs, die geändert werden müssen (einige wurden zuvor geändert), hat niemand eine Ahnung. Brocade SAN Health sagt, dass der Stoff in Ordnung ist. MUX, na ja, es ist passiv, es ist nur ein Prisma, Natur vom Feinsten.

Irgendwelche Aufnahmen im Dunkeln?


ANHANG: Antworten auf Ihre Fragen

@ Chopper3: Dies ist die zweite Generation von Brocades, die das Problem aufweist. Früher hatten wir 5000, jetzt haben wir 5100. Zu Beginn, als wir noch den aktiven MUX hatten, haben wir einmal einen Langstreckenlaser gemietet, um ihn direkt in den Schalter zu stecken, um Tests für einen Tag durchzuführen, an diesem Tag war er natürlich sauber. Aber wie gesagt, manchmal ist es einfach so sauber. Und manchmal ist es nicht. Alternative Switches würden bedeuten, das gesamte SAN neu zu erstellen und nur zu testen. Alternative SFPs, na ja, sie sind einfach so schwer zu bekommen.

@longneck: Die Leitung ist vermietet. Es ist eine dunkle Faser (9um Monomode), also ist sonst niemand drauf. Klar gibt es Spleiße. Ich kann nicht hinschauen, aber ich muss darauf vertrauen, dass sie richtig gemacht wurden. Wie gesagt, die Leitung wurde überprüft und erneut überprüft (unter Verwendung eines optischen Zeitbereichsreflektometers). Offensichtlich haben Sie nicht alle diese Ausrüstung selbst, weil es viel zu teuer ist.

@mdpc: Was wäre für dich der "falsche" Kabeltyp? Bis auf den Schalter ist alles Monomode, ja. Die Anschlüsse sind auch die richtigen. Ja, ich weiß, dass es die grünen gibt, bei denen die Faser in einem bestimmten Winkel abgeschnitten ist usw. Aber wir haben die richtigen für alles, was ich weiß.


Fortschrittsbericht Nr. 1

Wir hatten zwei Fabrics (= 2x2 Switches) mit Brocade 5100s mit FabricOS 6.4.1 und zwei Fabrics (weitere 2x4 Switches) mit FabricOS 7.0.2.

Bei den ISLs für große Entfernungen (eine in jedem Fabric) stellte sich heraus, dass bei FOS 6.4.1 für große Entfernungen Warnungen bezüglich der VC Init-Einstellung und folglich des Füllworts ausgegeben wurden. Das sind aber nur Warnungen. In FOS 7.0.2 müssen Sie Änderungen an VCI und dem Füllwort für Fernverbindungen vornehmen.

Das Setzen von FOS 6.4.1 auf die LS-Einstellung (Long Distance Static Distance) mit falscher VCI- und Füllworteinstellung hat den gesamten Stoff funktionsunfähig gemacht (in einer SCN-Schleife stecken, verwenden, um fabriclog -szu sehen, Sie sehen es nirgendwo anders, kein Portfehler) Zähler oder irgendetwas Steigendes).

Momentan gebe ich dem einen Stoff mit den IMHO korrekteren Einstellungen einen Schlag und es scheint in Ordnung zu sein, während der andere ohne viel Verkehr immer noch hier und da Fehler hat.

Fortschritt1

Zusamenfassend:

  • Wir haben den aktiven Teil des MUX (den FC-Retimer) eliminiert.
  • Wir bauen die Langstrecken-SFPs selbst in die Endgeräte ein.
  • Um sicherzugehen, haben wir neue Monomode-Kabel gekauft, um die Endgeräte mit dem verbleibenden passiven Teil des MUX zu verbinden.
  • Wir probieren jetzt einige Fernkonfigurationen aus.

Es ist fast schwarze Magie. Alles, was passiert, ist größtenteils empirisch, niemand scheint eine Ahnung zu haben, was die genauen Gründe sind, etwas zu tun. ("Wir haben es versucht und es hat nicht funktioniert, dann haben wir es versucht und es hat funktioniert, also sind wir dabei geblieben." Aber niemand scheint wirklich zu wissen warum.)

Ich halte dich auf dem Laufenden.


Fortschrittsbericht Nr. 2

Wir haben die neuen Laser für eines der Stoffe auf Garantie bekommen. Es ist auch bei 4GbFC extrem sauber.

Sie senden mit ungefähr 2 mW (3 dBm), während die anderen nur mit 1,5 mW (1,5 dBm) arbeiten, obwohl das eigentlich ausreichen sollte.

Das andere Gewebe (wo die Laser anscheinend in Ordnung sind) erzeugt immer noch ein oder zwei CRCs selten.

Mit sfpshowdem SFP werden die tatsächlichen Empfangsfehler angezeigt

Status / Strg: 0x82
Alarmflags [0,1] = 0x5, 0x40
Warnflags [0,1] = 0x5, 0x40

Jetzt muss ich herausfinden, was das bedeutet. Ich bin mir nicht sicher, ob es vorher da war.

Nun, ich werde zuerst meinen Kopf mit einer Woche Urlaub klären. 8-)

Marki
quelle
8
Zuallererst tolle Frage, wofür genau diese Seite gut gemacht ist. Zweitens, haben Sie Zugang zu alternativen Switches / SFPs - idealerweise einem anderen Hersteller / Modell, das Sie zum Testen eintauschen könnten?
Chopper3
4
Tolles Update, mach weiter so, wünschte ich hätte ein paar Vorschläge oder Ratschläge, aber du bist auf dem richtigen Weg, schön, einen neuen Benutzer auf SF zu finden, der sich auskennt :)
Chopper3
1
Gibt es Konsistenzen in der Zeit oder Dauer der Fehler? Treten sie immer um N Uhr auf? Dauern sie immer X Minuten? Kannst du sie mit dem Wetter, nahegelegenen Sportereignissen oder anderen Phänomenen in Verbindung bringen? Zeitweise auftretende Probleme sind die am schwersten zu bekämpfenden Fehler, und ich beginne sie normalerweise, indem ich die Zeiten und die Dauer auf einem Whiteboard aufzeichne. Hoffentlich entstehen Muster, die mit anderen Phänomenen korreliert werden könnten .
Dotancohen
2
Verfolgen Sie sie auf einem Whiteboard, das für alle sichtbar ist ? Ich werde nicht drücken, aber ich kann es nur empfehlen. Wie Sie sagten, brauchen Sie ein neues Paar Augen, und vielleicht sieht jemand in Ihrer Organisation, dass das Muster aus den Zeiten / Dauern und nicht unbedingt aus den Symptomen hervorgeht.
Dotancohen
1
Hallo Marki. Ich bin nicht ganz vertraut mit dem, wovon Sie sprechen, aber bei Ihrem letzten Update scheint es, als ob das Problem durch die Ersatz-SFPs behoben wurde. Wenn ja, ist es wahrscheinlich eine gute Idee, dies als Antwort zu posten und eine neue Frage zu stellen, wenn Sie weitere Probleme haben.
Mark Henderson

Antworten:

4

Ok, ich denke, ich muss eine Antwort posten. Mit einem Wort heißt es: Bestehen .

Das Problem ist nicht zu 100% nach meinem Geschmack gelöst, da wir immer noch eine Fabric mit 1 (einem) CRC-Fehler haben. Der andere ist sauber. Aber damit kann ich leben.

In jedem Fall werden wir die CWDM-Einheiten nicht sehr lange nutzen, sondern im nächsten Jahr auf einen passiven DWDM-Multiplexer umsteigen, da sich unsere Infrastruktur stark verändern wird. Anscheinend sind DWDM-Laser auch günstiger als die CWDM-Laser. Oh, wir werden sehen und vielleicht habe ich dann viele Probleme, dich zu fragen :-)


Update Nein, wir haben CWDM wieder gekauft und es ist wirklich günstiger. AFAICS für bestimmte Anwendungen jedoch Sie haben zu DWDM gehen , weil es kein CWDM - Laser für sie ist. Schließlich haben wir versucht, so nah wie möglich an den Hersteller heranzukommen, und das Ganze kostete etwa ein Fünftel des Preises im Vergleich zum Kauf bei einem Händler oder sogar einem Integrator.


Wenn Sie also eine Lösung gekauft haben, die nicht wie erwartet funktioniert, kann ich daraus schließen: Bestehen Sie darauf. Auf der technischen Seite haben wir zwei Dinge getan

  • entferne den aktiven Teil des MUX (kann nicht sagen, dass ich das bedaure, aber auch nicht sicher bin, ob das endlich eine andere Fehlerquelle war oder nicht)
  • Lassen Sie die SFPs gründlich überprüfen

(Und natürlich alle Standarddiagnosen, ändern Sie eine Sache nach der anderen, sehen Sie, was passiert usw., brauchen Sie das nicht zu sagen. Also haben wir auch jede Leitung und jedes Kabel usw. überprüft, leider auf unsere Kosten.)

In diesem Fall dauerte es lange, bis wir endlich auf dem Niveau waren, auf dem der Hersteller selbst ein paar Leute und einige Geräte für die Durchführung der Überprüfungen erspart hatte, die geholfen haben. Und natürlich mussten wir den Integrator dafür bezahlen, da unsere Hardware gewartet wird. Dies war also sowohl eine kommerzielle als auch eine technische Herausforderung.

PS. Ach ja, die Flaggen, die ich in meinem letzten Update erwähnt habe, zeigten nichts Schlechtes an, aber ich erinnere mich nicht, was sie genau bedeuteten. Wenn ich die Aussage finde, aktualisiere ich der Vollständigkeit halber die Antwort.


Am Ende bedeuteten die Flaggen doch etwas Schlimmes. Anscheinend ist es jedoch nicht sicher, welche Seite des Links die Ursache für die Fehler ist. Also muss dieses Paar auch geändert werden.

Übrigens sind 8GbFC-DWDM-Transceiver nur im Vergleich zu 8G CWDM billiger ;-) Der billigste Weg ist 4GbFC auf CWDM und verwenden Sie dann ISL-Trunking (wenn Sie die Lizenz haben)

Marki
quelle
Das habe ich auf Nachfrage leider nicht gesehen. Ich kann Ihnen nicht sicher sagen, dass dies helfen würde, aber wenn Sie Füllwörter im Leerlauf verwenden, senden Sie viel Licht. Das bedeutet, dass jeder unbenutzte Frame viel Strom verbraucht und viel Wärme auf dem SFP erzeugt, denke ich. Wenn Sie das Füllwort in einen anderen Modus ändern (ich verwende Modus 3, aber ich habe einen anderen Schalter und SFP), können Sie möglicherweise mehr Durchsatz mit weniger Fehlern erzielen.
Basil
@Basil Ich wusste, dass die Verwendung des richtigen Füllworts ein Problem für die Wortsynchronisation bei 8GFC ist, aber ich habe es mir so überlegt ...
Marki
Es wird empfohlen, wann immer Sie es verwenden können - soweit ich das beurteilen kann, handelt es sich um die Frage, wie viel Interferenz ein inaktiver Frame verursacht, der seinen SFP erzeugt.
Basil