Fehlerbehebung in einem "langsamen" Netzwerk

21

Wir alle hatten eine Beschwerde, dass das "Netzwerk" irgendwann "langsam" sei: Möglicherweise in einem Raum (Switch) oder auf einem Computer, möglicherweise nur im Internet (DNS? Browser-Problem?), Möglicherweise nur in einer Anwendung (Langzeit-SQL-Abfragen? AV-Scan läuft?).

Wie können Sie ein Netzwerk auf Langsamkeit oder fehlerhaftes Verhalten testen, wenn Sie offensichtliche System- und / oder Anwendungsprobleme ausgeschlossen haben? Arbeiten Sie sich die OSI-Ebenen hoch? Wenn ja, wie gehen Sie vor, um jede Schicht zu überprüfen? Was tun Sie, um sicherzustellen, dass das physische Netzwerk in einer unbekannten Umgebung in Ordnung ist? Was ist mit zu vielen Sendungen oder einem Sendesturm? Schicht 3 und höher? traceroute? Irgendwelche anderen Tipps, Methoden, Ideen? Notwendige Funktionen und Tools (Portspiegelung, SNMP, Überwachung usw.) für alle Netzwerkgrößen?

WuckaChucka
quelle
1
Möglicherweise, aber ich dachte mir, dass ein Wiki eine etwas längere Lebensdauer haben und mehr Menschen die Möglichkeit geben würde, einen Beitrag zu leisten.
WuckaChucka
Zunächst muss ich überzeugt sein, dass es das "Internet" ist! Meistens ist es dann nicht das "Internet". Die meisten Lusers, die ich schon gesehen habe, sagen, dass die Internets heruntergefahren sind, auch wenn sie versuchen, auf einen lokalen Dateiserver zuzugreifen.
Tony Roth
2
Das liegt daran, dass alle Ihre Benutzer gerade Video-Feeds der WM streamen!
BillN

Antworten:

9

tcpdump und wireshark sind deine Freunde.

Ich finde, dass das Beobachten von Paketen auf der Leitung eines "langsamen" Netzwerks im Vergleich zu einem "guten" Netzwerk normalerweise ein Problem darstellt.

Es gibt viele Arten von "langsam".

Mit einem Tool wie SmokePing können Sie die Latenz zu lokalen und Internetseiten verfolgen. (SmokePing kann so konfiguriert werden, dass die ICMP-Latenz sowie die Dienstlatenz von TCP-Diensten verfolgt werden.)

Ihre Switches sollten Broadcast-Pakete im Vergleich zu Unicast-Paketen verfolgen. Stellen Sie dieses Verhältnis grafisch dar.

Ich mag es auch, Traceroutes zu überwachen (Domain-Namen von ISP-Hops zwischen mir "wichtigen" Sites zu überprüfen).

Ich hoffe diese Kommentare helfen.

Joel K
quelle
1
Nach was suchen Sie beim Ansehen von Paketen oder nach "verräterischen Anzeichen", dass ein Problem vorliegt?
WuckaChucka
3
Suchen Sie nach einer großen Anzahl von TCP-Neuübertragungen und / oder TCP-Zurücksetzungen. Achten Sie auch auf einen hohen Prozentsatz des Broadcast-Verkehrs.
Joeqwerty
Ausgezeichnet. Ich würde das fast in eine separate Antwort schreiben.
WuckaChucka
Wenn Sie Netmon 3+ von MS verwenden können, gehen Sie zu Microsoft Research und laden Sie den TCP-Analyzer herunter. research.microsoft.com/en-us/downloads/ . bei bedarf gibt es auch eine 32bit version.
Tony Roth
+1 für SmokePing. Dies kann zusammen mit IPSLA in Cisco-Routern und -Switches einen wichtigen Beitrag zum Verständnis eines langsamen Netzwerks oder einer langsamen Anwendung leisten.
Christopher Cashell
6

Es ist schwierig, konkrete Antworten zu geben, da 90% dieses Jobs Erfahrung sind, die Ihnen zeigt, wo Sie nach welcher Art von Problem suchen müssen, und die anderen 90% wissen, wo Sie bei Google nach Hinweisen suchen müssen, wo Sie anfangen sollen.

Normalerweise probiere ich die Papiertüte aus, um den Kunden dazu zu bringen, das Problem zu demonstrieren (hauptsächlich, um Fingerprobleme und Probleme, die der Kunde möglicherweise beschreibt, auszuschließen), und versuche dann, das Problem auf einem anderen Computer zu duplizieren. Wenn Sie das oft tun, erhalten Sie einen Einblick, wo Sie suchen müssen.

Vergessen Sie nicht das Korrekturproblem eines Neustarts, insbesondere für Windows-Systeme, auch heute noch. Früher war das so, dass ich die Leute gefragt habe: "Haben Sie einen Neustart durchgeführt? Versuchen Sie das und lassen Sie mich wissen, ob das Problem weiterhin besteht." Damit wurde ein sehr großer Prozentsatz der Probleme behoben, nach denen ich gefragt wurde.

Probleme mit der DNS-Auflösung und grundlegende Konnektivitätsprobleme (ACLs auf Routern, Lücken im Netzwerk, Pings / Traceroutes / Mtrs zu Remotestandorten usw.) lassen häufig zu wünschen übrig.

Bei Diensten, über die Sie die direkte Kontrolle haben, kann das Ausführen von Nagios oder etwas, das sicherstellt, dass der Dienst tatsächlich ausgeführt wird, häufig dazu führen, dass Sie Probleme beheben, bevor Kunden Sie darüber informieren. Sie möchten wahrscheinlich auch Statistiken sammeln, entweder direkt über Munin oder so oder über SNMP zu so etwas wie Cacti.

Normalerweise versuche ich, Cacti gegen mindestens alle meine Core-Switches und Firewalls laufen zu lassen. Wo immer möglich, laufe ich Cacti gegen alles, was ich kann. In diesen Fällen suche ich normalerweise nach Dingen wie Portfehlerzählungen oder übermäßigem Datenverkehr. Firewall-Diagramme von einigen Geräten können die CPU-Auslastung und gleichzeitige Sitzungen anzeigen. Sie erfahren, ab welchen Schwellenwerten Probleme mit Ihrem Firewall-Gerät auftreten.

Ihre Firewall kann sich möglicherweise bei einem Syslog-Gerät anmelden. Wenn ja, protokollieren Sie alles, was Sie können, und durchsuchen Sie diese nach Hinweisen. Dies ist einfacher, wenn Sie so etwas wie syslog-ng oder rsyslog oder splunk ausführen, mit dem Sie Ihre Protokolle etwas aufteilen können, anstatt mit einer einzigen monolithischen Datei zu arbeiten.

Ich versuche auch, nfsen gegen mindestens das Innere meiner Firewall und den Uplink zum Internetprovider auszuführen, wo dies möglich ist. Auf diese Weise können Sie die Zeit zurückverfolgen, um in Sitzungen zu sehen, wer was getan hat. Dies kann manchmal interessante Verhaltensweisen auffangen.

David Mackintosh
quelle
5

Im Folgenden finden Sie einige nützliche Tools zur Behebung von Wartezeiten und anderen Netzwerkproblemen:

  • Der OSI-Modus l - Beginnen Sie von unten und arbeiten Sie sich nach oben
  • ping - überprüfe deine RTT (zB Latenz)
  • HTTP-Ping - Nützlich, wenn Ihre Firewall normale ICMPs blockiert
  • ping -r 9 - Nützlich zum Identifizieren asymmetrischer Routingsituationen
  • traceroute - Wie kommen meine Pakete dorthin und wie reagieren die Router auf dem Weg? Beachten Sie, dass Router diese Pakete häufig mit niedriger Priorität verarbeiten, sodass die tatsächliche Leistung möglicherweise besser ist.
  • Wireshark - braucht etwas Fachwissen, aber Sie können nicht viel niedrigeres Niveau erreichen
  • SpeedGuide.net TCP / IP Analyzer - Überprüfen Sie die TCP-Einstellungen Ihres PCs
  • SG TCP Optimizer - (nur Windows) bietet Möglichkeiten zur Optimierung Ihrer NIC-Einstellungen
  • IP Chicken - Wie lautet Ihre Quell-IP-Adresse (ohne NAT)?
  • http://downforeveryoneorjustme.com/ - vielleicht ist es Ihnen ...
  • Bandbreitentest - Überprüfen Sie Ihre Download- / Upload-Geschwindigkeit
  • Netzwerk-Tools - Führen Sie Tools / Tests von außerhalb Ihres Netzwerks aus
  • Überprüfen Sie Ihre Netzwerkanschlüsse auf Fehler / CRCs / etc. -
  • Überprüfen Sie Ihr Netzwerk auf Überlastung (Bandbreitenüberwachung) und Broadcast-Stürme
  • Auf Unicast-Überflutung prüfen - Verwenden Sie Wireshark und überwachen Sie den Unicast-Verkehr, der nicht für Ihre Workstation bestimmt ist.
  • Stellen Sie sicher, dass Ihre Spanning-Tree-Root-Bridge ordnungsgemäß platziert ist
Peter
quelle
Wenn das ping -r abläuft, was bedeutet das? Zum Beispiel ping 8.8.8.8funktioniert a, aber ping -r 9 8.8.8.8nicht
Michiel van Vaardegem
4

Wenn Sie ein drahtloses Netzwerk betreiben, ist eine der häufigsten Verlangsamungen eine Kanalstörung. Eine Reihe von SSIDs in einem Bereich kann den Netzwerkverkehr erheblich verlangsamen. (Denken Sie: die Demo des iPhone 4 auf der WWDC '10).

Die Behebung dieses Problems ist recht einfach, wenn Sie eine Software verwenden, die die Funkverkehrsmuster in der Umgebung anzeigt. Es gibt eine gute kostenlose und webbasierte Version unter : http://meraki.com/tools/stumbler . (Offenlegung: Ich arbeite für Meraki)

Um Interferenzen zu reduzieren, sollten Sie sich am besten auf den Kanälen 1, 6 oder 11 befinden. Die Verwendung von 802.11n-Geräten mit einer Frequenz von 5 GHz kann ebenfalls hilfreich sein.

Joeybaker
quelle
1

Ich beginne immer damit, das Layer 2-Material mit Cacti zu überwachen . Auf diese Weise erhalten Sie eine große Menge an Daten, mit denen Sie nach Mustern suchen und Ihre Kakteen-Grafiken vergleichen können, wenn alles gut funktioniert, und wenn die Benutzer Langsamkeit bemerken.

Es wird wahrscheinlich nicht das genaue Problem finden, aber es gibt Ihnen einen guten Ausgangspunkt, um das Problem einzugrenzen.

TonyB
quelle
Was genau suchen Sie in den Kakteen-Diagrammen?
WuckaChucka
1

Ich beginne am äußersten Router und arbeite mich nach unten. Dabei messe ich die Leistung auf primitivste Weise: Verwenden Sie eine Website zum Testen der Bandbreite oder eine bekannte externe FTP-Site, die Ihnen die Upload- / Download-Geschwindigkeit vorgibt, und fahren Sie fort, bis Sie fertig sind Finden Sie die Ebene, auf der sich das Problem befindet.

Sobald Sie wissen, wo das Problem liegt, stellen Sie Ihre ausgefallenen Tools und Monitore bereit. Aber verschwenden Sie keine Zeit damit, diese Dinge auf jeder Ebene zu erledigen. Es wird ewig dauern.

Satanicpuppy
quelle
Was ist mit der internen Anwendungsleistung?
WuckaChucka
@wuckachucka: Wenn es ein Problem mit dem Code gibt, wird dieser normalerweise in allen Protokollen angezeigt, sodass die Fehlerbehebung nicht so schlimm ist. Sie wissen auch, wo Sie anfangen sollen (die Anwendung). Das größte Problem bei der Fehlerbehebung im Netzwerk besteht darin, das Problem zu finden. Wenn Sie Port-Geschwindigkeitsinkongruenzen, schlechte MTUs oder andere physikalische Probleme haben, sind diese ein kompletter Bastard für die Problembehandlung über Protokolle, und der Caveman-Ansatz hat dort viele Vorteile.
Satanicpuppy
1

Sie müssen auch Ihre Server- und Desktop- / Client-Umgebung kennen, anstatt einfach anzunehmen, dass der Benutzer korrekt ist, wenn er sagt, dass das Netzwerk langsam ist. Sie müssen jedes Problem methodisch beheben. Wie bereits erwähnt, sollten Sie zunächst in der Lage sein, den Fehler anzuzeigen und idealerweise zu reproduzieren, und von dort auf eine Weise arbeiten, die für das Szenario sinnvoll ist.

Durch eine gute Verwaltung und Überwachung des Netzwerks und der Server können Sie jedoch viel Zeit sparen, da Sie nicht im laufenden Betrieb versuchen, Instrumente zu entwickeln, sondern möglicherweise auch versuchen, die Symptome zu lindern oder zu beheben, und sich mit beklagenden Benutzern befassen /Kunden.

Die Antworten für tcpdump und wireshark sind nicht falsch. Dies können wichtige Bestandteile Ihres Toolkits sein. Aber es sei denn, Sie sind sich absolut sicher, dass es sich tatsächlich um das Netzwerk handelt, sollten Sie nicht als Erstes danach greifen.

mfinni
quelle
0

Langsames Netzwerk ist ein weit verbreitetes Phänomen. Eine langsame Netzwerkgeschwindigkeit kann verschiedene Ursachen haben. Die Fehlerbehebung bei langsamen Netzwerken ist eine der häufigsten und mühsamsten Aufgaben bei der täglichen Netzwerkverwaltung.

Nach der Analyse sind die Hauptgründe für ein langsames Netzwerk:

Loopback
Broadcast/Multicast storm
Virus attack
Server slow response
Too many clients
Application slow response
Error client mask

Wie können wir schnell herausfinden, warum ein langsames Netzwerk auftritt? Es ist eine gute Idee, Pakete mit einem Netzwerkanalysator (Ax3soft Unicorn, Wireshark usw.) zu erfassen und zu analysieren.

Sie lesen auch den Artikel "Gründe für langsames Netzwerk finden", indem Sie auf die URL ( http://www.ids-sax2.com//Unicorn/Tutorials/Find-Reasons-for-Slow-Network-with-Ax3soft-Unicorn) klicken .htm ) zu besuchen.

Andy.H
quelle