Extreme XOS 網路架構大師班

單元:故障排除流程與實務技巧 (Troubleshooting & Diagnostics)

講師:Extreme XOS 網路架構大師 | 20 年經驗資深架構師
一、核心概念 (Concept)

什麼是分層故障排除?

故障排除 (Troubleshooting) 並非盲目的嘗試,而是一套基於 OSI 模型的系統化邏輯演繹過程。在 Extreme XOS 中,我們利用豐富的診斷指令,由底層 (實體層) 至上層 (應用層) 逐一排除變數,直到鎖定問題根源。

生活化比喻:急診室醫生的診斷流程

想像網路故障就像「病人送進急診室」。
你不會一開始就推去開腦手術 (重灌系統/換設備)。
1. 量心跳血壓 (Layer 1):確認還活著嗎?(線有沒有插好?燈號亮不亮?)
2. 問診與抽血 (Layer 2):血液流動正常嗎?有無血栓?(MAC Address 有無學習到?VLAN 有無通?有沒有 Loop?)
3. 全身掃描 (Layer 3):神經傳導路徑對不對?(Routing Table 正確嗎?Ping 得到嗎?)
4. 專科檢查 (Routing/System):協調機制正常嗎?(OSPF 鄰居在嗎?RIP 版本對嗎?CPU 是否過載?)

二、運作原理與指令 (Mechanism & Commands)

在 Extreme XOS 中,我們依據 OSI 模型進行「分層診斷」。以下是每個層級的關鍵檢測點與指令。

Step 1: 實體層 (Physical Layer) - "Is it plugged in?"

  • 檢查點: 連接埠狀態、光衰減、雙工模式、詳細錯誤計數 (Rx/Tx Errors)
  • 關鍵指令:
# 查看連接埠基本狀態 (Ready/Active)
show ports 1:1 information detail

# 檢查 Speed/Duplex 設定與協商狀態
show ports 1:1 configuration no-refresh

# 查看光纖模組資訊 (Rx Power 是否過低)
show ports 1:1 transceiver information detail

# 查看簡易統計 (CRC Error 等)
show ports 1:1 statistics no-refresh

# *進階* 詳細檢查接收端錯誤 (CRC, Overrun, Fragment)
show ports 1:1 rxerrors no-refresh

# *進階* 詳細檢查傳送端錯誤 (Collisions, Late Collisions)
show ports 1:1 txerrors no-refresh

Step 2: 資料連結層 (Data Link Layer) - "Who are you?"

  • 檢查點: MAC 位址表 (FDB)、VLAN 標籤 (Tagging)、迴圈偵測 (Loop Protection)。
  • 關鍵指令:
# 確認是否有學習到設備的 MAC
show fdb ports 1:1

# 檢查 VLAN 配置 (Tagged/Untagged)
show vlan port 1:1

# 檢查 STP 狀態 (是否被 Block)
show stp <stpd_name> ports

Step 3: 網路層與系統 (Network & System) - "Where are you going?"

  • 檢查點: VLAN IP 介面設定 (IP/Mask)、路由表、ARP 表、CPU 負載、系統日誌 (Log)。
  • 關鍵指令:
# *重點檢查* VLAN IP 位址與子網路遮罩 (Mask) 是否正確
show vlan
# 或查看 IP 介面詳細資訊
show ipconfig

# 檢查路由表
show iproute

# 檢查 ARP (IP 對應 MAC)
show arp

# *最重要* 系統日誌 (查看關鍵錯誤)
show log messages memory-buffer

# 查看 CPU 使用率 (若過高可能遭受攻擊或 Loop)
top

Step 3.5: 動態路由協定 (Dynamic Routing) - "How do we talk?"

  • RIP 檢查點: 版本一致性 (Version 1/2)、介面是否啟用。RIP v1 不支援 VLSM,通常建議使用 v2。
  • OSPF 檢查點: 鄰居狀態 (Neighbor State)、區域 (Area) ID 是否匹配、Hello/Dead Timer 間隔。
# [RIP] 檢查全域設定與版本 (確認 Version 1 或 2)
show rip
# 檢查 RIP 介面狀態 (確認介面 IP 網段正確)
show rip interface

# [OSPF] 檢查 OSPF 鄰居建立狀態 (目標狀態: Full 或 2-Way)
show ospf neighbor
# 檢查 OSPF 介面設定 (Area, Timer, Auth 必須匹配)
show ospf interface detail
# 查看 LSDB (Link State Database) 確認路由交換
show ospf lsdb stats
三、故障排除流程圖 (Visuals)

以下圖表展示了標準的故障排除決策樹。為了確保文字清晰可讀,圖表已設定為原始大小,請左右滑動捲軸以查看完整大圖。

圖一:標準故障排除決策樹 (含動態路由)

%%{init: { 'flowchart': { 'useMaxWidth': false }, 'theme': 'base', 'themeVariables': { 'fontSize': '15px', 'fontFamily': 'Noto Sans TC'}}}%% flowchart TD Start[故障發生] --> CheckLog[查看 Log:
show log] CheckLog --> Analyze{是硬體
還是軟體?} Analyze -- 硬體/L1 --> PhyCheck[實體層檢查] PhyCheck --> Cabling[檢查線材
與模組] Cabling --> SpeedDup[檢查 Speed
Duplex] SpeedDup --> Errors[檢查 Rx/Tx
Errors] Errors --> ResolveL1[更換線材
或固定速率] Analyze -- 軟體/L2/L3 --> L2Check[資料連結層
檢查] L2Check --> VLANCheck[檢查 VLAN
Tag/Untag] VLANCheck --> FDBCheck[檢查 MAC
FDB 表] FDBCheck --> LoopCheck[檢查 Loop:
ELRP/STP] LoopCheck --> L3Check[網路層
檢查] L3Check --> IPCheck[檢查 IP &
Mask 設定] IPCheck --> RoutingType{路由類型?} RoutingType -- 靜態 Static --> RouteCheck[檢查 Routing
Table] RoutingType -- 動態 Dynamic --> ProtocolCheck{RIP 或
OSPF?} ProtocolCheck -- RIP --> RipVer[檢查 RIP
Version/Interface] ProtocolCheck -- OSPF --> OspfNeigh[檢查 OSPF
Neighbor/Area] RipVer --> Resolve[問題解決] OspfNeigh --> Resolve RouteCheck --> Resolve style Start fill:#f56565,stroke:#333,color:white style Resolve fill:#48bb78,stroke:#333,color:white style CheckLog fill:#4299e1,stroke:#333,color:white style IPCheck fill:#d69e2e,stroke:#333,color:white style Errors fill:#d69e2e,stroke:#333,color:white style OspfNeigh fill:#805ad5,stroke:#333,color:white

圖二:ELRP 迴圈偵測機制 (請左右滑動查看)

%%{init: { 'sequence': { 'useMaxWidth': false }, 'theme': 'base', 'themeVariables': { 'fontSize': '40px', 'actorFontSize': '40px', 'noteFontSize': '40px', 'messageFontSize': '40px', 'fontFamily': 'Noto Sans TC'}}}%% sequenceDiagram participant Core as Extreme
Core Switch participant Edge as Edge
Switch participant User as User
PC/Hub Note over Core: 啟用 ELRP
(Master) Core->>Edge: 發送 ELRP
偵測封包 Edge->>User: 轉發 ELRP
封包 opt User 端發生 Loop User-->>Edge: 封包被
Loop 彈回 end Edge-->>Core: 封包流回
Core Switch Note over Core: Core 收到
ELRP 封包 Core->>Core: 判定發生 Loop!
(Log, Disable Port)
四、實務應用場景 (Use Case)

案例:辦公室網路癱瘓,CPU 飆高

情境描述

某財務部門使用者反映網路極慢,MIS 查看 Core Switch 發現 CPU 使用率高達 90%,且 Log 出現大量 MAC 移動 (MAC Flapping) 訊息。

原因分析

通常這是 Layer 2 Loop 造成的廣播風暴。某位員工私自攜帶老舊 Hub 並將其兩端同時接到牆上網孔,造成迴圈。

解決方案 (Extreme ELRP)

啟用 Extreme 專有的 ELRP (Extreme Loop Recovery Protocol)。不同於 STP 需要計算拓撲,ELRP 直接發送測試封包,若收回則代表有 Loop,反應速度極快。

多廠商比較:Loop 防護

特性 Extreme Networks Cisco / 其他
技術名稱 ELRP Loopguard / BPDU Guard
運作方式 主動發送偵測封包 被動監聽 STP BPDU
優點 不需依賴 STP,設定簡單,對非 STP 設備(如 Hub)極有效 標準 STP 延伸功能,相容性高
* ELRP 設定範例:
enable elrp-client
configure elrp-client periodic <vlan> ports all interval 1 log-and-trap disable-port duration 300
五、隨堂測驗 (Quiz)

請選出正確答案,測試您對 Extreme XOS 故障排除的了解。