NEST161 July   2025 TPS3760 , TPS389006

 

  1.   1
  2.   2
    1.     3
    2.     了解電源架構
    3.     耐用性設計
    4.     PSU
    5.     PDB
    6.     主機板
    7.     處理器軌監控
    8.     未來趨勢
    9.     相關內容
  3.   註冊商標
    1.     13

機器智能帶來了一個生產力的新時代,並正成為我們生活和社會中不可或缺的一部分,涵蓋許多學科和功能。機器智能依賴於能在極短時間內執行程式碼、解碼資料並從數萬億個資料點中進行學習的計算平台。機器智能的計算硬體需要具備快速、極其可靠和功能強大的特點。設計師必須結合扎實的設計實踐、自我診斷與持續監控機制,以防止或管理系統中資料損毀或通訊錯誤等潛在故障。

此類監控系統的一個基本要素是監督和監控整個系統的電源軌。在本文中,我將探討並說明在企業應用中設計電源供應與處理器軌監控解決方案的一些最佳實踐。

了解電源架構

企業運算仰賴複雜的電源架構,將交流電源的能源傳送至系統中的每個負載點。圖 1 為伺服器機架中元件的高階圖示。

 高階伺服器機架圖,其中包含分散式電池備援單元 (BBU) 和電源供應單元 (PSU),這些單元先連接至匯流排,再由匯流排將交流電分配至機架。來源:德州儀器圖 1 高階伺服器機架圖,其中包含分散式電池備援單元 (BBU) 和電源供應單元 (PSU),這些單元先連接至匯流排,再由匯流排將交流電分配至機架。來源:德州儀器

高效率(對於鈦級設計而言通常為 >91%)的 PSU 在將交流電(208V 或 240V)轉換後,會在整個機架內分配為 48V。配電板 (PDB) 隨後將直流電源轉換為各種電壓(通常為 12V、5V 和 3.3V),以饋送至子系統,包括主機板、儲存裝置、網路介面卡 (NIC) 和交換器,以及系統冷卻。每個子系統都有自己的本機管理電源架構。電池備援單元 (BBU) 可在任何交流線路中斷時維持系統電源。

耐用性設計

每個子系統都需要可靠的電源設計和監控。我們來進一步檢視其中一些子系統。

PSU

PSU 具有多種監控類型,以確保可靠的運作和傳送。它們會監控交流電源的輸出電壓,同時也會偵測內部溫度、過電壓與欠電壓情況,以及短路。

伺服器設計也需要 N+1 備援:「N」表示滿足伺服器電源需求所需的最小 PSU 數。如果另一個 PSU 遇到臨時或永久故障或失效,則可使用附加 PSU(「+1」)。

PDB

如先前所述,PDB 會將 48-V 輸入轉換為數個 DC 軌,其中包括 12V、5V 和 3.3V。雖然具有簡單分流參考的比較器可用於監控每個軌的過電壓和欠電壓情況,但現代的電壓監控器不僅體積小、易於設計,還能提供額外優勢,例如磁滯和輸入感測延遲以實現雜訊抗擾性、可調整輸出延遲以避免開機期間誤觸發,以及更高的準確度以實現最高的偵測可靠性。

許多新型電壓監控器,如德州儀器 (TI) TPS3760,額定電壓高達 70V,無需低壓降穩壓器或專用電源軌,即可直接監控 48V 和其他匯流排電壓。除了即時監控外,先進監控積體電路可提供最重要軌電壓的遙測資料,以進行預測性維護和歷史故障分析,大幅減少系統停機時間。

另一項設計考量則是早期電源故障偵測。這些電路會監控特定電源軌是否會產生突然壓降,並警示主機或處理器在預期斷電時迅速採取行動。此功能由高速且精密的欠電壓監控器執行。圖 2 說明此類型設計的範例及其計時圖。

 具計時圖的電壓監控器範例,可監控 0.85 至 6.0V 電源供應軌是否會產生突然壓降,以在斷電時採取行動。來源:德州儀器圖 2 具計時圖的電壓監控器範例,可監控 0.85 至 6.0V 電源供應軌是否會產生突然壓降,以在斷電時採取行動。來源:德州儀器

主機板

主機板電源軌會為設計師帶來不同的挑戰,我會在本節詳細探討它們。

處理器軌監控

現代處理器對電源供應軌的變化非常敏感。原因有很多,但主要是因為這些處理器在低至 0.7V 的電壓下運作,對電壓波動的容限較低,並採用動態電壓與頻率調整等功能。

因此,處理器需要高精密度窗型電壓監控器。窗型監控器會監控過電壓與欠電壓情況的供應電壓。針對這些應用的裝置,如 TI 的 TPS389006,準確度為 ±6mV。設計師可透過 I2C 暫存器將干擾濾波器調整至最高 650ns。

電源軌設計的另一個重要層面,是系統在快速負載暫態期間維持穩定性的能力。現代處理器可能會在幾毫秒內從閒置轉換為全負載,若電源供應器和監控系統的設計未具備快速迴路響應和適當的輸出電容,則會造成急劇壓降或過衝。

適當的開機和關機電源排序對主機板和處理器也很重要。排序可確保正確的系統初始化 — 例如,處理器可能要求記憶體控制器在執行指令之前即可正常運作。排序也可防止開機期間的大突波電流和電壓突波。在關機期間,排序可為記憶體和儲存裝置提供足夠時間來儲存資料或在斷電前完成操作,從而維持資料完整性。

圖 3 提供電源供應軌監控與排序的設計範例。

 正確系統初始化的電源供應軌監控和排序範例。來源:德州儀器圖 3 正確系統初始化的電源供應軌監控和排序範例。來源:德州儀器

最後,管理突波電流對於具有熱插拔元件的系統而言至關重要,因為這樣做可避免跳電保護或電源匯流排不穩定。配備整合式電流限制和故障偵測的熱插拔控制器可確保元件順利插入與移除,且不會中斷其他處於活動狀態的子系統。