NESY049 White paper

NESY049A january 2022 – march 2023 AM67 , AM67A , AM68 , AM68A , AM69 , AM69A , TDA4AEN-Q1 , TDA4AH-Q1 , TDA4AL-Q1 , TDA4AP-Q1 , TDA4APE-Q1 , TDA4VE-Q1 , TDA4VEN-Q1 , TDA4VH-Q1 , TDA4VL-Q1 , TDA4VM , TDA4VM-Q1 , TDA4VP-Q1 , TDA4VPE-Q1

摘要
Authors
簡介
定義邊緣 AI
什麼是高效邊緣 AI 系統？
1. 選擇 SoC 架構
2. 可編程核心類型與加速器
以 TI 視覺處理器設計邊緣 AI 系統
1. 深度學習加速器
2. 成像和電腦視覺硬體加速器
3. 智慧型內部匯流排與記憶體架構
4. 系統 BOM 最佳化
5. 使用簡單的軟體開發環境
結論

可編程核心類型與加速器

我們來回顧一下邊緣 AI 系統中可能存在的核心類型：

CPU

中央處理單元 (CPU) 是可處理循序工作負載的通用處理單元。具備優異的編程靈活性，並可從現有的大型代碼庫中獲益。多數邊緣 AI 系統通常有兩到八個 CPU 核心，可用來管理平台和功能豐富的應用。但僅有 CPU 的系統不適合像素級成像、電腦視覺和卷積神經網路 (CNN) 處理等高度專業化的任務。CPU 的功耗也很高，但傳輸量是各種核心類型中最低的。若將單核心 CPU 系統搭配 AI 加速和影像處理等專用硬體區塊，即可滿足低成本應用的功率預算需求。

GPU

圖形處理單元 (GPU) 擁有成千上百個小型核心，非常適合平行處理工作。GPU 原本是為了執行一系列圖形操作而設計，在深度學習應用中十分常見，對 DNN 訓練特別實用。其中一個主要缺點是由於核心數高，GPU 會消耗大量功率，晶片內建記憶體需求也較高。

DSP

數位訊號處理器 (DSP) 是一款具電源效率的專用核心，通常專為解決多個複雜數學問題而設計。DSP 可以低功耗處理真實世界視覺、音訊、語音、雷達和聲納感測器的即時資料。DSP 可幫助將每個時脈週期處理最大化。但在編程上並不容易，需要熟悉 DSP 硬體的功能、編程環境及 DSP 軟體最佳化，才能達到最佳性能。

ASIC

應用特定積體電路 (ASIC) 與加速器可以最低功耗為系統應用提供最大性能。若您了解欲加速功能的核心，此方式即是熱門選擇。例如 CNN 的核心運算一向涉及矩陣乘法。針對傳統電腦視覺工作，專用硬體加速器可運算影像縮放、鏡頭失真校正和雜訊濾波等作業。

FPGA

現場可編程邏輯閘陣列 (FPGA) 是一種積體電路，可針對特定應用重新編程並鎖定硬體區塊。此方式的功耗比 GPU 和 CPU低，但使用的功率比 ASIC 多。但其硬體編程較不方便，且需對硬體描述器語言 (如 Verilog 或超高速 IC 硬體描述語言) 的專業知識。