ナビゲーションおよび認識向けのピクセルレベルセグメンテーション (従来比 40 分の 1 の低レイテンシ)

C7™ NPU 搭載プロセッサを使用し、画像から微細な障害物や経路をリアルタイムで検出

概要

アプリケーションの概要

現実の世界には複雑な風景が広がっており、ロボット、ドローン、車両は、その中を安全かつ効率的に移動しなければなりません。この風景を理解するには、経路や障害物を詳細に観察する必要があります。

AI モデルは、セマンティックセグメンテーションニューラルネットワークモデルを用いて、周囲の環境をピクセルレベルで識別することができます。欠陥検出、医療画像処理、農業などの他の応用分野においても、セグメンテーションモデルが提供する有意義な異常や物体の精密な輪郭から、同様の恩恵を得ることができます。

これらの複雑な AI モデルをエッジ側で実行するには、多大な処理能力が必要です。そのため、リアルタイムの意思決定を実現するには、一般的に C7™ NPU などのアクセラレータが必要となります。

評価を開始する

データ収集

データサンプルは、実稼働アプリケーションで使用されるカメラと同様のカメラで収集された画像です。画像は手動で、または Edge AI Studio などのツールを使用して収集することができます。画像にはピクセルマスクまたはポリゴンのいずれかのラベルが付けられ、オブジェクトの輪郭を縁取ることができ、複雑な形状を形成することができます。

優れたデータセットには、さまざまな現実的なシーンや、認識対象となるオブジェクトの組み合わせが含まれます。追跡の対象として重要ではないあらゆる要素を包括する、汎用的な「バックグラウンド」クラスを設けることが一般的です。実際のほとんどの場面では、オブジェクト同士が重なり合ったり、部分的に遮蔽されたりすることが多くありますが、医療画像処理や欠陥検出のようなアプリケーションでは、このような状況に遭遇しない可能性があります。堅牢なモデルをトレーニングするには、物体の位置や方向、およびさまざまな照明や気象条件についても多様性を持たせる必要があります。

データ品質の評価

データとラベルは、認識対象となるオブジェクトがマスクまたはポリゴンで適切に覆われるように、密接に整列している必要があります。これらのラベルを画像上に可視化すると、カバーされていない領域や、ラベルがオブジェクトから大きくはみ出している領域を探するのに便利です。ノイズの多いラベルは、ニューラルネットワークが適切な視覚的パターンを学習するのを難しくします。

データセットの拡張は、データセットがキャプチャするサイズとバリエーションを増やすための有効な手段です。人工的な「拡張」は、画像を加工して複数のコピーを作成し、データセットを拡張します。ただし、画像の回転や拡大縮小などの一部の拡張処理では、ラベル自体も同様に変更する必要があります。

下の画像は、 tiscapes2017 セグメンテーションデータセットのデータに基づくセグメンテーションモデル用 Edge AI Studio を示しています。このデータセットには、オブジェクト検出バウンディングボックスとセグメンテーションマスクの両方が含まれています。ツールには両方のタイプのアノテーションが表示されますが、画像内の人物、標識、および車両の概要を示すマスクが、セグメンテーションモデルのトレーニングに使用されるアノテーションです。

モデルを構築してトレーニング

CCStudio™ Edge AI Studio と edgeai-modelmaker には、カスタムデータセットですぐにトレーニングできる複数のセグメンテーションモデルが含まれています。edgeai-modelmaker が使用されている場合、カスタムデータセットでは、セグメンテーションラベルで COCO 形式が使用されます。

それ以外の場合は、Pytorch や Tensorflow のようなツールを使用して、確立されたモデルをトレーニングしたり、完全に独自のモデルを実装したりすることができます。

用途に適したモデルを検索

適切なモデルを選択することは、精度とレイテンシのトレードオフです。Deeplabv3 などのモデルは C7 NPU 上で効率的に動作します。また、代表的なベンチマークは、モデル選択ツールで入手できます。

モデルの展開

モデルの展開では、対象となるハードウェアアクセラレータ用に、モデルを事前にコンパイルする必要があります。Edge AI Studio や edgeai-modelmaker のようなツールを使用すると、コンパイルが自動的に行われます。そうでない場合、モデルのコンパイルは TI の GitHub 上にある edgeai-tidl-tools などのソフトウェアパッケージを使用して、独自モデル (BYOM) のフローを通じて別途実行する必要があります。

モデルアーティファクトは、ONNX Runtime、LiteRT、TVM などのランタイムを通じてデプロイされ、ハードウェアアクセラレーションのバックエンドとして TI Deep Learning (TIDL) が使用されます。

モデルをエンドツーエンドのビジョンアプリケーションにデプロイするには、まず edgeai-gst-apps を使用し、画像の前処理および後処理に加えて AI モデル自体の高速化も含め、複数のハードウェアアクセラレーション段階でパイプラインを構成します。

お客様に最適なデバイスの選択

デバイスの選択は、必要な AI 性能のレベルとカメラのスループット (分解能とフレームレート) によって異なります。さまざまなデバイス間の性能比較については、以下の表を参照してください。注：これらのデバイスに関する包括的なベンチマークについては、Edge AI Studio で入手できるモデル選択ツールを使用してください。

以下の表に示すベンチマークは、SDK バージョン 10.1 を使用して作成されたもので、2 TOPS の AM62A が CPU のみのソリューションを 40 倍以上上回る性能であることを示しています。

製品番号	プロセッシングコア	NPU が利用可能	セマンティックセグメンテーションベンチマーク
			DeepLabv3 セグメンテーション (512 x 512) の性能	FPN Lite (regnetx-800 バックボーン、512 x 512) の性能
AM62P	4x Arm® Cortex®-A53	NPU なし	1061ms 0.94 FPS	1560ms 0.64 FPS
AM62A7	4x Arm® Cortex®-A53 + C7™ NPU	2 TOPS	25.3ms 39 FPS	48.72ms 21 FPS
TDA4VE-Q1	4x Arm® Cortex®-A53 + C7™ NPU	8 TOPS	7.66ms 130 FPS	25.5ms 39 FPS
FPS (フレーム / 秒)

はじめに

開始に必要なすべてのハードウェア、ソフトウェア、およびリソース

ハードウェア

SK-AM62A-LP
AM62A は AM6xA ファミリの中で最も低コストの AI アクセラレーション対応デバイスであり、評価用途に最適です。画像の取得やライブデータでのモデル評価には、一般的な USB カメラやウェブカメラを使用できます。

ソフトウェアおよび開発ツール

PROCESSOR-SDK-LINUX-AM62A
エッジ AI プロセッサ SDK は Linux ベースであり、コンパイル済みモデルをハードウェアアクセラレーションで実行するために必要なソフトウェアコンポーネントが含まれています。他のエッジ AI アクセラレーションプロセッサは、AM62A に置き換えることができます。

CCStudio™ Edge AI Studio
このツールには、TI のエッジ AI プロセッサ向けにモデルの学習、コンパイル、デプロイを行うためのツールが含まれています。一般的なモデルの事前生成されたベンチマークを確認できるモデル選択ツールが用意されています。

コマンドラインツール
Linux および TIDL をサポートするマイクロプロセッサデバイス向けツール。TI のエッジ AI ソリューションは、豊富なツールと最適化されたライブラリを提供することで、DNN の開発およびデプロイにおける製品ライフサイクル全体を簡素化します。

類似の使用事例

産業用 | ビジョン

多様な環境下におけるリアルタイム人検出

AI アクセラレータを使用した> 120FPS 超のビジョンベース AI により、さまざまな場面で人を検出します。

産業用 | ビジョン

ビジョンシステムにおける物体検出を 25 倍低いレイテンシで実現

AI アクセラレータ搭載プロセッサと業界標準のソフトウェアを使用して、高いフレームレートでリアルタイムに特定の物体や人を検出し、位置を特定します。

ナビゲーションおよび認識向けのピクセルレベル セグメンテーション (従来比 40 分の 1 の低レイテンシ)

C7™ NPU 搭載プロセッサを使用し、画像から微細な障害物や経路をリアルタイムで検出

アプリケーションの概要

評価を開始する

データ収集

データ品質の評価

モデルを構築してトレーニング

用途に適したモデルを検索

モデルの展開

お客様に最適なデバイスの選択

はじめに

開始に必要なすべてのハードウェア、ソフトウェア、およびリソース

ハードウェア

ソフトウェアおよび開発ツール

類似の使用事例

ナビゲーションおよび認識向けのピクセルレベルセグメンテーション (従来比 40 分の 1 の低レイテンシ)