研究キーワード

コンピュータアーキテクチャ

  • ドメイン特化アーキテクチャ
  • AIアクセラレータ
  • 非ノイマン型
  • ハードウェア・ソフトウェア協調設計
  • 省電力・高効率コンピューティング

応用分野 / アプリケーション

  • 大規模言語モデル (Large Language Models, LLM)
  • 生成AI (Generative AI)
    • 画像生成 (Image Generation)
    • 音声認識 (Speech Recognition)
  • 深層学習 (Deep Learning)
  • エッジAI / エッジコンピューティング
  • 画像処理 / コンピュータビジョン

現在の研究

近年、大規模言語モデル(LLM)や生成AIの急速な発展は、社会に大きな変革をもたらしています。この爆発的な計算需要を支えているのがGPUです。しかし、その驚異的な性能は、膨大な消費電力と引き換えに得られており、データセンターのエネルギー消費量は今や地球規模の社会課題となりつつあります。GPUは本質的に電力効率を突き詰めたアーキテクチャではなく、むしろ豪華なメモリバスといった力業で性能を稼いでいます。このアーキテクチャが、今後もAIの進化を支え続ける持続可能な基盤とは言えません。

現在、量子コンピュータや光コンピューティング、脳を模したニューロモルフィックチップなど、様々な未来のコンピュータが提案されています。その中で私は、最も現実的かつインパクトの大きい次の一手は、フォン・ノイマン・ボトルネックを構造的に排除した、効率的な非ノイマン型コンピュータが主流になることだと考えています。

私の研究は、まさにこれを実現するためのものです。ソフトウェアの最適化だけでは到達できない次元の効率性を、ニアメモリやインメモリといった次世代のハードウェアと、それを最大限に活かすソフトウェアとの協調設計によって実現し、持続可能なAI技術基盤の構築に貢献することが、私のモチベーションです。

IMAXを用いたAIアプリケーションの実装と評価

現在は、奈良先端大 コンピューティング・アーキテクチャ研究室で開発された、CGRAベースのハードウェアアクセラレータであるIMAX (In-Memory Accelerator eXtension)に関わる研究に従事しています。IMAXは、以下の革新的な特徴を持っています。

IMAXの基本設計は、演算ユニットとキャッシュメモリを交互に配置する線形アレイ構造にあり、CGRAの柔軟性とシストリックアレイの効率性・高速コンパイルを融合しています。 さらにニアメモリコンピューティングの思想を取り入れた非ノイマン型のアクセラレータです。IMAXは非ノイマン型でありながら、任意のアレイ上にノイマン型PEを配置することができます。これにより高いスループットに加えて、エネルギー効率を維持することができます。

私はエッジ指向のIMAX3とサーバ指向のIMAX4のLLMやAIアプリケーション実装や評価、メモリアクセスの最適化をすることで、IMAXプロジェクトに貢献しています。

image-center

私は、このIMAXのポテンシャルを実証し、さらなる発展に貢献するため、現代のAIを代表する最先端モデルの実装と評価を行っています。修士課程では、世の中の人にIMAXの存在を知ってもらうために、論文投稿や学会発表を積極的に行います(査読付き国際会議4本採択 : 2025/04~10現在)。

  • 大規模言語モデル(LLM)の実行とボトルネック分析 (SASIMI 2025, SOCC 2025 採択): まず、エッジデバイス向けのIMAX3上でLLMを実行し、その性能特性を詳細に分析。ホストCPUの処理能力やデータ転送経路がボトルネックとなることを解析しました。この分析結果に基づき、サーバ向け高性能CPUと広帯域なPCIe Gen5インターフェースを搭載したIMAX4プロトタイプを設計・評価し、ホスト側のボトルネックを解消することで、IMAXアーキテクチャがサーバ環境における大規模なAIワークロードにもスケール可能であることを実証しました。
  • 多様な生成AIアプリケーションの実装と最適化 (MCSoC 2025, CANDAR 2025 採択): LLMに留まらず、画像生成モデル「Stable Diffusion」や音声認識モデル「Whisper」といった、計算特性の異なる多様なAIアプリケーションをIMAX上に実装しました。特に、Whisperモデルの実装では、IMAXのアーキテクチャ特性を活かしたFP16演算カーネルを新たに実装・評価し、性能と精度のバランスを最適化する知見を得ました。これらの取り組みを通じて、IMAXが特定の用途に縛られない、汎用性の高いAIアクセラレータであることを示しています。

image-center

VPK120x1とVPK180x4で構成されたIMAX4のプロトタイプ (掲載許可済み)

これらの研究開発では、C言語を用いたプログラミングを通じて、メモリアクセスのパターンを最適化し、IMAXのハードウェア資源を最大限に活用する工夫が求められます。ハードウェアの深い理解に基づいたソフトウェアの作り込みも、ハードウェアの性能を引き出すポイントであることを、実践を通して学んでいます。

高専での研究

物体検出アルゴリズムの実応用

高専5年次の卒業研究では、画像処理技術に関する研究に取り組み、効率的な小ねぎ調製のための小ねぎ分岐部検出アルゴリズムを開発しました。具体的には、小ねぎの外葉分岐部をエッジ検出により特徴量を抽出し、位置を特定するアプリケーションを開発しました。深層学習モデルを使う必要がないケースでは、古典的な画像処理を使うことで、高いフレームレートと低消費電力を実現できます。

しかし実環境における検出では、より複雑な背景や照明条件、そして小ねぎの形状の多様性により、より高度な検出アルゴリズムが必要となります。そこで、YOLOやMask-RCNNといった深層学習モデルによる物体検出やセグメンテーションの実装と評価に取り組みました。ネットワーク削減による軽量化と実アプリケーションに対する最適化を行っています。

AI推論処理のハードウェア実装

ロボットやIoTデバイスのようなリソースに制約のある環境では、AIの推論処理をいかに低消費電力で実行するかが重要です。私は、回路構成をプログラム可能なデバイスであるFPGAと、その上に実装されたDNNアクセラレータ(DPU)に着目しました。顔検出と表情認識という2つの異なるDNNモデルを、単一のDPU上で時分割に実行するシステムを実装しました。これにより、ハードウェア資源を効率的に共有しながら、組み込みCPUでは達成不可能な高いフレームレートと低消費電力を両立することに成功。エッジAIにおけるハードウェア実装の有効性を示しました。

image-center