マルチモーダル言語処理

実世界をすべて検索・説明可能とする技術を構築するために、大規模言語モデルを含む基盤モデルに基づく手法構築から、ロボット、テキスト付画像、ファッション、絵画などへの応用まで取り組んでいます。我々の対話的移動指示モデルは、CVPR2023 Embodied AI Workshopコンペティションで優勝しています。

研究内容一覧へ