マルチモーダルAI
マルチモーダルエーアイ
テキスト・画像・音声・動画など複数種類の情報を統合処理するAI
プログラミング・AI
上級
📖 詳細説明
テキストだけでなく、画像・音声・動画等の複数の情報様式(モダリティ)を入力・出力できるAI。GPT-4o、Gemini、Claude等の最新モデルが対応。教育用途では、生徒が黒板の写真を撮ってAIに解説させる、教員が手書きノートをAIに整理させる、外国語の発音を音声で評価する等、活用幅が爆発的に広がっている。2024年以降の生成AIの主流形態。
🏷️ タグ
💡 具体例
💡 数学の問題を撮影して解法解説を得る
💡 手書きノートをデジタル整理
💡 音声会話による外国語学習
💡 理科実験動画の自動分析
💡 図表・グラフ画像の読み取り