定義
マルチモーダルモデルは、テキストと並んで1つ以上の非テキスト入力タイプを受け入れます。ビジョンLLM(GPT-4V、Claude 3.5+、Gemini Pro Vision)は画像とドキュメントを分析できます。オーディオLLMは音声を扱います。フロンティアは真のany-to-anyマルチモーダルモデルに向かっています。マルチモーダル機能は、ドキュメントAI、アクセシビリティ、より豊かなエージェントの動作を解放します。
例
ドキュメントエージェントが請求書PDFを画像として読み取り、明細を抽出し、データベースと照合します。
Vedwixでの使用方法
ビジョンLLMは現在、ドキュメント抽出プロジェクトのデフォルトです。