Glossaire · Français

Modèle multimodal

Un LLM qui peut traiter plus que du texte — images, audio, vidéo ou entrées structurées.

Français · French

Définition

Les modèles multimodaux acceptent un ou plusieurs types d'entrée non-texte aux côtés du texte. Les LLMs de vision (GPT-4V, Claude 3.5+, Gemini Pro Vision) peuvent analyser images et documents. Les LLMs audio gèrent la parole. La frontière se déplace vers de vrais modèles multimodaux n'importe-quoi-vers-n'importe-quoi. La capacité multimodale débloque l'IA de documents, l'accessibilité et un comportement d'agent plus riche.

Exemple

Un agent de documents lit des PDFs de factures comme images, extrait les lignes et les réconcilie avec une base de données.

Comment Vedwix utilise ceci

Les LLMs de vision sont maintenant par défaut pour tout projet d'extraction de documents.

Vous travaillez sur un projet de Modèle multimodal?

Modèle multimodal.

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet

Modèle multimodal

Décrivez votre projet en trois phrases ou moins.

Démarrer un projet