Comment déployer Pixtral-12b dans le Cloud ?

DEV - 18/10
Pixtral 12B, un grand modèle de langage (LLM) open source avec 12 milliards de paramètres, a été réalisé...

Pixtral 12B, un grand modèle de langage (LLM) open source avec 12 milliards de paramètres, a été mis à disposition par Mistral. Il s’agit du premier modèle multimodal de Mistral, ce qui signifie qu’il peut analyser à la fois du texte et des visuels. Pixtral 12B, un grand modèle de langage (LLM) open source avec 12 milliards de paramètres, a été mis à disposition par Mistral. Il s’agit du premier modèle multimodal de Mistral, ce qui signifie qu’il peut analyser à la fois du texte et des visuels.

Il peut comprendre des papiers, des graphiques et des tableaux, entre autres activités impliquant une combinaison de mots et de graphiques, grâce à ses 12 milliards de paramètres.

La capacité du Pixtral 12B à traiter plusieurs images à leur résolution native au sein d'une seule entrée est l'une de ses principales caractéristiques. Le modèle comporte une fenêtre contextuelle de 128 000 jetons, qui permet l'analyse simultanée de documents volumineux et complexes, d'images ou de nombreuses sources de données. Cela le rend utile pour les entreprises dans des domaines tels que la numérisation de documents et les rapports financiers.

Repères Pixtral

Pixtral réussit bien dans les défis de connaissances et de raisonnement multimodaux, en particulier à l'examen MathVista où il est en tête du peloton. Il occupe également une place de choix dans les activités d’assurance qualité multimodales, notamment dans ChartQA.

Cependant, d'autres modèles, comme le Gemini Flash-8B et le Claude-3 Haiku, ont montré des performances compétitives ou supérieures dans le suivi des instructions et les tâches basées sur du texte. Cela implique que même si Pixtral 1...
[Courte citation de 8% de l'article original]

Loading...