Avec DiffusionGemma, Google optimise l'inférence locale - Le Monde Informatique

Article rédigé par Taryn Plumb, ComputerWorld (adapté par Jean Elyan) - Le Monde Informatique - 15/06
Plutôt que de générer du texte mot à mot, le modèle ouvert expérimental de Google s'appuie sur la technique de diffusion servant pour la création...

Les grands modèles de langage (LLM), extrêmement puissants, fonctionnent encore comme s'ils tapaient sur un clavier, traitant les charges de travail de manière simple et bidirectionnelle (propre aux transformers). Mais dans un usage local, ce traitement peut entraîner une sous-utilisation des GPU ou des TPU. Dans ce cadre, Google vient de présenter DiffusionGemma, un modèle ouvert expérimental de la famille Gemma 4. Il est capable de générer du contenu « exceptionnellement vite », en créant des blocs de texte entiers simultanément grâce à des techniques de diffusion plutôt qu'à un traitement token par token.

L'entreprise affirme que grâce à cette technique, l’inférence est quatre fois plus rapide par rapport aux autres modèles qui reposent sur un traitement séquentiel. Elle peut également se traduire par des économies pour les utilisateurs. Selon l'analyste tech...
[Courte citation de 8% de l'article original]

Loading...