Les workflows LLM multi-agents amplifient-ils discrètement les erreurs ?

DEV - 13/02
Un regard pratique et légèrement sceptique sur les flux de travail LLM multi-agents : comment l'enchaînement d'étapes probabilistes peut amplifier de petites erreurs, gonfler la confiance et rendre la validation plus difficile, ainsi que le moment où les agents aident réellement (contrôles déterministes, traçabilité, routage sain).

Les systèmes multi-agents sont désormais partout.

Agent planificateur. Agent exécuteur. Agent critique. Agent formateur. Parfois même un agent « manager » qui coordonne le tout.

L’histoire est généralement la même : si un appel LLM peut être utile, alors plusieurs agents spécialisés travaillant ensemble devraient être plus fiables et produire de meilleurs résultats.

Mais je ne suis pas entièrement convaincu.

Non pas parce que les systèmes multi-agents sont inutiles. Ils peuvent être puissants. Je ne suis tout simplement pas sûr que nous sachions toujours clairement pourquoi nous les utilisons et quels compromis nous introduisons lorsque nous enchaînons des systèmes probabilistes.

Penser un agent comme une fonction

Simplifions la discussion et traitons un agent comme une fonction.

Quelque chose comme :

f_0_llm_0_step_n(invite[1..n], données, output_step_n-1)

En anglais simple :

Un agent, exécutant un modèle spécifique (par exemple llm_0), exécute l'étape n à l'aide d'une ou plusieurs invites, de certaines données dynamiques (extraits de code, documents, contexte) et du résultat de l'exécution précédente. Il produit alors un résultat.

Ce résultat est transmis à l'agent suivant :

f_1_llm_1_step_n(...)

Et ainsi de suite.

Nous créons donc une composition :

f3(f2(f1(x)))

Chaque f est alimenté par un LLM. Et chaque appel LLM est probabiliste.

Chaque appel LLM peut être erroné

Quelle que soit la qualité du modèle :

  • Il peut mal comprendre l’exigence.
  • Cela peut halluciner des détails.
  • Il peut omettre des contraintes.
  • Cela peut être faux en toute confiance.

Si nous supposons que chaque étape a une certaine probabilité d'être correcte (appelez-la a_i), alors dans une simple chaîne indépendante, l'exactitude globale ressemble à peu près à :

a_total ≈ a1 × a2 × a3 × ...

Même si chaque étape individuelle est « plutôt bonne », multiplier plusieurs étapes ensemble n’est pas réconfortant.

Mais je dois être honnête sur ce que cache ce modèle. La formule suppose que les erreurs sont indépendantes d’une étape à l’autre. Dans la pratique, ce n’est souvent pas le cas. Les agents partagent le même contexte, parfois les mêmes pondérations de modèle et fréquemment les mêmes angles morts. Si l'agent 1 comprend mal une exigence ambiguë, l'agent 2, lisant le résultat de l'agent 1, héritera probablement de ce malentendu. Les échecs corrélés peuvent rendre les choses pires que ne le suggère le modèle multiplicatif, car la « correction » que vous espériez du chaînage ne se matérialise pas lorsque tous les agents sont confus dans la même ...
[Courte citation de 8% de l'article original]

Loading...