Markdown n'est pas l'avenir de l'infrastructure de données LLM

DEV - 05/02
Pourquoi les systèmes d'IA ont besoin d'un contexte structuré, et non d'une démarque convertie, et comment les fournisseurs de données devraient repenser l'extraction Web à l'ère de l'agent.

Markdown n'est pas l'avenir de l'infrastructure de données LLM

Il existe une inadéquation fondamentale dans la manière dont nous transmettons les données aux systèmes d’IA.

OpenAI, Anthropic, Google, tous les grands laboratoires d'IA dépensent des milliards de modèles de formation pour raisonner, planifier et prendre des mesures. Ensuite, nous leur fournissons des données Web converties en démarques et espérons que tout ira pour le mieux.

Markdown a été conçu pour que les humains puissent écrire des documents formatés. Il n’a jamais été conçu comme un format d’échange de données pour l’intelligence artificielle. Pourtant, d’une manière ou d’une autre, il est devenu la sortie par défaut de chaque API de web scraping « prête pour LLM ».

C'est un problème. Et la situation empire à mesure que les systèmes d’IA passent d’interfaces de chat à des agents autonomes qui doivent agir sur les données, et non seulement les résumer.

À quoi ressemble réellement la démarque « LLM-Ready »

J'ai récupéré l'article Wikipédia sur « Football associatif » à l'aide d'une API de scraping populaire basée sur la démarque. Voici ce qui est revenu (en abrégé) :

[Aller au contenu](https://en.wikipedia.org/wiki/Association_football#bodyContent) Menu principal Menu principal déplacer vers sidebarhide Navigation - [Page principale](https://en.wikipedia.org/wiki/Main_Page "Visitez la page principale [alt-z]") - [Contenu](https://en.wikipedia.org/wiki/Wikipedia:Contents) - [Actuel événements](https://en.wikipedia.org/wiki/Portal:Current_events) - [Article aléatoire](https://en.wikipedia.org/wiki/Special:Random) Contribuer - [Aide](https://en.wikipedia.org/wiki/Help:Contents) - [Apprendre à éditer](https://en.wikipedia.org/wiki/Help:Introduction) - [Portail communautaire](https://en.wikipedia.org/wiki/Wikipedia:Community_portal) ## Le contenu est déplacé vers sidebarhide - [(Haut)](https://en.wikipedia.org/wiki/Association_football#) - [1Name](https://en.wikipedia.org/wiki/Association_football#Name) - [2Histoire](https://en.wikipedia.org/wiki/Association_football#History)Toggle Sous-section Historique # Football associatif 246 langues - [Acèh](https://ace.wikipedia.org/wiki/Sipak_bhan "Sipak bhan – Acehnese") - [Afrikaans](https://af.wikipedia.org/wiki/Sokker "Sokker – Afrikaans") - [አ...
[Courte citation de 8% de l'article original]
Loading...