Optimisez les jetons VLM avec EmbedAnything x ColPali

DEV - 12/01

ColPali, un modèle de vision d'interaction tardive, exploite ce pouvoir pour permettre des recherches de texte dans les images....

ColPali, un modèle de vision d'interaction tardive, exploite cette puissance pour permettre des recherches de texte dans les images. Cela signifie que vous pouvez identifier les pages exactes d'un PDF contenant du texte pertinent, même si le texte n'existe que dans le cadre d'une image. Par exemple, supposons que vous ayez des centaines de pages dans un PDF, voire des centaines de PDF. Dans ce cas, ColPali peut identifier les pages spécifiques correspondant à une requête, un exploit impressionnant pour rationaliser la recherche d'informations. Ce système est largement connu sous le nom de Vision RAG.

Cependant, en raison de ses exigences de calcul, il n'est pas toujours possible d'exécuter le modèle ColPali directement sur une machine locale. Pour résoudre ce problème, j'ai développé une version onnx de ColPali qui peut être quantifiée avec différentes précisions. La quantification réduit la précision des pondérations du modèle, réduisant ainsi considérablement les besoins en calcul et en mémoire. Malgré cette optimisation, le modèle quantifié conserve des performances quasiment équivalentes à l'original. Dans cet article, nous verrons comment utiliser ColPali pour Vision RAG en utilisant la bibliothèque EmbedAnything que je développe depuis quelques mois. Vous pouvez en savoir plus sur EmbedAnything ici

Qu’est-ce que Vision RAG ?

Examinons un peu plus en profondeur ce qu'est Vision RAG. Les méthodes RAG traditionnelles utilisent du texte tout au long du pipeline. Ils stockent des morceaux de texte et leurs intégrations dans une base de données vectorielles, puis récupèrent ces morceaux pour d'autres tâches en aval. Un RAG le plus simple/naïf attache ces morceaux comme contexte à la requête d'origine et vise à fournir plus d'informations au modèle. Il y a deux problèmes ici. La première est qu’il n’est peut-être pas possible d’obtenir du texte à partir de nombreuses sources de données. Pensez aux PDF numérisés ou aux documents comportant de nombreux graphiques, comme des brochures de conception, etc. Le RAG traditionnel s'effondre si les documents avec lesquels vous travaillez sont comme celui-ci. Une solution au problème consiste à utiliser des moteurs OCR pour extraire le texte d’une manière ou d’une autre. Cela ajoute des pièces mobiles supplémentaires au processus et les moteurs OCR sont assez ...
[Courte citation de 8% de l'article original]

Tags : chiffon - llm - openai - ai - logiciel - codage - développement - ingénierie - inclusif - communauté -

Article automatiquement traduit - Source et Copyright images et textes : - DEV
Lien vers la traduction, consulter la traduction de l'article sur Google Translate : https://translate.google.com/translate?hl=en&sl=auto&tl=fr&u=https://starlight-search.com/blog/2024/12/31/colpali-vision-rag/
Lien original, consulter l'article dans son intégralité ici : https://starlight-search.com/blog/2024/12/31/colpali-vision-rag/
Lien direct sur notre site : http://www.newsexplorer.fr/article/24047762/Optimisez-les-jetons-VLM-avec-EmbedAnything-x-ColPali
Partager : Facebook - Twitter

Avis de non-responsabilité pour les articles et les traductions :
Les articles publiés sur ce site ont été rédigés par des auteurs externes et ne représentent pas l'avis ou les opinions de ce site. Les informations contenues dans ces articles sont fournies à titre indicatif et ne doivent pas être considérées comme des conseils professionnels ou juridiques.
De plus, les traductions proposées sur ce site peuvent ne pas être exactes ou complètes. Nous ne pouvons garantir l'exactitude, la fiabilité ou la pertinence de ces traductions et nous déclinons toute responsabilité pour toute perte ou préjudice causé par leur utilisation.
Nous recommandons à nos lecteurs de vérifier toutes les informations avant de prendre des décisions ou d'entreprendre des actions en se basant sur ces articles ou traductions. Nous ne serons pas tenus responsables des erreurs ou des omissions dans les informations fournies sur ce site.