Optimisez les jetons VLM avec EmbedAnything x ColPali

DEV - 12/01
ColPali, un modèle de vision d'interaction tardive, exploite ce pouvoir pour permettre des recherches de texte dans les images....

ColPali, un modèle de vision d'interaction tardive, exploite cette puissance pour permettre des recherches de texte dans les images. Cela signifie que vous pouvez identifier les pages exactes d'un PDF contenant du texte pertinent, même si le texte n'existe que dans le cadre d'une image. Par exemple, supposons que vous ayez des centaines de pages dans un PDF, voire des centaines de PDF. Dans ce cas, ColPali peut identifier les pages spécifiques correspondant à une requête, un exploit impressionnant pour rationaliser la recherche d'informations. Ce système est largement connu sous le nom de Vision RAG.

Cependant, en raison de ses exigences de calcul, il n'est pas toujours possible d'exécuter le modèle ColPali directement sur une machine locale. Pour résoudre ce problème, j'ai développé une version onnx de ColPali qui peut être quantifiée avec différentes précisions. La quantification réduit la précision des pondérations du modèle, réduisant ainsi considérablement les besoins en calcul et en mémoire. Malgré cette optimisation, le modèle quantifié conserve des performances quasiment équivalentes à l'original. Dans cet article, nous verrons comment utiliser ColPali pour Vision RAG en utilisant la bibliothèque EmbedAnything que je développe depuis quelques mois. Vous pouvez en savoir plus sur EmbedAnything ici

Qu’est-ce que Vision RAG ?

Examinons un peu plus en profondeur ce qu'est Vision RAG. Les méthodes RAG traditionnelles utilisent du texte tout au long du pipeline. Ils stockent des morceaux de texte et leurs intégrations dans une base de données vectorielles, puis récupèrent ces morceaux pour d'autres tâches en aval. Un RAG le plus simple/naïf attache ces morceaux comme contexte à la requête d'origine et vise à fournir plus d'informations au modèle. Il y a deux problèmes ici. La première est qu’il n’est peut-être pas possible d’obtenir du texte à partir de nombreuses sources de données. Pensez aux PDF numérisés ou aux documents comportant de nombreux graphiques, comme des brochures de conception, etc. Le RAG traditionnel s'effondre si les documents avec lesquels vous travaillez sont comme celui-ci. Une solution au problème consiste à utiliser des moteurs OCR pour extraire le texte d’une manière ou d’une autre. Cela ajoute des pièces mobiles supplémentaires au processus et les moteurs OCR sont assez ...
[Courte citation de 8% de l'article original]

Loading...