Llama3, présenté comme le premier « GPT4 open source » au monde, est enfin arrivé !
Llama3, le dernier Large Language Model (LLM) open source lancé par Meta, comprend le Llama3 8B avec 8 milliards de paramètres et le Llama3 70B avec 70 milliards de paramètres. Llama3 a fait des progrès significatifs en termes de performances, le modèle 8B surpassant Gemma 7B et Mistral 7B Instruct dans divers benchmarks tels que MMLU, GPQA, HumanEval, tandis que le modèle 70B a surpassé le Sonnet propriétaire Claude 3 et est à égalité avec Gemini Pro 1.5 de Google. . De plus, Meta développe une version avec plus de 400 milliards (400 milliards) de paramètres, qui devrait avoir des capacités de traitement multilingues améliorées et la capacité de comprendre des modèles non textuels tels que des images.
Avec Llama3 à notre disposition, nous pouvons créer une gamme d'applications innovantes, des chatbots attrayants aux robots d'assurance qualité intelligents de récupération augmentée (RAG), et au-delà. Cependant, déployer Llama3, intégrer le Llama3 déployé à son application et déployer l'application elle-même peut être un défi pour de nombreux développeurs.
Cet article présente une approche de développement basée sur Pluto, qui nécessite uniquement l'écriture du code de l'application et l'exécution d'une seule commande pour déployer Llama3 et publier l'application. Cet article utilisera un robot d'assurance qualité de documents basé sur RAG comme exemple pour démontrer cette méthode de développement. La fonction principale de ce robot QA est de récupérer la documentation du projet à partir d'un référentiel GitHub spécifié, puis d'utiliser le modèle Llama3 pour répondre aux questions basées sur le contenu du document.
L'image suivante montre l'interaction avec ce robot QA, le référentiel spécifié étant le référentiel de documentation de Pluto. Ainsi, à partir du contenu de l’image, on peut avoir une compréhension de base de ce qu’est Pluton :
L'exemple d'application à implémenter est basé sur le framework LangChain et utilise OpenAI Embeddings comme outil de vectorisation de documents. L'intégralité de l'application sera déployée sur AWS, et l'architecture déployée est présentée dans la figure ci-dessous :
Plus précisément, l'application déployée comprendra les instances de ressources AWS suivantes :
En plus de créer ces instances de ressources, il est également nécessaire de configurer les dépendances entre les ressources, notamment les déclencheurs, les rôles IAM et les stratégies d'autorisation. Cependant, vous n'avez pas à vous soucier de ces processus complexes de création et de configuration, car Pluto peut déduire ces i...
[Courte citation de 8% de l'article original]