LangChain : évaluation de l'application LLM

DEV - 10/05

À mesure que les modèles de langage (LLM) continuent de progresser, leurs applications deviennent de plus en plus complexes...

À mesure que les modèles linguistiques (LLM) continuent de progresser, leurs applications deviennent de plus en plus complexes et sophistiquées. Cependant, cette complexité s'accompagne du défi consistant à évaluer les performances et la précision de ces applications basées sur LLM. Dans cet article de blog, nous plongerons dans le monde de l'évaluation des applications LLM, en explorant les cadres et les outils qui peuvent vous aider à évaluer et à améliorer les performances de vos modèles.

Créez notre application Q&A

importer os depuis dotenv importer load_dotenv, find_dotenv depuis langchain.chains.retrieval_qa.base importer RetrievalQA depuis langchain.indexes importer VectorstoreIndexCreator depuis langchain.vectorstores.docarray importer DocArrayInMemorySearch depuis langchain_community.document_loaders.csv_loader importer CSVLoader depuis langchain_openai importer ChatOpenAI _ = dotenv( )) notebook_path = os.path.abspath("__file__") notebook_directory = os.path.dirname(notebook_path) csv_file_path = os.path.join(notebook_directory, '..', 'OutdoorClothingCatalog_1000.csv') chargeur = CSVLoader(file_path =csv_file_path) data = loader.load() index = VectorstoreIndexCreator(vectorstore_cls=DocArrayInMemorySearch).from_loaders( [loader] ) llm_model = "gpt-3.5-turbo" llm = ChatOpenAI(temperature=0.0, model=llm_model) qa = RetrievalQA. from_chain_type( llm=llm, chain_type="stuff", retriever=index.vectorstore.as_retriever(), verbose=True, chain_type_kwargs={"document_separator": "<<<<>>>>>"}, )Entrer en mode plein écran Quitter le mode plein écran

Génération de données de test

Avant de pouvoir évaluer une application LLM, nous avons besoin d'un ensemble solide de données de test. Il existe deux approches principales pour générer des données de test :

1.1 Création manuelle d'exemples

La méthode traditionnelle consiste à examiner manuellement vos données et à créer des paires requête-réponse. Disons que vous travaillez avec un ensemble de données de catalogue de vêtements. Vous pouvez parcourir les descriptions et créer des questions telles que « L'ensemble de pulls Cozy Comfort a-t-il des poches latérales ? » et fournissez la réponse correspondante.

Bien que cette approche vous donne un contrôle total sur les exemples, elle peut prendre du temps et ne pas s'adapter à des ensembles de données plus volumineux.

# Exemples codés en dur examples = [ { "query": "L'ensemble de pulls Co... 
[Courte citation de 8% de l'article original]

Tags : apprentissage automatique - IA - Langchain - LLM - logiciel - codage - développement - ingénierie - inclusif - communauté -

Article automatiquement traduit - Source et Copyright images et textes : - DEV
Lien vers la traduction, consulter la traduction de l'article sur Google Translate : https://translate.google.com/translate?hl=en&sl=auto&tl=fr&u=https://dev.to/rutamstwt/langchain-llm-app-evaluation-3m2l
Lien original, consulter l'article dans son intégralité ici : https://dev.to/rutamstwt/langchain-llm-app-evaluation-3m2l
Lien direct sur notre site : http://www.newsexplorer.fr/article/18314240/LangChain%C2%A0--%C3%A9valuation-de-l%27application-LLM
Partager : Facebook - Twitter

Avis de non-responsabilité pour les articles et les traductions :
Les articles publiés sur ce site ont été rédigés par des auteurs externes et ne représentent pas l'avis ou les opinions de ce site. Les informations contenues dans ces articles sont fournies à titre indicatif et ne doivent pas être considérées comme des conseils professionnels ou juridiques.
De plus, les traductions proposées sur ce site peuvent ne pas être exactes ou complètes. Nous ne pouvons garantir l'exactitude, la fiabilité ou la pertinence de ces traductions et nous déclinons toute responsabilité pour toute perte ou préjudice causé par leur utilisation.
Nous recommandons à nos lecteurs de vérifier toutes les informations avant de prendre des décisions ou d'entreprendre des actions en se basant sur ces articles ou traductions. Nous ne serons pas tenus responsables des erreurs ou des omissions dans les informations fournies sur ce site.