Classification des textes Zero Shot Sous le capot

DEV - 05/05
En raison de leur potentiel dans les applications du monde réel, les données textuelles ont attiré beaucoup d'attention...

En raison de leur potentiel dans les applications du monde réel, les données textuelles ont attiré beaucoup d'attention, surtout au cours de la dernière décennie. Le domaine du traitement du langage naturel (NLP) traite des problèmes liés à ce type de données. L'un de ces problèmes est la classification des textes, connue sous le nom d'éléphant parmi les chercheurs aveugles, car elle accepte plusieurs vues alternatives et plusieurs stratégies de solution. L’approche traditionnelle pour effectuer cette tâche consistait simplement à entraîner un modèle d’apprentissage automatique pour prédire une étiquette à partir d’un texte. Cependant, obtenir de grandes quantités de données étiquetées de haute qualité peut être un défi difficile qui nécessite beaucoup d'efforts et de traitement.

En 2019, une nouvelle représentation du langage appelée BERT (Bedirectionnel Encoder Representation from Transformers) a été introduite. L'idée principale derrière ce paradigme est de pré-entraîner d'abord un modèle de langage en utilisant une quantité massive de données non étiquetées, puis d'affiner tous les paramètres à l'aide des données étiquetées des tâches en aval. Cela permet au modèle de bien se géné...
[Courte citation de 8% de l'article original]

Loading...