Apple travaille avec Nvidia pour rendre l'IA plus réactive

Sina - 21/12
Apple travaille avec Nvidia pour rendre l'IA plus réactive

Récemment, Apple et NVIDIA ont annoncé une coopération pour accélérer et optimiser les performances d'inférence des grands modèles de langage (LLM).

Afin d'améliorer la faible efficacité et la faible bande passante mémoire du raisonnement LLM autorégressif traditionnel, plus tôt cette année, les chercheurs en apprentissage automatique d'Apple ont publié et open source une technologie de décodage spéculatif appelée "ReDrafter" (Recurrent Drafter, cyclic draft model).

▲Source : GitHub

Actuellement, ReDrafter a été intégré à la solution d'inférence évolutive de NVIDIA « TensorRT-LLM ». Cette dernière est une bibliothèque open source basée sur le framework de compilation d'apprentissage profond « TensorRT » conçu pour optimiser l'inférence LLM et prend en charge le décodage spéculatif, y compris la méthode « Medusa ».

Cependant, comme les algorithmes inclus dans ReDrafter utilisent des opérateurs qui n'ont jamais été utilisés auparavant, NVIDIA a ajouté de nouveaux opérateurs ou exposé ...
[Courte citation de 8% de l'article original]

Loading...