Comment installer Nvidia Parakeet TDT 0.6b V2 localement?

DEV - 11/05
Parakeet-TDT 0.6b V2 est un modèle de parole à texte haute performance développé par Nvidia pour l'anglais ...

Parakeet-TDT 0.6b V2 est un modèle de parole à texte haute performance développé par NVIDIA pour la transcription audio anglais. Construit sur l'architecture FastConFormer avec un décodeur TDT, il est conçu pour gérer la parole longue (jusqu'à 24 minutes) tout en préservant la ponctuation, la capitalisation et les horodatages précis au niveau des mots. Que vous transcrivez des conversations, des réunions ou du contenu parlé avec un bruit de fond, ce modèle fournit des résultats rapides et fiables - ce qui en fait un outil puissant pour les développeurs, les chercheurs et les flux de travail de transcription. Il prend en charge les formats .wav et .flac et est entièrement optimisé pour l'accélération du GPU.

Ressource

Lien de face étreint: https://huggingface.co/nvidia/parakeet-tdt-0.6b-v2

Configuration minimale (légère) pour l'inférence uniquement:

  • GPU: Nvidia T4 (16 Go VRAM)
  • VCPUS: 8+
  • RAM: 16 Go
  • Disque: 30–40 Go
  • Fonctionne pour l'audio plus court (<10 minutes) et la concurrence inférieure

Modèles GPU testés:

  • A6000 (ce que vous utilisez actuellement - excellent)
  • A100, H100 (exagéré, flamboyant rapidement)
  • L4, T4 (d'accord pour les petits travaux d'inférence)
  • CPU uniquement: non recommandé en raison d'une charge d'inférence lourde et d'un RTFX lent.

Processus étape par étape pour installer Nvidia Parakeet TDT 0.6b V2 localement

Aux fins de ce tutoriel, nous utiliserons une machine virtuelle alimentée par GPU offerte par NodeHift; Cependant, vous pouvez reproduire les mêmes étapes avec tout autre fournisseur de cloud de votre choix. NodeHift fournit les machines virtuelles les plus abordables à une échelle qui répond aux exigences du RGPG, SOC2 et ISO27001.

Étape 1: Inscrivez-vous et configu...
[Courte citation de 8% de l'article original]

Loading...