J'ai comparé 4 bibliothèques d'extraction de texte Python (2025)

DEV - 06/07
TL; DR: repères complets de Kreuzberg, docling, markitdown et non structurés sur 94 ...

TL; DR: Benchmarks complets de Kreuzberg, docling, markitdown et non structurés sur 94 documents du monde réel. Les résultats pourraient vous surprendre.

📊 Résultats en direct: https://goldziher.github.io/python-text-extraction-libs-benchmarks/

Contexte

En tant qu'auteur de Kreuzberg, je voulais créer une référence honnête et complète des bibliothèques d'extraction de texte Python. Pas de sélection de cerises, pas de peluches marketing - juste des données de performances réelles sur 94 documents (~ 210 Mo) allant de minuscules fichiers texte à 59 Mo de documents académiques.

Divulgation complète: j'ai construit Kreuzberg, mais ces repères sont automatisés, reproductibles et la méthodologie est complètement open-source.

🔬 Ce que j'ai testé

Bibliothèques comparées:

  • Kreuzberg (71 Mo, 20 DEP) - Ma bibliothèque
  • Document (1 032 Mo, 88 DEP) - Solution alimentée par IBM
  • Markitdown (251 Mo, 25 DEPS) - Convertisseur Markdown de Microsoft
  • Non structuré (146 Mo, 54 DEP) - Traitement des documents d'entreprise

Couverture de test:

  • 94 Documents réels: PDFS, documents de mots, HTML, images, feuilles de calcul
  • 5 catégories de tail...
    [Courte citation de 8% de l'article original]
Loading...