J'ai comparé 4 bibliothèques d'extraction de texte Python (2025)

DEV - 06/07

TL; DR: repères complets de Kreuzberg, docling, markitdown et non structurés sur 94 ...

TL; DR: Benchmarks complets de Kreuzberg, docling, markitdown et non structurés sur 94 documents du monde réel. Les résultats pourraient vous surprendre.

📊 Résultats en direct: https://goldziher.github.io/python-text-extraction-libs-benchmarks/

Contexte

En tant qu'auteur de Kreuzberg, je voulais créer une référence honnête et complète des bibliothèques d'extraction de texte Python. Pas de sélection de cerises, pas de peluches marketing - juste des données de performances réelles sur 94 documents (~ 210 Mo) allant de minuscules fichiers texte à 59 Mo de documents académiques.

Divulgation complète: j'ai construit Kreuzberg, mais ces repères sont automatisés, reproductibles et la méthodologie est complètement open-source.

🔬 Ce que j'ai testé

Bibliothèques comparées:

Kreuzberg (71 Mo, 20 DEP) - Ma bibliothèque
Document (1 032 Mo, 88 DEP) - Solution alimentée par IBM
Markitdown (251 Mo, 25 DEPS) - Convertisseur Markdown de Microsoft
Non structuré (146 Mo, 54 DEP) - Traitement des documents d'entreprise

Couverture de test:

94 Documents réels: PDFS, documents de mots, HTML, images, feuilles de calcul
5 catégories de tail...
[Courte citation de 8% de l'article original]

Tags : WebDev - MachineLearning - LLM - AI - logiciel - codage - développement - ingénierie - inclusive - communauté -

Article automatiquement traduit - Source et Copyright images et textes : - DEV
Lien vers la traduction, consulter la traduction de l'article sur Google Translate : https://translate.google.com/translate?hl=en&sl=auto&tl=fr&u=https://dev.to/nhirschfeld/i-benchmarked-4-python-text-extraction-libraries-2025-4e7j
Lien original, consulter l'article dans son intégralité ici : https://dev.to/nhirschfeld/i-benchmarked-4-python-text-extraction-libraries-2025-4e7j
Lien direct sur notre site : http://www.newsexplorer.fr/article/27522319/J%27ai-compar%C3%A9-4-biblioth%C3%A8ques-d%27extraction-de-texte-Python-%282025%29
Partager : Facebook - Twitter

Avis de non-responsabilité pour les articles et les traductions :
Les articles publiés sur ce site ont été rédigés par des auteurs externes et ne représentent pas l'avis ou les opinions de ce site. Les informations contenues dans ces articles sont fournies à titre indicatif et ne doivent pas être considérées comme des conseils professionnels ou juridiques.
De plus, les traductions proposées sur ce site peuvent ne pas être exactes ou complètes. Nous ne pouvons garantir l'exactitude, la fiabilité ou la pertinence de ces traductions et nous déclinons toute responsabilité pour toute perte ou préjudice causé par leur utilisation.
Nous recommandons à nos lecteurs de vérifier toutes les informations avant de prendre des décisions ou d'entreprendre des actions en se basant sur ces articles ou traductions. Nous ne serons pas tenus responsables des erreurs ou des omissions dans les informations fournies sur ce site.