Des nouvelles ont été ajoutées en tête de listes.
Remontez pour les voir.
Inscription à la newsletter
J'ai comparé 4 bibliothèques d'extraction de texte Python (2025)
DEV -
06/07
TL; DR: repères complets de Kreuzberg, docling, markitdown et non structurés sur 94 ...
TL; DR: Benchmarks complets de Kreuzberg, docling, markitdown et non structurés sur 94 documents du monde réel. Les résultats pourraient vous surprendre.
📊 Résultats en direct: https://goldziher.github.io/python-text-extraction-libs-benchmarks/
Contexte
En tant qu'auteur de Kreuzberg, je voulais créer une référence honnête et complète des bibliothèques d'extraction de texte Python. Pas de sélection de cerises, pas de peluches marketing - juste des données de performances réelles sur 94 documents (~ 210 Mo) allant de minuscules fichiers texte à 59 Mo de documents académiques.
Divulgation complète: j'ai construit Kreuzberg, mais ces repères sont automatisés, reproductibles et la méthodologie est complètement open-source.
🔬 Ce que j'ai testé
Bibliothèques comparées:
Kreuzberg (71 Mo, 20 DEP) - Ma bibliothèque
Document (1 032 Mo, 88 DEP) - Solution alimentée par IBM
Markitdown (251 Mo, 25 DEPS) - Convertisseur Markdown de Microsoft
Non structuré (146 Mo, 54 DEP) - Traitement des documents d'entreprise
Couverture de test:
94 Documents réels: PDFS, documents de mots, HTML, images, feuilles de calcul
5 catégories de tail... [Courte citation de 8% de l'article original]
Loading...
🍪
Le modèle économique de notre site repose sur l'affichage de publicités personnalisées basées sur l'utilisation de cookies publicitaires. En continuant votre visite sur notre site, vous consentez à l'utilisation de ces cookies.
Politique de confidentialité