Très interessant : Microsoft facilite la conversion des fichiers avec MarkItDown

Pour rappel, Markdown, est un langage de balisage léger, depuis longtemps un outil prisé pour la rédaction et la structuration de texte grâce à sa syntaxe simple et lisible. Son adoption massive repose aussi sur sa compatibilité avec des plateformes incontournables telles que GitHub et Jupyter Notebooks.
Microsoft a récemment dévoilé MarkItDown, une bibliothèque Python open source disponible sur GitHub. Cet outil permet de convertir différents types de fichiers en Markdown, ouvrant ainsi la voie à une exploitation facile pour des tâches telles que l’indexation et l’analyse de texte.
Formats Supportés
MarkItDown prend en charge un éventail de formats :
- Documents bureautiques : PDF, Word (.docx), PowerPoint (.pptx), Excel (.xlsx).
- Images : Lecture des métadonnées EXIF et reconnaissance optique de caractères (OCR).
- Audio : Extraction des métadonnées et transcription audio.
- HTML : Avec une prise en charge spécifique pour des sources complexes comme Wikipedia.
- Formats texte divers : CSV, JSON, XML, etc.
MarkItDown ne s’arrête pas là. Grâce à l’intégration de modèles de langage avancés, il peut analyser et décrire des images. Voici un exemple d’implémentation en Python :
from markitdown import MarkItDown
from openai import OpenAIclient = OpenAI()
md = MarkItDown(mlm_client=client, mlm_model= »gpt-4o »)
result = md.convert(« example.jpg »)
print(result.text_content)
L’outil est proposé sous licence MIT, MarkItDown : les développeurs peuvent l’intégrer, le modifier, et le distribuer tant qu’ils incluent la licence d’origine. Pour expérimenter avec MarkItDown, voici les étapes d’installation :
Via pip : pip install markitdown
Depuis le code source : pip install -e
Pour ceux qui ne maîtrisent pas Python, il est tant de s’y mettre 🙂 ou sinon une version web est disponible ici, permettant de tester la bibliothèque directement depuis le navigateur… de quoi s’amuser un peu durant les fêtes de Noel… ou pas