12 月 17 日消息,微軟在 GitHub 上發布了名為 MarkItDown 的開源 Python 庫,可以將 Office 文檔在內的多種文件格式,轉換為 Markdown 格式。

用戶通過該工具轉換后,有助于文本索引、分析等多種應用場景,并支持開發者利用大型語言模型進行圖像描述。
附上 MarkItDown 庫當前支持的文件格式如下:
PDF (.pdf)
PowerPoint (.pptx)
Word (.docx)
Excel (.xlsx)
Images (EXIF metadata, and OCR)
Audio (EXIF metadata, and speech tranion)
HTML (special handling of Wikipedia, etc.)
其它各種文本格式 (csv, json, xml, etc.)
開發人員還可以配置 MarkItDown 庫,使用大型語言模型來描述圖像,需要將 mlm_client 和 mlm_model 參數設置為 MarkItDown 對象,如下所示:
from markitdown import MarkItDownfrom openai import OpenAIclient = OpenAImd = MarkItDown(mlm_client=client, mlm_model="gpt-4o")result = md.convert("example.jpg")print(result.text_content)
由于 MarkItDown 庫在 MIT 開源許可下可用,因此開發人員可以自由使用、修改和分發它,唯一的要求是他們在分發時包含原始許可證和版權聲明。






京公網安備 11011402013531號