信创系统上做AI知识库的人,建议试试微软这款开源工具

发布时间:2026/6/30 5:29:59

信创系统上做AI知识库的人,建议试试微软这款开源工具 原文链接信创系统上做AI知识库的人建议试试微软这款开源工具hello大家好呀微软开源了一个工具MarkItDown刚开始我以为它只是一个普通的格式转换工具测试了一遍之后才发现它真正的价值并不是把PDF转成Markdown而是把各种办公文档转换成更适合AI理解的文本这一点对于做知识库的人来说比格式转换本身更重要。因为现在很多知识库无论是Cherry Studio、Dify、AnythingLLM、OpenWebUI最终处理的都是文本。Markdown几乎成了事实上的通用格式而MarkItDown刚好把这件事情做了我最开始还担心微软出的工具是不是只能在Windows上使用后来在统信UOS V25上测试了一遍整个安装过程比想象中顺利。系统环境如下统信UOS V25专业版 ​ Linux 6.6 x86_64内核 ​ Python 3.12环境。为了避免污染系统Python环境我先创建了一个独立的Python虚拟环境再安装MarkItDown这也是我平时比较推荐的做法。安装完成后MarkItDown版本为0.1.6可以正常运行。真正让我惊喜的是它不仅支持PDF、Word、Excel、PowerPoint这些办公文档。还可以直接把转换后的Markdown输出到终端方便快速查看内容或者直接接入后续的AI处理流程。以前做知识库我总觉得模型最重要后来越来越发现真正决定回答质量的其实是文档预处理如果原始文档质量不好切片再漂亮、Embedding模型再先进回答依然不会太理想。所以现在我的流程基本变成了原始文档--MarkItDown--Markdown--AI知识库--向量数据库--大模型整个流程清晰了很多。如果你也正在搭建本地AI知识库、使用Cherry Studio、使用AnythingLLM、使用Dify、希望让AI更好地理解企业文档我建议可以试试MarkItDown至少目前来看。它已经成为我处理文档时最常用的工具之一。1.查看系统信息pdsywpdsyw1024:~/Desktop$ cat /etc/os-version ​ [Version] ​ SystemNameUOS Desktop ​ SystemName[zh_CN]统信桌面操作系统 ​ ProductTypeDesktop ​ ProductType[zh_CN]桌面 ​ EditionNameProfessional ​ EditionName[zh_CN]专业版 ​ MajorVersion25 ​ MinorVersion2500 ​ OsBuild21018.101.100 ​ pdsywpdsyw1024:~/Desktop$ uname -a ​ Linux pdsyw1024 6.6.0-amd64-desktop #25.00.2501.023 SMP PREEMPT_DYNAMIC Wed May 20 18:36:57 CST 2026 x86_64 GNU/Linux2.检查Python版本pdsywpdsyw1024:~/Desktop$ python --version ​ Python 3.12.133.安装虚拟环境依赖pdsywpdsyw1024:~/Desktop$ sudo apt install -y python3-pip python3-venv4.创建虚拟环境pdsywpdsyw1024:~/Desktop$ mkdir -p ~/markitdown-test ​ pdsywpdsyw1024:~/Desktop$ cd ~/markitdown-test ​ pdsywpdsyw1024:~/markitdown-test$ python3 -m venv .venv ​ pdsywpdsyw1024:~/markitdown-test$ source .venv/bin/activate ​ ((.venv) ) pdsywpdsyw1024:~/markitdown-test$5.安装MarkItDown((.venv) ) pdsywpdsyw1024:~/markitdown-test$ pip install markitdown[all]6.查看版本((.venv) ) pdsywpdsyw1024:~/markitdown-test$ markitdown -v ​ markitdown 0.1.67.把PDF转成Markdown((.venv) ) pdsywpdsyw1024:~/markitdown-test$ markitdown /home/pdsyw/Desktop/pdsyw.pdf -o pdsyw.md ​ ((.venv) ) pdsywpdsyw1024:~/markitdown-test$ ls ​ pdsyw.md8.把Word转成Markdown((.venv) ) pdsywpdsyw1024:~/markitdown-test$ markitdown /home/pdsyw/Desktop/pdsyw.docx -o pdsywdocx.md ​ ((.venv) ) pdsywpdsyw1024:~/markitdown-test$ ls ​ pdsywdocx.md pdsyw.md9.把Excel转成Markdown((.venv) ) pdsywpdsyw1024:~/markitdown-test$ markitdown /home/pdsyw/Desktop/pdsyw.xlsx -o pdsywxlsx.md ​ ((.venv) ) pdsywpdsyw1024:~/markitdown-test$ ls ​ pdsywdocx.md pdsyw.md pdsywxlsx.md10.把PPT转成Markdown((.venv) ) pdsywpdsyw1024:~/markitdown-test$ markitdown /home/pdsyw/Desktop/pdsyw.pptx -o pdsywpptx.md ​ ((.venv) ) pdsywpdsyw1024:~/markitdown-test$ ls ​ pdsywdocx.md pdsyw.md pdsywpptx.md pdsywxlsx.md11.直接输出到终端((.venv) ) pdsywpdsyw1024:~/markitdown-test$ markitdown /home/pdsyw/Desktop/pdsyw.pdf

相关新闻