前言
为解决LLM知识库的局限性、幻觉问题和数据安全性的问题,RAG检索增强生成(Retrieval Augmented Generation)应运而生,已经成为这些年最火热的LLM应用方案。而本人在使用RagFlow构建本地知识库时,发现其自带的DeepDoc解析PDF的效果不是很理想,为了解决这个问题找了MinerU这款PDF神器来替代DeepDoc解析PDF。本文主要整理了本地部署MinerU2.0的步骤,包含cpu和gpu两种模式(文章当前最新MinerU版本为mineru-2.0.6-released)。
一、MinerU介绍
MinerU是一款由上海人工智能实验室的大模型数据基础团队(OpenDataLab)开发的开源数据提取工具,专门用于高效地从复杂的 PDF 文档、网页和电子书中提取内容。想了解MinerU提取数据的原理可参考官方PPT文档
1. 拉取代码安装依赖
1 | # 拉取项目源码 |
