
PaddleOCR-VL-1.6-GGUF API使用指南Python接口与命令行工具详解【免费下载链接】PaddleOCR-VL-1.6-GGUF项目地址: https://ai.gitcode.com/paddlepaddle/PaddleOCR-VL-1.6-GGUF飞桨PaddlePaddle的PaddleOCR-VL-1.6-GGUF是一款强大的文档解析模型它在PaddleOCR-VL-1.5的基础上进行了升级引入了区域感知数据优化框架和渐进式后训练方案在OmniDocBench等多个基准测试中取得了优异成绩。本指南将详细介绍如何通过Python接口和命令行工具使用该模型帮助新手和普通用户快速上手这一高效的文档解析工具。快速开始环境准备要使用PaddleOCR-VL-1.6-GGUF首先需要安装必要的依赖。确保你的系统中已安装Python环境然后通过以下命令安装PaddlePaddle和PaddleOCR# 安装适用于CUDA 12.6的PaddlePaddle版本其他版本请参考官方文档 python -m pip install paddlepaddle-gpu3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/ python -m pip install -U paddleocr[doc-parser]3.6.0注意请确保安装PaddlePaddle框架版本3.2.1或以上以及特定版本的safetensors。macOS用户建议使用Docker搭建环境。启动VLM推理服务器在使用PaddleOCR-VL-1.6-GGUF进行文档解析之前需要先启动VLM推理服务器。使用以下命令llama-server \ -m /path/to/PaddleOCR-VL-1.6-GGUF.gguf \ --mmproj /path/to/PaddleOCR-VL-1.6-GGUF-mmproj.gguf \ --port 8080 \ --host 0.0.0.0 \ --temp 0其中/path/to/需要替换为你实际存放模型文件的路径。--port参数指定服务器端口--host 0.0.0.0允许其他设备访问该服务器。Python接口使用方法PaddleOCR提供了简洁易用的Python API让你可以在自己的Python程序中轻松集成文档解析功能。基本使用示例from paddleocr import PaddleOCRVL # 初始化PaddleOCRVL pipeline pipeline PaddleOCRVL( pipeline_versionv1.6, vl_rec_backendllama-cpp-server, vl_rec_server_urlhttp://127.0.0.1:8080/v1 ) # 对图片进行文档解析 output pipeline.predict(https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png) # 处理解析结果 for res in output: res.print() # 打印解析结果 res.save_to_json(save_pathoutput) # 保存结果到JSON文件 res.save_to_markdown(save_pathoutput) # 保存结果到Markdown文件功能说明PaddleOCRVL类的初始化参数中pipeline_version指定使用的流水线版本这里我们使用v1.6。vl_rec_backend设置为llama-cpp-server表示使用llama.cpp服务器作为后端。vl_rec_server_url是我们之前启动的推理服务器的地址。predict方法接受图片路径作为输入可以是本地路径或网络URL。解析结果是一个包含多个元素的列表每个元素代表图片中的一个可识别区域。你可以通过print方法直接打印结果或使用save_to_json和save_to_markdown方法将结果保存到文件。命令行工具使用方法除了Python APIPaddleOCR还提供了命令行工具方便你直接在终端中使用文档解析功能。基本使用命令paddleocr doc_parser \ -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/paddleocr_vl_demo.png \ --pipeline_version v1.6 \ --vl_rec_backend llama-cpp-server \ --vl_rec_server_url http://127.0.0.1:8080/v1参数说明-i指定输入图片的路径可以是本地文件路径或网络URL。--pipeline_version指定使用的流水线版本这里设置为v1.6。--vl_rec_backend设置视觉语言识别后端这里使用llama-cpp-server。--vl_rec_server_url指定推理服务器的地址。高级用法元素级识别PaddleOCR-VL-1.6-0.9B模型支持六种元素级别的识别包括文本、公式、表格、图表、印章和定位。你可以通过不同的提示词来指定识别类型。识别类型及提示词文本识别OCR:公式识别Formula Recognition:表格识别Table Recognition:图表识别Chart Recognition:印章识别Seal Recognition:定位Spotting:需要设置image_max_pixels为1605632设置image_max_pixels对于定位任务需要先设置image_max_pixels参数git clone https://gitcode.com/paddlepaddle/PaddleOCR-VL-1.6-GGUF cd PaddleOCR-VL-1.6-GGUF python -m pip install gguf python ./gguf-py/gguf/scripts/gguf_set_metadata.py PaddleOCR-VL-1.6-mmproj.gguf clip.vision.image_max_pixels 1605632 --force如需恢复默认值可执行python ./gguf-py/gguf/scripts/gguf_set_metadata.py PaddleOCR-VL-1.6-mmproj.gguf clip.vision.image_max_pixels 1003520 --force使用llama-cli进行识别llama-cli \ -m PaddleOCR-VL-1.6.gguf \ --mmproj PaddleOCR-VL-1.6-mmproj.gguf \ -p OCR: \ --image test_image.jpg将-p参数的值替换为不同的提示词即可实现不同类型的元素识别。总结PaddleOCR-VL-1.6-GGUF提供了Python接口和命令行工具两种便捷的使用方式满足不同用户的需求。通过本文的指南你可以快速掌握如何安装环境、启动服务器、以及使用API和命令行工具进行文档解析。无论是开发集成到自己的应用程序还是直接在终端中进行文档处理PaddleOCR-VL-1.6-GGUF都能为你提供高效准确的文档解析能力。更多使用细节和参数说明请参考官方文档。希望本指南能帮助你更好地利用PaddleOCR-VL-1.6-GGUF进行文档解析工作【免费下载链接】PaddleOCR-VL-1.6-GGUF项目地址: https://ai.gitcode.com/paddlepaddle/PaddleOCR-VL-1.6-GGUF创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考