GLM-OCR入门指南：3步完成Ubuntu系统下的模型部署与调用-尧图网站设计

GLM-OCR入门指南3步完成Ubuntu系统下的模型部署与调用你是不是也遇到过这种情况手头有一堆图片里面包含了各种文字信息比如扫描的文档、截图的表格、或者随手拍的带文字的图片想把里面的文字提取出来却不想一个个手动敲键盘或者你正在开发一个需要自动识别图片文字的应用但面对复杂的模型部署和配置感觉无从下手如果你用的是Ubuntu系统那今天这篇文章就是为你准备的。我将带你一步步在Ubuntu上把GLM-OCR这个强大的图片文字识别模型跑起来。整个过程其实很简单就三步找个带GPU的服务器、连上去、跑个测试脚本。我会把每一步都掰开揉碎了讲即便是刚接触Linux的新手跟着做也能搞定。1. 第一步准备你的“实验场地”——启动GPU实例想在本地电脑上直接跑AI模型尤其是像OCR这种需要处理图片的模型对显卡GPU的要求比较高。如果你的电脑没有合适的显卡或者不想把本地环境搞得太复杂最省心的办法就是租用一个云服务器。这里我们以星图平台为例因为它提供了预装好环境的镜像能省去大量配置时间。1.1 选择并启动合适的镜像首先你需要登录星图平台。在镜像广场里你可以直接搜索“GLM-OCR”。通常官方或者社区维护的镜像会直接以模型名命名非常容易找到。找到之后点击“部署”或“启动”。这时你会进入一个配置页面这里有几个关键选项需要注意实例规格这是最重要的选择。OCR模型处理图片时GPU能大大加速。因此请务必选择一个带GPU的规格比如“GPU 1卡”之类的选项。CPU虽然也能跑但速度会慢很多体验不佳。系统盘默认的容量比如50GB对于部署和测试GLM-OCR来说已经足够了不需要调整。网络与安全组为了后续能用SSH连接确保你的实例分配了公网IP。安全组规则一般会默认放行SSH端口22检查一下即可。配置完成后点击确认平台就会开始为你创建这个虚拟服务器。这个过程通常需要一两分钟喝杯水的功夫就好了。1.2 获取连接信息实例启动成功后在控制台找到你的实例。你需要记录两个关键信息它们是你进入服务器的“钥匙”公网IP地址一串像123.123.123.123的数字。这是你服务器的网络地址。登录密码通常在实例详情或创建记录里可以找到初始密码。请务必妥善保存。好了你的“实验场地”已经搭建完毕接下来我们就要进去开始干活了。2. 第二步进入服务器并检查环境有了IP和密码我们通过SSH这个工具连接到远程的Ubuntu服务器。这就像是用遥控器打开了另一台电脑。2.1 通过SSH连接服务器打开你本地电脑的终端如果是Windows可以使用 PowerShell 或 WSL也可以安装像 Xshell、MobaXterm 这样的SSH客户端。连接命令非常简单ssh root你的公网IP例如你的IP是123.123.123.123那么命令就是ssh root123.123.123.123回车后系统会提示你输入密码。注意输入密码时光标不会移动也不会显示星号这是正常现象你只管输完按回车就行。第一次连接时可能会看到一个关于“主机密钥”的确认提示输入yes确认即可。成功登录后命令行提示符会从你本机的用户名变成root实例名的样子这表示你已经进入了远程的Ubuntu服务器内部。2.2 验证基础环境星图的镜像通常已经为你安装好了Python、CUDAGPU驱动等基础环境。我们可以快速检查一下# 检查Python版本GLM-OCR通常需要Python 3.8及以上 python3 --version # 检查pip包管理工具是否可用 pip3 --version # 检查GPU是否可用如果镜像预装了PyTorch等深度学习框架 python3 -c import torch; print(torch.cuda.is_available())如果最后一条命令返回True那么恭喜你GPU环境是就绪的。如果返回False或者报错可能需要检查一下CUDA驱动不过正规的GPU镜像一般不会出现这个问题。3. 第三步部署与测试GLM-OCR模型环境没问题现在我们来安装GLM-OCR并运行一个最简单的测试。3.1 安装GLM-OCRGLM-OCR通常可以通过pip直接安装。在服务器的命令行中执行pip3 install glm-ocr这个命令会从Python的官方软件仓库下载GLM-OCR及其所有依赖包比如PyTorch、OpenCV等。安装过程可能需要几分钟取决于网络速度。常见网络问题解决如果下载速度很慢或者超时可能是因为默认的软件源在国外。我们可以临时切换为国内的镜像源来加速比如清华源pip3 install glm-ocr -i https://pypi.tuna.tsinghua.edu.cn/simple3.2 编写并运行测试脚本安装成功后我们创建一个Python脚本来测试它。首先创建一个新的工作目录并进入mkdir glm-ocr-test cd glm-ocr-test然后使用vim或nano编辑器创建一个Python文件比如叫test_ocr.py。这里我用nano举例因为它对新手更友好nano test_ocr.py在打开的编辑器里粘贴以下代码# test_ocr.py from glm_ocr import GLMOCR import cv2 # 1. 初始化识别器 print(正在初始化GLM-OCR识别器...) recognizer GLMOCR() # 2. 准备一张测试图片 # 这里我们假设图片名为 test_image.jpg并且放在当前目录下。 # 你可以通过任何方式如wget下载、本地上传准备一张包含文字的图片。 image_path test_image.jpg # 3. 使用OpenCV读取图片 image cv2.imread(image_path) if image is None: print(f错误无法读取图片 {image_path}请检查文件路径。) exit() # 4. 进行文字识别 print(f开始识别图片: {image_path}) results recognizer.recognize(image) # 5. 打印识别结果 print(\n 识别结果 ) for i, result in enumerate(results): # result 通常包含文本内容(text)和其在图片中的位置信息(box) text result.get(text, ) print(f区域 {i1}: {text}) print( 识别完成 )按CtrlO保存文件再按Enter确认文件名最后按CtrlX退出编辑器。3.3 准备测试图片并运行脚本现在我们需要一张包含文字的图片。一个简单的方法是直接从网上下载一张示例图片。在服务器终端里使用wget命令# 示例下载一张包含英文的简单图片请确保链接可用 wget -O test_image.jpg https://raw.githubusercontent.com/example/some-repo/main/sample_text_image.jpg请注意上面的链接只是一个示例你需要替换为一个真实存在的、包含清晰文字的图片URL。或者你也可以通过SFTP工具如FileZilla将你本地电脑上的图片上传到服务器的glm-ocr-test目录下并确保文件名为test_image.jpg。万事俱备运行我们的测试脚本python3 test_ocr.py如果一切顺利你将看到终端输出“正在初始化GLM-OCR识别器...”然后开始识别最后打印出图片中识别到的所有文字区域和内容。3.4 理解输出与下一步第一次运行模型可能需要下载预训练的权重文件这会花费一些时间请耐心等待。成功后你看到的results是一个列表里面的每个元素对应图片中识别到的一个文字区域包含了识别出的文本和它的坐标框。这个最简单的脚本展示了核心流程初始化模型、读图、识别、输出。在此基础上你可以尝试识别更复杂的中文、英文混合图片。处理整个文件夹的图片进行批量识别。将识别出的文本和坐标信息保存到文件如JSON或TXT中。结合其他库如PIL, matplotlib将识别框画在图片上可视化。4. 总结走完这三步你应该已经成功在Ubuntu服务器上部署了GLM-OCR并且完成了第一次图片文字识别。回顾一下关键就是三个动作找对带GPU的镜像、用SSH连上去、安装模型并跑通测试代码。整个过程最可能卡住的地方往往是第一步的环境选择和最后一步的网络依赖下载。只要按照教程里提到的方法选择GPU实例、遇到下载慢就换国内源基本都能顺利解决。GLM-OCR的能力远不止于此它对于印刷体、部分手写体、复杂背景下的文字都有不错的识别效果。接下来你可以多找些不同类型的图片试试感受一下它的能力边界。也可以去看看官方文档了解更高级的配置参数和调用方式把它集成到你自己的项目里去。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

GLM-OCR入门指南：3步完成Ubuntu系统下的模型部署与调用

相关新闻

超星签到自动化：告别手动拍照的全流程攻略

GTE-ProGPU算力适配：自动检测CUDA版本并选择最优PyTorch后端

避坑指南：SpringBoot整合Caffeine时90%人会踩的序列化坑（附Redis对比解决方案）

解决WMI核心dll丢失问题的全面指南

剪映AI音量均衡开启后反而失真？20年音频工程师紧急发布「3级安全阈值校准表」（限24小时免费领取）

Calibre中文路径保护插件：终极解决方案，让中文文件名不再变拼音！

WandEnhancer：零成本解锁WeMod专业版功能的完整指南

rnix-lsp进阶技巧：掌握代码重构与重命名功能

TMS320C2xx DSP架构精解：指令、寻址与外设实战指南

揭秘ChatGPT+Mathematica协同教学：为什么92%的初学者在72小时内建立函数直觉？

AI短剧创作系统：从剧本生成到视频合成的全流程解析

remix-i18next TypeScript类型安全实践：确保翻译键与类型定义同步

揭秘ChatGPT+Mathematica协同教学：为什么92%的初学者在72小时内建立函数直觉？

AI短剧创作系统：从剧本生成到视频合成的全流程解析

remix-i18next TypeScript类型安全实践：确保翻译键与类型定义同步

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战