Open-AutoGLM部署指南：快速搭建多模态手机操作助手-尧图网站设计

Open-AutoGLM部署指南快速搭建多模态手机操作助手1. 项目概述AutoGLM-Phone 是智谱AI开源的手机端智能助理框架基于视觉语言模型构建。它能以多模态方式理解手机屏幕内容并通过自动化操作帮助用户完成任务。系统通过ADB(Android Debug Bridge)控制设备结合视觉语言模型进行屏幕感知和智能规划最终执行操作流程。1.1 核心功能自然语言交互用户只需用自然语言描述需求如打开小红书搜索美食多模态理解能够理解手机屏幕上的文字、图像和布局信息自动化操作自动解析意图、理解界面、规划并执行操作流程安全机制内置敏感操作确认功能支持人工接管验证码等场景远程控制支持通过WiFi或网络连接设备实现灵活的远程控制2. 环境准备2.1 服务器端要求操作系统Ubuntu 22.04 LTS显卡建议显存40G以上如A40、A100-40G或RTX 4090Docker需要安装最新版本Python3.10及以上版本2.2 客户端要求操作系统Windows 10/11或macOSPython3.10及以上版本安卓设备Android 7.0手机或模拟器ADB工具Android Platform Tools3. 服务器端部署3.1 Docker环境配置首先清理可能存在的旧版本Dockerfor pkg in docker.io docker-doc docker-compose docker-compose-v2 podman-docker containerd runc; do sudo apt-get remove $pkg; done安装最新版Docker Enginesudo apt-get update sudo apt-get install ca-certificates curl sudo install -m 0755 -d /etc/apt/keyrings sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc sudo chmod ar /etc/apt/keyrings/docker.asc echo \ deb [arch$(dpkg --print-architecture) signed-by/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \ $(. /etc/os-release echo $VERSION_CODENAME) stable | \ sudo tee /etc/apt/sources.list.d/docker.list /dev/null sudo apt-get update sudo apt-get install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin3.2 模型下载使用ModelScope下载AutoGLM-Phone-9B模型pip install modelscope mkdir -p /opt/model modelscope download --model ZhipuAI/AutoGLM-Phone-9B --local_dir /opt/model3.3 启动vLLM推理服务配置NVIDIA Container Toolkitcurl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg \ curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | \ sed s#deb https://#deb [signed-by/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g | \ sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list sudo apt-get update sudo apt-get install -y nvidia-container-toolkit sudo nvidia-ctk runtime configure --runtimedocker sudo systemctl restart docker启动vLLM容器docker pull vllm/vllm-openai:v0.12.0 docker run -it \ --entrypoint /bin/bash \ --gpus all \ -p 8800:8000 \ --ipchost \ -v /opt/model:/app/model \ --name autoglm \ vllm/vllm-openai:v0.12.0在容器内启动API服务pip install -U transformers --pre python3 -m vllm.entrypoints.openai.api_server \ --served-model-name autoglm-phone-9b \ --allowed-local-media-path / \ --mm-encoder-tp-mode data \ --mm_processor_cache_type shm \ --mm_processor_kwargs {\max_pixels\:5000000} \ --max-model-len 25480 \ --chat-template-content-format string \ --limit-mm-per-prompt {\image\:10} \ --model /app/model \ --port 80004. 客户端配置4.1 ADB环境准备Windows系统配置下载Android Platform Tools解压后添加路径到系统环境变量命令行输入adb version验证安装macOS系统配置export PATH${PATH}:~/Downloads/platform-tools4.2 手机端设置开启开发者模式设置 - 关于手机 - 连续点击版本号开启USB调试设置 - 开发者选项 - 勾选USB调试安装并设置ADB Keyboard为默认输入法4.3 部署控制端代码克隆Open-AutoGLM仓库并安装依赖git clone https://github.com/zai-org/Open-AutoGLM cd Open-AutoGLM pip install -r requirements.txt pip install -e .5. 连接与使用5.1 设备连接方式USB连接adb devicesWiFi连接adb tcpip 5555 adb connect 192.168.x.x:55555.2 启动AI代理命令行运行python main.py \ --device-id 设备ID或IP:5555 \ --base-url http://服务器IP:端口/v1 \ --model autoglm-phone-9b \ 打开抖音搜索抖音号为dycwo11nt61d 的博主并关注他Python API调用from phone_agent.adb import ADBConnection, list_devices conn ADBConnection() success, message conn.connect(192.168.1.100:5555) print(f连接状态: {message}) devices list_devices() for device in devices: print(f{device.device_id} - {device.connection_type.value}) success, message conn.enable_tcpip(5555) ip conn.get_device_ip() print(f设备 IP: {ip}) conn.disconnect(192.168.1.100:5555)6. 常见问题解决6.1 连接问题连接被拒绝检查服务器防火墙是否放行了对应端口ADB掉线WiFi连接不稳定时尝试使用USB线连接设备未识别确保已开启USB调试并安装正确的驱动程序6.2 模型问题模型无响应检查vLLM启动参数是否正确特别是显存和max-model-len设置输出乱码确认模型路径和名称是否正确推理速度慢检查服务器GPU利用率必要时升级硬件配置6.3 操作问题操作失败确保ADB Keyboard已设置为默认输入法权限不足检查开发者选项中的USB调试(安全设置)是否开启屏幕锁定建议关闭手机的锁屏密码以提高稳定性获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

Open-AutoGLM部署指南：快速搭建多模态手机操作助手

相关新闻

Windows 10终极优化指南：一键禁用无用服务的完整教程

避坑指南：Cluster Computing投稿时.bib转.bbl的完整操作流程（Overleaf版）

别再只用默认库了！Neo4j社区版‘单库复用’实战：用配置文件管理多个项目数据

西瓜遗传转化实验原理+实验步骤

网盘直链下载助手：九大主流平台真实下载地址一键获取终极指南

Go Wind UBA 拆解系列 - SDK 与采集层：从浏览器到 Kafka

如何用PhotoRec免费恢复误删文件：从数据丢失到完整救援的终极指南

高效财务数据提取：基于Python的SEC EDGAR自动化解决方案

5分钟解锁小爱音箱无限音乐自由：XiaoMusic终极语音播放方案

iOS自动化测试：基于facebook-wda与weditor的稳定元素定位实战

EulerPublisher开发者指南：如何扩展新云厂商支持和自定义构建流程

工业自动化中的传感器与执行器控制方案解析

终端里的 AI 驾驶舱：Claude Code 斜杠命令深度解析

华为OD机试2025C卷-字符串变换最小次数[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

华为OD机试2025C卷-内存资源分配[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

国产DSP FT-M6678 DDR3配置避坑指南：从PLL时钟到PHY寄存器，手把手调通你的第一块板

Coze与Dify对比指南：低代码AI应用开发从入门到实战