通义千问1.5-1.8B-Chat-GPTQ-Int4保姆级教程:从零开始完成你的第一个AI应用

发布时间:2026/6/17 17:46:41

通义千问1.5-1.8B-Chat-GPTQ-Int4保姆级教程:从零开始完成你的第一个AI应用 通义千问1.5-1.8B-Chat-GPTQ-Int4保姆级教程从零开始完成你的第一个AI应用你是不是也经常看到别人玩转各种AI模型自己却觉得门槛太高光是“部署”、“推理”这些词就让人望而却步别担心今天这篇教程就是为你准备的。我们将手把手从零开始带你完成一个属于自己的AI聊天应用。整个过程你不需要懂复杂的深度学习框架甚至不需要在本地安装任何开发环境。我们将从一个完全空白的云平台账号开始一步步选择模型、部署服务最后用简单的Python代码把它变成一个可以对话的“小伙伴”甚至打包成一个独立的程序。目标很简单一小时内让你看到自己的AI跑起来并和它说上话。1. 第一步准备你的“云上实验室”我们常说“工欲善其事必先利其器”。对于AI应用开发这个“器”就是一台有强大GPU的电脑。但个人购买成本太高所以我们选择租用云服务。这里我们以星图GPU平台为例因为它提供了预置好的AI镜像能让我们跳过最繁琐的环境配置。1.1 注册与登录首先你需要访问星图GPU平台的官网。这个过程和注册任何一个普通网站账号没有区别填写邮箱、设置密码、完成验证。注册成功后登录到你的控制台。这里就是你未来创建和管理所有AI实例的大本营。1.2 创建你的第一个GPU实例登录后找到“创建实例”或类似的按钮。点击进入后你会看到几个关键的选择项别慌我们一个个来选区域选择一个离你地理位置近的这样网络延迟会低一些响应更快。镜像这是最关键的一步我们需要一个已经预装了所有必要软件和模型的环境。在镜像市场或选择列表中搜索“通义千问”或“Qwen”。找到名为“通义千问1.5-1.8B-Chat-GPTQ-Int4”的镜像。这个镜像已经帮我们把模型、推理框架都打包好了省去了数小时的安装和配置时间。GPU型号对于1.8B参数量的模型一块中等算力的GPU例如NVIDIA T4、RTX 4090等就完全足够了。你可以根据平台提供的选项和价格选择性价比高的。实例规格通常选择默认的规格即可它已经为运行AI模型优化好了CPU和内存配置。确认所有信息无误后点击“创建”或“立即购买”。稍等几分钟你的云上AI服务器就准备就绪了。控制台会显示实例的IP地址、登录用户名通常是root和密码这些信息待会儿会用到。2. 第二步连接服务器与验证模型实例创建成功后状态会显示为“运行中”。接下来我们需要连接到这台远程服务器。2.1 使用SSH连接服务器如果你用的是Windows系统可以下载PuTTY或Xshell这类SSH工具。如果是macOS或Linux直接打开终端Terminal就行。连接命令格式如下ssh root你的服务器IP地址输入命令后会提示你输入创建实例时设置的密码。输入时密码不会显示这是正常的输完按回车即可。成功登录后你会看到一个类似rootinstance-name:~#的命令行提示符这说明你已经进入了你的云服务器。2.2 确认模型已就位因为我们是使用预置镜像模型应该已经下载并准备好了。我们可以快速验证一下。通常模型会存放在一个固定的目录比如/root/models/或/workspace/下。我们可以用ls命令查看。# 尝试列出可能的模型目录 ls -la /workspace/ # 或者 ls -la /root/你应该能看到包含Qwen-1_8B-Chat-GPTQ-Int4类似字样的文件夹。看到它就说明模型已经准备好了最大的难关已经过去了。3. 第三步编写你的第一个AI聊天程序现在服务器和模型都准备好了我们来写一个简单的Python脚本让模型“开口说话”。我们使用transformers库它是目前最流行的模型加载和推理库。3.1 创建一个Python脚本在服务器上使用nano或vim编辑器创建一个新文件比如叫chat_with_qwen.py。nano chat_with_qwen.py3.2 编写核心代码将下面的代码复制进去。这段代码做了几件事加载量化后的模型、加载对应的分词器、然后创建一个循环可以持续地进行多轮对话。from transformers import AutoModelForCausalLM, AutoTokenizer import torch # 1. 指定模型路径根据你实际在服务器上找到的路径修改 model_path /workspace/Qwen-1.8B-Chat-GPTQ-Int4 # 请修改为你的实际路径 # 2. 加载分词器和模型 print(正在加载分词器...) tokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue) print(正在加载模型这可能需要一点时间...) model AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float16, # 使用半精度浮点数以节省显存 device_mapauto, # 自动将模型分配到可用的GPU上 trust_remote_codeTrue ) print(模型加载完成) # 3. 准备对话历史 history [] # 4. 开始聊天循环 print(\n你好我是通义千问。输入 exit 或 quit 结束对话。) while True: # 获取用户输入 user_input input(\n 我: ) # 检查是否退出 if user_input.lower() in [exit, quit]: print(再见) break # 将用户输入加入历史并生成模型回复 history.append({role: user, content: user_input}) # 使用模型的chat接口生成回复这是通义千问的标准对话格式 response, history model.chat(tokenizer, queryuser_input, historyhistory) # 打印模型回复 print(f 千问: {response})代码简单解释AutoTokenizer和AutoModelForCausalLM是transformers库的“自动”加载器能根据模型路径自动识别并加载正确的组件。trust_remote_codeTrue是因为通义千问模型使用了一些自定义代码需要这个参数来信任并执行。device_map”auto”让库自动决定把模型的每一层放在GPU还是CPU上非常省心。model.chat()是通义千问模型提供的便捷对话接口它帮我们处理了复杂的对话历史拼接格式。3.3 运行你的AI程序保存并退出编辑器在nano中是按CtrlX然后按Y再按回车。在命令行中运行你的脚本python chat_with_qwen.py第一次运行会需要一点时间初始化模型。完成后你会看到提示符 我:。试着输入“你好请介绍一下你自己”然后按回车。稍等片刻你就能看到通义千问的回复了恭喜你你的第一个AI应用的核心部分已经运行起来了4. 第四步打包成可执行文件可选但很酷现在程序只能在服务器上用命令行运行。如果我们想把它分享给不会用命令行的朋友或者想在自己电脑上运行打包成可执行文件是个好办法。我们用PyInstaller来实现。注意这一步通常在本地开发机上进行因为打包过程可能需要一些额外的库。我们假设你本地电脑Windows/Mac/Linux已经安装了Python。4.1 准备本地环境在你的本地电脑上创建一个新的项目文件夹将刚才在服务器上写的chat_with_qwen.py脚本复制过来。然后安装必要的库pip install transformers torch accelerate pyinstalleraccelerate库可以帮助优化模型加载。4.2 修改代码以适应打包打包时模型路径不能是服务器的绝对路径。我们需要修改代码让用户可以在运行时指定模型路径或者我们将模型一起打包但模型很大不推荐。这里我们采用运行时指定的方式。创建一个新的脚本chat_app.pyimport sys import torch from transformers import AutoModelForCausalLM, AutoTokenizer def main(): if len(sys.argv) 2: print(请指定模型文件夹路径。用法: python chat_app.py /path/to/your/model) return model_path sys.argv[1] # 加载模型和分词器 tokenizer AutoTokenizer.from_pretrained(model_path, trust_remote_codeTrue) model AutoModelForCausalLM.from_pretrained( model_path, torch_dtypetorch.float16, device_mapauto, trust_remote_codeTrue ) history [] print(\n通义千问聊天程序已启动。输入 exit 退出。) while True: try: user_input input(\n我: ) except KeyboardInterrupt: print(\n再见) break if user_input.lower() in [exit, quit]: print(再见) break history.append({role: user, content: user_input}) response, history model.chat(tokenizer, queryuser_input, historyhistory) print(f千问: {response}) if __name__ __main__: main()4.3 使用PyInstaller打包在包含chat_app.py的目录下打开终端运行打包命令pyinstaller --onefile --name “MyQwenChat” chat_app.py--onefile将所有依赖打包成一个单独的exe文件Windows或可执行文件Mac/Linux。--name指定生成的可执行文件的名字。这个过程可能会花几分钟。完成后在dist文件夹里你会找到MyQwenChat.exeWindows或MyQwenChatMac/Linux。4.4 如何使用打包好的程序将整个模型文件夹例如Qwen-1.8B-Chat-GPTQ-Int4从服务器下载到你的本地电脑。把打包好的可执行文件和模型文件夹放在同一个目录下或者记住模型的绝对路径。打开命令行导航到可执行文件所在目录运行# Windows .\MyQwenChat.exe D:\path\to\Qwen-1.8B-Chat-GPTQ-Int4 # Mac/Linux ./MyQwenChat /path/to/Qwen-1.8B-Chat-GPTQ-Int4现在你的朋友只需要有模型文件和这个“小盒子”就能直接和你一样和AI对话了完全不需要安装Python或任何库。5. 总结走完这个流程你会发现从零开始部署一个AI应用并没有想象中那么神秘和困难。核心思路就是“站在巨人的肩膀上”利用云平台提供的现成GPU和预置镜像我们跳过了最耗时的环境搭建和模型下载利用成熟的transformers库我们用不到50行代码就实现了核心的对话逻辑最后通过简单的打包工具我们还能把这个能力封装起来分享出去。整个过程最花时间的可能就是等待模型加载的那几分钟。希望这个教程能帮你打破对AI部署的畏惧感。这个1.8B的模型只是一个开始你可以用同样的方法去尝试更大的模型或者探索图像生成、语音识别等其他有趣的AI镜像。关键是动手去做在运行和修改代码的过程中你会对这一切有更真切的理解。获取更多AI镜像想探索更多AI镜像和应用场景访问 CSDN星图镜像广场提供丰富的预置镜像覆盖大模型推理、图像生成、视频生成、模型微调等多个领域支持一键部署。

相关新闻