揭秘Sherry量化算法:Hy-MT1.5-1.8B-1.25bit如何实现1.25位极致压缩

发布时间:2026/5/30 15:48:22

揭秘Sherry量化算法:Hy-MT1.5-1.8B-1.25bit如何实现1.25位极致压缩 揭秘Sherry量化算法Hy-MT1.5-1.8B-1.25bit如何实现1.25位极致压缩【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/hf_mirrors/AngelSlim/Hy-MT1.5-1.8B-1.25bitHy-MT1.5-1.8B-1.25bit是基于腾讯AngelSlim项目开发的革命性翻译模型它通过创新的Sherry量化算法将1.8B参数模型压缩至仅440MB同时保持接近原模型的翻译质量。这款支持33种语言的轻量级模型彻底改变了移动设备上的离线翻译体验让普通手机也能流畅运行高性能AI翻译。 什么是1.25位量化为何如此重要传统AI模型通常使用16位或32位浮点数存储参数这使得模型体积庞大且运行缓慢。Hy-MT1.5-1.8B-1.25bit采用的1.25位量化技术是一种突破性的模型压缩方法它将原始3.3GB的FP16模型压缩至仅440MB体积减少87%却几乎不损失翻译质量。这种极致压缩带来三大核心优势设备兼容性普通手机也能轻松安装和运行速度提升相比FP16模型快8倍实现实时翻译隐私保护完全离线运行数据无需上传云端 Sherry量化算法1.25位背后的创新原理Sherry算法已被ACL 2026接收是实现这一突破的核心技术。它采用3:4细粒度稀疏策略每4个模型权重中保留3个最重要的权重并以1位{-1, 1}存储将剩余1个权重置零。这种方法将4个权重打包成仅5位实现了1.25位的有效位宽同时保持了2的幂次对齐确保硬件高效处理。Sherry算法的工作流程重要性评估智能识别并保留对翻译质量至关重要的权重量化编码将重要权重压缩为1位表示稀疏化处理战略性置零次要权重减少存储需求硬件优化定制STQ内核实现完美SIMD指令集对齐 性能表现小体积大能量Hy-MT1.5-1.8B-1.25bit在保持超小体积的同时翻译质量令人印象深刻。在Flores-200中译外互译基准测试中这款仅1.8B参数的模型全面超越了许多更大规模的开源模型如Tower-Plus-72B、Qwen3-32B和主流商业翻译API如Microsoft Translator、Doubao Translator。在Snapdragon 888设备上的测试显示1.25位模型比FP16版本快8倍实现了真正的实时翻译体验。即使是内存有限的普通手机也能流畅运行高质量的离线翻译。 如何体验Hy-MT1.5-1.8B-1.25bit安卓用户直接使用现成Demo项目提供了即装即用的Android演示应用支持后台取词模式可在手机任何应用中使用浏览邮件、网页或聊天消息时即时翻译无需切换应用。完全无需网络数据不上传一次下载永久使用。开发者本地部署步骤克隆llama.cpp仓库git clone https://github.com/ggml-org/llama.cpp.git切换到PR分支cd llama.cpp git fetch origin pull/22836/head:pr-22836-stq_0 git checkout pr-22836-stq_0构建llama.cpppip install -r requirements.txt cmake -B build cmake --build build --config Release下载模型pip install huggingface_hub huggingface-cli download AngelSlim/Hy-MT1.5-1.8B-1.25bit --local-dir model_zoo/Hy-MT1.5-1.8B-1.25bit转换并量化模型python convert_hf_to_gguf.py model_zoo/Hy-MT1.5-1.8B-1.25bit --outfile model_zoo/Hy-MT1.5-1.8B-bf16.gguf --outtype bf16 ./build/bin/llama-quantize model_zoo/Hy-MT1.5-1.8B-bf16.gguf model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf STQ1_0运行翻译示例./build/bin/llama-completion --model model_zoo/Hy-MT1.5-1.8B-STQ1_0.gguf -p Translate the following segment into Chinese, without additional explanation. Hello --jinja -ngl 0 -n 64 -st 技术文档与资源Sherry论文ACL 2026详细阐述1.25位量化技术原理HY-MT1.5技术报告深入了解基础模型的训练与性能AngelSlim文档探索更多模型压缩工具与技术 许可证信息项目代码基于AngelSlim许可证开源详细条款请参阅项目根目录下的License.txt文件。通过创新的Sherry量化算法Hy-MT1.5-1.8B-1.25bit为移动设备上的AI翻译树立了新标杆。这个仅440MB的模型证明极致压缩与高性能可以并存为AI在边缘设备上的应用开辟了新天地。无论是普通用户还是开发者都能从中体验到新一代量化技术带来的变革性影响。【免费下载链接】Hy-MT1.5-1.8B-1.25bit项目地址: https://ai.gitcode.com/hf_mirrors/AngelSlim/Hy-MT1.5-1.8B-1.25bit创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

相关新闻