whichllm教程:一键找出最适合你电脑的本地大模型

发布时间:2026/6/12 11:57:04

whichllm教程:一键找出最适合你电脑的本地大模型 whichllm教程一键找出最适合你电脑的本地大模型大家好 这里是「代码简单说」,欢迎大家关注同名公众号,不定时更新更多实用有趣的教程 也欢迎大家在评论区一起讨论交流!~SEO关键词本地大模型推荐工具、LLM模型选择工具、Qwen模型部署、本地AI模型运行、GPU显卡跑大模型、whichllm教程、AI模型推荐工具、HuggingFace模型推荐最近越来越多朋友开始折腾本地大模型。但一个非常现实的问题摆在面前我的电脑到底适合跑什么模型RTX4060能跑32B吗24G显存选Qwen3还是LlamaMacBook M3 Max适合哪个模型很多人会打开各种模型排行榜然后开始各种查资料、算显存、看量化版本。结果折腾半天还是不知道该选哪个。直到最近发现了一个非常有意思的开源项目whichllm它可以自动检测你的硬件配置然后直接告诉你当前机器最值得运行的大模型是谁。而且它不仅仅看显存是否能装下模型还会结合Benchmark成绩模型发布时间推理速度量化质量HuggingFace数据综合推荐真正适合你的模型。今天就带大家详细体验一下这个神器。目录什么是whichllm为什么需要whichllm核心功能介绍安装方法快速使用GPU模拟测试模型运行功能Python代码生成工作原理解析与传统选型方式对比实际体验什么是whichllm项目地址https://github.com/Andyyyy64/whichllmwhichllm是一款自动推荐本地LLM模型的CLI工具简单来说它会根据你的硬件配置自动分析CPU GPU 显存 内存 硬盘然后从 HuggingFace 海量模型中筛选出最适合 最能跑 效果最好的模型。官方介绍Find the best local LLM that actually runs on your hardware.翻译过来就是找到真正适合你硬件运行的本地大模型。为什么需要whichllm很多工具只会告诉你这个模型能跑但能跑 ≠ 值得跑。例如RTX4090Qwen3.6-27B Qwen3-32B Llama3-70B(Q2)可能都能运行。但实际体验模型速度效果Qwen3.6-27B快很强Qwen3-32B中强70B Q2慢不稳定如果只按显存推荐很多工具会推荐70B。但whichllm会综合考虑模型质量 推理速度 量化损失 硬件适配最终推荐真正体验最好的模型。核心功能自动检测硬件运行whichllm自动检测NVIDIA AMD Apple Silicon CPU RAM无需任何配置。GPU模拟非常适合买显卡前做规划。例如whichllm--gpuRTX 4090或者whichllm--gpuRTX 5090模拟结果#1 Qwen3.6-27B #2 Qwen3-32B #3 Qwen3-30B-A3B提前知道升级显卡后的效果。升级对比比较多个显卡。whichllm upgradeRTX 4090RTX 5090H100输出类似GPU推荐模型得分RTX4090Qwen3.6-27B92.8RTX5090Qwen3.6-27B94.7H100更高规格模型98适合硬件升级决策。GPU需求反查很多人会问Qwen72B需要什么显卡直接查询whichllm planQwen2.5-72B输出推荐显存 推荐量化 最低配置 最佳配置非常实用。安装教程方法一uvx运行推荐。无需安装。uvx whichllmlatest直接执行。方法二uv安装uv toolinstallwhichllm升级uv tool upgrade whichllm方法三pip安装pipinstallwhichllm方法四HomebrewMac用户brewinstallandyyyy64/whichllm/whichllm快速体验查看当前最佳模型whichllm输出类似#1 Qwen3.6-27B #2 Qwen3-32B #3 DeepSeek-R1查看更多结果whichllm--top20返回前20名。JSON格式适合自动化。whichllm--json输出{models:[{model_id:Qwen/Qwen3.6-27B}]}一键启动模型聊天这是我最喜欢的功能。运行指定模型whichllm runqwen 2.5 1.5b gguf工具会自动下载模型 安装依赖 启动推理 进入聊天真正做到开箱即用自动选择模型甚至不用指定模型。whichllm run自动选择当前机器最佳模型。CPU模式whichllm runphi 3 mini gguf--cpu-only低配置电脑也能体验。自动生成Python代码对于开发者来说特别友好。例如whichllm snippetqwen 7b自动生成fromllama_cppimportLlama llmLlama.from_pretrained(repo_idQwen/Qwen2.5-7B-Instruct-GGUF,filenameqwen2.5-7b-instruct-q4_k_m.gguf,n_ctx4096,n_gpu_layers-1,)outputllm.create_chat_completion(messages[{role:user,content:你好}])print(output)直接复制即可运行。whichllm工作原理很多人好奇它凭什么推荐模型其实核心流程如下硬件检测 ↓ 获取HuggingFace模型 ↓ 获取Benchmark数据 ↓ 计算显存需求 ↓ 估算推理速度 ↓ 评分排序 ↓ 输出最佳模型V1传统推荐方案的问题传统逻辑显存够不够公式模型大小 显存问题忽略模型质量 忽略推理速度 忽略量化损失推荐结果经常不合理。V2 whichllm改进方案引入综合评分Benchmark 模型规模 量化质量 运行速度 证据可信度 模型热度最终形成Score(0~100)排序推荐。评分机制解析官方评分因素因素权重Benchmark质量核心模型规模35分量化质量惩罚项证据可信度乘数运行适配度乘数推理速度±8来源可信度±5模型热度辅助这种方案比单纯看参数量科学得多。支持的数据源whichllm会综合多个排行榜。包括LiveBench Artificial Analysis Aider Open LLM Leaderboard Chatbot Arena Vision Benchmark因此结果相对客观。实际体验我分别测试了RTX4060 RTX4090 Mac M3 Max推荐结果基本符合当前社区主流认知。例如RTX4090Qwen3.6-27B确实是目前兼顾效果 速度 显存占用比较均衡的选择。相比很多只会推荐最大参数模型的工具来说靠谱很多。适合哪些人推荐以下用户使用本地AI玩家不知道选什么模型。显卡升级用户提前评估4090 5090 H100哪个更值得买。AI开发者快速获取最佳模型 推理代码 部署方案企业私有化部署评估硬件成本 模型效果 运行速度总结whichllm最大的价值在于它解决的不是“能不能跑”的问题而是“跑哪个最好”的问题。相比传统的显存计算器它额外结合HuggingFace模型库多个Benchmark排行榜推理速度估算模型可信度分析硬件适配能力最终给出更符合实际体验的推荐结果。如果你最近正在折腾Qwen DeepSeek Llama Gemma Mistral等本地大模型建议体验一下whichllm几秒钟就能知道自己机器最值得跑哪个模型。项目地址https://github.com/Andyyyy64/whichllm如果觉得有帮助别忘了给项目点个 Star。这样优秀的开源工具值得被更多本地AI爱好者发现。

相关新闻