大型语言模型走向专业化:多领域新型模型助力专业人士,成本效率双提升!

发布时间:2026/5/21 20:25:20

大型语言模型走向专业化:多领域新型模型助力专业人士,成本效率双提升! 大型语言模型走向专业化多领域新型模型助力专业人士成本效率双提升大型语言模型不仅变得更智能还越来越专业化借助这些模型可获取医学、法律、金融等专业领域的深入知识。起初大家对大型语言模型LLM能“说话”感到十分惊讶。但如今人们关注的是其知识的深度而实现这一点的最佳方式就是专业化。顶尖团队不再追求打造“万能”的巨型模型而是针对特定领域构建专业模型比如为医生、律师、银行家等分别打造适用的模型。这一趋势不会停止不久后做肩部置换手术的骨科医生可能会拥有针对右利手患者和左利手患者的不同模型。专业化趋势既受质量因素驱动也受效率因素影响。专注型模型规模更小运行成本更低。实际上一些知名的大型模型本质上是由“专家混合”算法统一起来的小型模型集合。至少在有了可靠的训练语料库后训练专注型模型的成本也会更低。毕竟没有必要为了让法律领域的大语言模型了解17世纪法国诗歌的细节或水獭的交配习性而消耗大量资源。就像年轻人说的“直奔重点”。不过创建训练语料库可能是一项挑战。许多团队会聘请专业人员来构建知识本体并仔细核对答案依靠人力确保事实准确且有可靠的参考依据。大语言模型刚出现时用户会容忍一些错误信息但对于那些有严肃法律或医疗问题的用户来说这可就行不通了。目前很多注意力都集中在最具专业性且成本高昂的领域如医学、法律、金融和工程。从某种意义上说就业市场已经明确了对社会最有价值的工作构建专注型大语言模型的团队只需模仿医生、律师和银行家的工作即可。虽然这些专注型服务肯定会削弱专业人士要求高薪的能力但目前还不清楚会有多少人被取代。大语言模型擅长挖掘晦涩的事实其知识范围往往更广泛、更全面或许可以将它们视为专业人士的“力量倍增器”。以下按字母顺序介绍一些专注于特定领域的有趣新型大语言模型BioGPT微软通过在数百万篇PubMed摘要上训练GPT - 2架构的Transformer模型构建了BioGPT。其目标是打造一个能给出可靠且易懂答案的生成式工具。此后他们还推出了BioGPT - Large和BioGPT - Large - PubMedQA等扩展版本这些版本在问答方面表现更出色但参数数量增加了四到五倍。BioMistralMistral团队以Mistral 7B Instruct v0.1基础模型为基础结合PubMed Central Open Access的训练集创建了BioMistral。该基础模型注重指令执行在执行总结等标准任务时表现出色。它具备多语言能力英语、西班牙语、德语、葡萄牙语、俄语、法语、阿拉伯语、中文为全球用户提供了机会同时4位和8位量化版本支持资源受限的部署。Mistral还提供了DARE、TIES和SLERP等不同的实验版本这些版本通过不同算法融入新的医学信息。BloombergGPT订阅彭博终端的投资者和交易员可以使用BloombergGPT获取答案。这个拥有500亿参数的金融模型是在彭博公司40多年来精心整理的大量金融文档上训练出来的该工具只能通过直接订阅服务使用。ChatGPT HealthOpenAI开发的ChatGPT Health可帮助患者为就诊做准备、解读检查结果并回答使用Apple Health等健康应用时可能遇到的一些常见问题。其目标不仅是整合医学信息还提供一个易于与其他软件集成的工具或API。该服务为所有对话提供了隐私保护让用户拥有一个“专属的健康交流空间”。ClimateBERTClimateBERT在从新闻文章、研究论文和企业气候报告中提取的与气候相关的文本上进行预训练用户可以用它定位和分析文本中讨论、辩论或核实气候相关主张的段落。该模型不仅能定位这些讨论还能对情感进行分类。COiN摩根大通构建了合同智能模型COiN用于剖析与客户和合作伙伴关系相关的各种商业文件。他们专注于合同法中常见的语言结构使大语言模型能够分析各种文件中的漏洞。有估计显示这为法律部门节省了30%的时间并加快了谈判进程。注摩根大通还有一个名为COIN的加密代币与该模型并无直接关联。CyLens一个大学研究团队创建了CyLens以帮助信息安全专业人员应对网络安全威胁。他们将数十万份威胁报告整合到训练集中构建了这个由大语言模型驱动的“网络威胁情报系统”可针对威胁归因或活动分析等任务对模型进行微调。DeepSeek - R1 Legal一些用户使用各种法律文档对DeepSeek基础模型进行微调然后对结果进行量化。其目标是确保思维链推理模型足够小能够在律师事务所或客户办公室本地运行。Earth - 2NVIDIA构建了Earth - 2用于解决大规模气候问题如多变量天气预报或构建城市规模的大气条件模拟。该软件包包含多个不同的模型分别用于即时预测Earth - 2 Nowcasting或长期全球预测Earth - 2 Medium Range。此外NVIDIA还利用其传统的图形处理能力对Earth - 2进行了优化以支持可视化探索。EvenUp人身伤害律师经常需要给保险公司写信EvenUp可以提供帮助。基本模型仅使用大语言模型起草文本用户可以审核措辞和法律推理。该公司还提供一项服务将人工智能与人类专家相结合由专家审核结果。虽然这种方式的回答速度较慢但能确保经过人工审核。FinGPTAI4Finance Foundation团队创建了FinGPT为需要企业金融和证券市场相关问题答案的用户提供了一个开源的选择。该模型针对分析股票过去表现和预测近期走势进行了优化是AI4Finance Foundation构建的更大程序集的一部分该程序集还包括FinRobot和FinGPT - Search - Agent。GNoMEGNoME材料探索图网络的缩写旨在整理我们对分子和晶体结构的知识以便科学家和工程师更容易找到适合特定工作的材料。严格来说它不是大语言模型而是一个在数千个已知分子结构上训练的“图神经网络”。Harvey AIHarvey AI团队的目标是开发出满足律师和其他法律工作者需求的优质模型例如通过搜索文档加速尽职调查、组织论点或研究全球数十个国家的法律。这个专有项目完全专注于为律师事务所的一线律师或总法律顾问提供支持。JurisGPT许多团队将上下文感知的法律推理和大量过往法律文档结合起来构建了多个系统帮助律师起草合同、进行证据开示和研究过往案例。有些系统基于ChatGPT运行有些则为LawClaw等工具提供基础支持。MedGemma谷歌的这些开放权重模型旨在帮助解码医学图像和病历文本。通过进一步分析可以对X光或CT扫描等高维数据源的图像数据进行评估和解码。这些模型可以作为研究或更复杂人工智能管道的有用构建模块可从谷歌云以及Hugging Face等开放权重模型库获取。Meditron - 70B洛桑联邦理工学院团队以Llama - 2 - 70B为基础使用PubMed的论文和摘要以及一些标准临床指南构建的训练集进行微调创建了开放权重的医学大语言模型Meditron - 70B。其目标是打造一个能够回答医学教育中常见问题同时支持临床医生进行精准诊断的模型即一个可以就医学症状、病因和治疗方法进行对话的模型。Med - PaLM谷歌为Med - PaLM设计了专门的架构以提供临床医生可以信赖的准确答案。这个基于Transformer的模型在数据处理的各个阶段都进行了优化以强调准确性同时降低生成可能导致危害的风险答案的可能性。最终结果显示该模型在广泛的临床知识测试和对抗性评估中都取得了优异成绩。谷歌并未直接分发该模型而是将其作为谷歌医疗大语言模型家族的一部分向医疗服务提供商进行推广。OpenDAC致力于二氧化碳直接空气捕获项目以缓解气候变化的科学家们创建了OpenDAC用于寻找能够吸收二氧化碳的最佳化学物质。这是一个非常具体但重要的挑战目标是找到经济高效的新型吸附剂。Phi - 4 - reasoning - plus微软开发了Phi - 4 - reasoning - plus用于探索大语言模型在优化数学推理时的表现即能否在多个步骤中保持连贯性和逻辑思维。该模型针对各种数学竞赛问题和算法问题进行了训练和测试。Sec - PaLM 2谷歌在PaLM 2模型的基础上使用包含大量网络安全威胁和恶意代码示例的文档进行训练。这使得该模型能够以自然语言与对日志文件异常或电子邮件附件有疑问的用户进行交流。谷歌正在将该模型与其他谷歌产品如Vertex AI Workbench和Gemini Security Command Center进行集成。WiseYield这个由人工智能驱动的预测引擎可以帮助农民决定何时播种和收获它依靠天气预报和历史数据做出决策。

相关新闻