
用户登录
用户登录
2025年1月20日,大语言模型DeepSeek-R1横空出世。相对其他大语言模型,它以很低的训练成本达成极高的性能而为世人瞩目。
(图源《知识就是力量》杂志)
让机器“说话”
自然语言处理(Natural Language Processing,简称NLP)是通过计算机实现语言分析,研究人机交互并进行有效通信的理论与技术。它旨在使计算机能够理解、处理和生成人类的语言,实现人机之间的有效交流。
“猜谜大师”养成记
简单来说,你可以把训练DeepSeek等大模型的过程看成一个“猜谜大师”的养成过程。在训练时,它会被“投喂”海量文本,但它不记忆具体知识,而是学习词语之间的关联规律,比如“狗喜欢吃……”后面大概率出现的词汇是“骨头”或“肉”,而不是“草”。随着训练量增大,它可以不断提高自己产生结果的概率和合理性,例如“地道”后面是“战”还是“美食”,它会根据上下文语境做出判断。
在对话阶段,Transformer模型主要采取边听边猜并不断优化的模式进行。例如,当你输入“为什么天空看起来是蓝色的”时,Transformer模型会利用自注意力机制拆解关键词,找到“天空”“蓝色”等关键词,然后根据在训练阶段掌握的规律找到“光的散射”和“大气层”等知识片段,再逐词生成完整的回答。在生成答案的过程中,它还可以根据反馈不断调整和优化结果。
更优秀的大语言模型之路
许多预训练语言模型都是通过增大训练参数规模来提高模型训练的效果的,但这样会对数据和算力有很高的要求,使得训练和部署模型的成本巨大。
DeepSeek的突出创新点之一在于,它主要是通过优化算法来达成较好的模型训练效果的,因此需求的训练数据相对较少、训练算力相对较低。在这一过程中,它使用的混合专家模型(Mixture of Experts,MoE)起到了突出作用。
为了更好地理解混合专家模型的工作机制,我们可以举个例子:一间准备装修的毛坯房,想要将它装好,需要20个泥瓦工、20个木工和10个油漆工,其他大模型会在整个施工期间都“养”着这50名工人,而DeepSeek则会根据施工需要,在特定的时段“雇佣”特定的工人,所以DeepSeek的训练成本更低。
此外,DeepSeek对图形处理器(GPU)和芯片进行了深度优化,进一步降低了模型训练和部署的成本。
同时,DeepSeek是开源的,它公布了自己的模型参数和训练工具链,吸引广大二次开发者对其应用和优化,迅速形成了自己的开发生态,从而进一步满足模型在医学、法律等特定领域的需求。
(图源《知识就是力量》杂志)
撰文| 杨屹 律原
责任编辑 | 牛一名 岳焕琦
运营编辑 | 岳焕琦
质量审核 | 业蕾