播和反向传播的梯度数据。
高端GpU和消费级GpU都在支持模型训练方面发挥着不同程度的作用。
模型训练完成后,进入推理部署阶段,虽然对算力的要求相对较低,但响应速度、并发请求能力、功耗等因素对GpU提出了新的要求。
例如利用INt8量化后,Gpt-3模型能在仅16Gb显存的显卡上运行,极大降低了对硬件的依赖。
目前市面上,最先进的显卡就是星海科技的显卡。
当然了,星海科技在最初,使用的还是英伟达的显卡。
周末通过自己的指点,让研发人员提前好几年研发出了用更少的算力来实现大模型的训练。
这在后来,也是非常恐怖的发现。
因为要知道,那个时候,阿美莉卡都准备对全球输出算力了。
可是最终,在2025年初的时候,直接被东大的dS给打懵了。
dS-V3是dS于2024年12月26日发布的模型,其基座模型采用了混合专家机制,总共有6710亿参数。
该模型在2048块英伟达h800 GpU集群上完成训练,在阿美莉卡数学竞赛和全国高中数学联赛上大幅超过其他所有开源闭源模型,生成吐字速度从20tpS大幅提高至60tpS。
dS-R1是基于dS-V3 base基座模型,通过纯强化学习方法训练出来的推理模型。
deepSeek团队仅用29.4万美元和极短的训练时间就训练出了该模型,极大地降低了顶级AI模型的研发门槛。
dS最终证明了,训练大模型根本不需要这么多功能强大的显卡!
dS训练大模型使用的算力,只是meta的1\/11,甚至十分之一都不到。
但是dS的性能却赶上了世界先进水平。
不过其他公司并不知道这种情况。
这就给了星海科技收割其他科技公司的机会!
星海科技这次可不会手软的!