当晚,徐辰收到张乐阳发来的消息,语音里透著掩饰不住的兴奋,甚至连称呼都变了:
“徐神!搞定了!彻底收敛了!精度比我们预期的还要高两个百分点!老板刚才看了结果,高兴得差点没把桌子拍碎,直夸我们这次效率高!我跟老板提了一嘴是您帮忙改的算法,老板说改天一定要请您吃饭!”
紧接著,是一张截图。
图片上是校级计算中心的任务队列管理界面。
“我跟中心那边打好招呼了,我们课题组的帐號权限已经给你开通了。这是ssh密钥和ip位址。你直接远程登录就行,不用再跑一趟了。现在四张a100全空著,优先级调到了最高,你隨便造!”
“谢了,学长。”
徐辰回了个抱拳的表情。
这个忙也不算白帮,几个小时前,他还得排队填表看人脸色;现在,他手里握著物理学院国家重点项目的算力通道,享受著vip级別的待遇。
……
徐辰打开终端,输入指令,连接伺服器。
“来吧,laart,让我看看你的成色。”
他敲下了那行早已准备好的指令。
运行!
……
这个阶段是ai的训练阶段,在这个阶段,模型需要通过海量的文本数据,学习语言的语法、词汇之间的关联,以及基础的世界知识。
风扇的轰鸣声仿佛透过网络传了过来。
屏幕上,一行行日誌开始飞速滚动。
epoch1100|loss:2。4582|accuracy:12。4%
epoch2100|loss:1。8923|accuracy:28。7%。。。
起初,loss曲线的下降並不算快,这在徐辰的预料之中。因为laart模型引入了复杂的几何约束,模型在初期需要花费大量时间去“寻找”那些逻辑盒子在向量空间中的正確位置。
这就像是在玩拼图,刚开始总是最慢的。
徐辰没有盯著屏幕发呆,他起身给自己泡了杯咖啡,顺便看了会美剧。
两个小时后。
当他再次回到屏幕前时,终端里的数据已经发生了翻天覆地的变化。
epoch50100|loss:0。1245|accuracy:94。2%
“收敛速度比预想的要快。”
徐辰眉毛一挑。
普通的transformer模型在处理逻辑推理任务时,往往需要海量的数据“餵”进去,靠概率去“蒙”出逻辑关係,所以收敛极慢,且很容易过擬合。
但laart不一样。
它的“逻辑门控单元”就像是一个严厉的老师,一旦模型试图“瞎矇”,就会被几何约束狠狠地惩罚。这迫使模型必须去学习真正的因果链条,而不是统计规律。
“差不多了。”
徐辰终止了训练,保存了模型权重。
……
接下来,是见证奇蹟的时刻——推理测试。也就是看一下刚刚训练好的ai在实际推理上的成绩怎么样。