“关键模型参考:箱嵌入……”
然而,写到这里,草稿就像是被撕掉了一半似的,戛然而止。
后面关於如何构建这个“box”,如何处理梯度的反向传播,以及最关键的损失函数设计,全是一片空白。
“系统,你这是断章狗行为啊……”
徐辰忍不住吐槽了一句。
不过,这也激起了他的好胜心。既然方向已经指明了,剩下的路,自己走不出来吗?
他在草稿纸上画了一个简单的示意图,顺著草稿的思路继续推演。
“把逻辑关係,映射成几何关係……boxembeddings……”
徐辰的笔尖在纸上重重一点。
“明白了!系统的意思是,我们要把每一个概念,比如『猫、『动物、『生物,都不看作是一个点,而是看作高维空间里的一个长方形盒子(box)。”
他在纸上画了几个大小不一的矩形框。
“逻辑的本质是什么?是包含与被包含。”
“如果『猫蕴含『动物这个概念,那么在几何空间里,代表『猫的那个小盒子,就必须完完全全地被塞进代表『动物的大盒子里!”
“如果ai生成了一句话,说『猫不是动物,那么在它的向量空间里,这两个盒子就会出现分离。这时候,我们只需要计算这两个盒子的交集体积。”
“体积为零,或者重叠率极低,就说明——逻辑矛盾!”
徐辰的眼睛越来越亮。
这简直就是天才的设计!
通过这种方式,他相当於在传统的概率预测模型里,植入了一个冷酷无情的“逻辑判官”。
每当ai想要“胡说八道”时,这个逻辑判官就会瞬间计算出几何关係:
“停!根据几何计算,『a盒子和『b盒子没有交集,这句话逻辑不通,禁止输出!”
这將从根本上解决大模型的幻觉问题!
基於这个理解,徐辰迅速补全了草稿中缺失的核心公式:
box(c,w)={x|c-w2≤x≤c+w2}p(a|b)=vol(box(a)nbox(b))vol(box(b))
“这个模型很简单,也很有效。它把复杂的逻辑运算转化为了极其廉价的『minmax运算,非常適合gpu並行加速。”
“但也存在一个明显的缺陷。”
徐辰看著自己补全的公式,敏锐地指出了问题所在,体现出了他作为数学家的严谨。
“数值稳定性是个大问题。当你不断对盒子求交集做逻辑与运算,盒子的体积会指数级缩小。在计算机的浮点数表示下,很快就会变成0,导致梯度消失,模型无法继续学习。”
“这就像是把一张大饼不断对摺,折到最后就没法看了。”
“而且,『超矩形虽然计算简单,但它比较刚性,难以表达某些复杂的环状逻辑。”
草稿里虽然没提这些,但徐辰凭藉lv。2的数学直觉,一眼就看穿了这个初级模型的局限。
“真正的终极形態,应该是一个基於『李群流形的动態拓扑结构,甚至是某种非交换几何。”
徐辰摸了摸下巴,若有所思。
“不过,对於目前的初级版本来说,只要能跑通就行。先造一把趁手的『土枪,能响就行。至於那些高大上的流形结构,等以后算力够了、时间充裕了再慢慢升级。”
打定主意后,徐辰不再犹豫。
他需要在前往德国之前,把这套逻辑验证代码跑通。
“好,开工!”