第139章新的0ta_学霸的征途是星辰大海

千千文学网>学霸的征途是星辰大海 > 第139章新的0ta（第2页）

他打开了那个专门用来测试逻辑能力的clutrr数据集，隨机抽取了一道题输入模型。

context（上下文）：“爱丽丝的丈夫是鲍勃。鲍勃的女儿是克莱尔。克莱尔的哥哥是大卫。大卫的儿子是艾瑞克。”

question（问题）：“爱丽丝是艾瑞克的什么人？”

徐辰按下了回车。

如果是普通的gpt-3级別的模型，面对这种多跳推理，很容易因为“注意力分散”而答错，可能会回答“阿姨”或者“妈妈”。

屏幕上光標闪烁了0。1秒。

回答:grandmother（祖母）

逻辑路径:爱丽丝-＞（妻子）-＞鲍勃-＞（女儿）-＞克莱尔-＞（哥哥）-＞大卫-＞（儿子）-＞艾瑞克。

“漂亮！”

徐辰打了个响指。

不仅仅是答案正確，更重要的是那个逻辑路径。这说明模型不是在“猜”，而是在那个高维的几何空间里，真正地构建出了人物关係图谱，並通过向量运算，一步步推导出了结果！

……

但这只是单例测试，说明不了大问题。真正的考验，是全量数据集的泛化能力测试。

他首先进行了离线测试。也就是用clutrr数据集中，预先划分好的“验证集”来跑分。这部分数据模型在训练时是没见过的，可以初步检验模型的泛化能力。

他敲下了测试指令，看著进度条一点点向前推进。

趁著测试的空档，他打开了paperswithcode网站，搜索了clutrr数据集的最新排行榜。

排名第一的，是deepmind在半年前发布的neuro-symbolicgnn（v2），准確率达到了92。4%。这是一个专门为逻辑推理设计的、极其复杂的混合架构，號称融合了神经网络和符號ai的精髓。

紧隨其后的是openai的gpt-4o（fine-tuned），经过专门的微调后，在这个任务上也跑出了91。8%的高分。

再往下，是meta的llama-3-70b，得分88。5%。

“最高92。4%……”

徐辰看著这个数字，若有所思。

“看来这两年，工业界也没閒著，確实在逻辑推理上下了不少功夫。能把概率模型逼到这个份上，已经是工程学的奇蹟了。”

隨后，徐辰还搜到openai的灵魂人物伊利亚对於这类问题的感嘆：“缩放定律在逻辑任务上开始显示出边际效应递减。我们投入了10倍的数据和算力，却只换来了0。5%的提升。我们需要一个新的范式，但我们还不知道它是什么。”

看著这段文字，徐辰心中涌起一股奇异的感觉。

其实，站在金字塔顶端的那群人——无论是哈萨比斯、伊利亚，还是杨立昆——他们比谁都清楚，当前的llm已经撞上了一堵看不见的墙。

他们就像是把“炼丹术”发挥到极致的古代方士，虽然能炼出璀璨的琉璃，却始终无法触及化学的本质。他们知道单纯靠堆算力、堆数据，永远无法让概率模型產生真正的、严谨的逻辑闭环。

他们在黑暗中在此徘徊，焦灼地等待著。

……

就在这时，终端窗口发出“叮”的一声轻响。

测试完成。

徐辰深吸一口气，將目光移回终端。

屏幕的最下方，一行白色的字符静静地停在那里。

【测试准確率:95。3%】

徐辰愣了一下，隨即揉了揉眼睛，凑近屏幕確认了一遍。