“gumbel-box的平滑性,是为了在训练阶段让梯度能够流淌,让模型能『学会逻辑。但在推理阶段,也就是真正上考场的时候,这个平滑的边界必须瞬间『硬化。”
他在草稿纸上画了一个陡峭的sigmoid函数。
“我设定一个逻辑置信度閾值t(第十九个希腊字母,念做“套”)。当两个概念在几何空间里的重叠体积低於这个閾值时,说明它们在逻辑上几乎不相容,比如『猫和『植物。”
“这时候,门控单元会像一把闸刀一样落下,直接將这个路径的概率强行截断为0!”
“传统的llm是『我觉得应该这么说,而加了门控的laart是『虽然我想这么说,但几何逻辑告诉我,这么说是错的,所以我闭嘴。”
“这才是完美的逻辑与生成的结合。”
解决了这个关键的机制问题,徐辰终於满意地点了点头。
……
搞定了数学模型的优化,摆在徐辰面前的,是另一个棘手的工程问题。
benchmark(业內普遍直接用英语称呼,意思是基准测试)怎么选?
做ai研究,光有模型没用,你得拉出来溜溜。你得在公开的测试中,把以前的模型,比如transformer、bert、gpt等给考倒了,別人才承认你牛逼。
当年的transformer为了证明它比以前的rnn和lstm强,google团队选择了“英德机器翻译数据集”。
这是一个非常经典的任务。评价標准是bleu分数,也就是看机器翻译出来的句子,和人类翻译的句子,在词汇重叠度上有多高。
transformer在那场考试中,以28。4的bleu分数,刷新了世界纪录,从此一战成名。
“但是。我的模型优势不在於『翻译,也不在於『文本生成的流畅度。”
现在的gpt模型,靠著海量的语料堆砌,已经是天生的语言大师了。让laart去跟它们比谁写诗写得好,谁翻译得溜,那是拿自己的短处去碰別人的长处。
laart的核心优势是什么?
是逻辑。
是永远不会说“猫是植物”,永远不会在做三段论推理时出现“a>b,b>c,所以a<c”这种弱智错误的严谨性。
“用翻译数据集测逻辑,就像是考爱因斯坦背单词,根本测不出智商。”
“我需要一套专门考『逻辑推理的卷子。”
他在arxiv和github上飞速检索。
很快,几个备选方案浮现在眼前。
1。snli(stanfordnaturallanguageinference):斯坦福自然语言推理数据集。给两句话,判断它们是“蕴含”、“矛盾”还是“中立”。这是最经典的nli任务。
2。squad(stanfordquestionansweringdataset):阅读理解问答。这个稍好一点,但也侧重於信息提取。
3。clutrr(compositionallanguageunderstandingandtext-basedrelationalreasoning):基於文本的关係推理。
徐辰的目光最终锁定了最后一个数据集clutrr。
……