第135章逻辑与生成的结合_学霸的征途是星辰大海

千千文学网>学霸的征途是星辰大海 > 第135章逻辑与生成的结合（第2页）

“gumbel-box的平滑性，是为了在训练阶段让梯度能够流淌，让模型能『学会逻辑。但在推理阶段，也就是真正上考场的时候，这个平滑的边界必须瞬间『硬化。”

他在草稿纸上画了一个陡峭的sigmoid函数。

“我设定一个逻辑置信度閾值t（第十九个希腊字母，念做“套”）。当两个概念在几何空间里的重叠体积低於这个閾值时，说明它们在逻辑上几乎不相容，比如『猫和『植物。”

“这时候，门控单元会像一把闸刀一样落下，直接將这个路径的概率强行截断为0！”

“传统的llm是『我觉得应该这么说，而加了门控的laart是『虽然我想这么说，但几何逻辑告诉我，这么说是错的，所以我闭嘴。”

“这才是完美的逻辑与生成的结合。”

解决了这个关键的机制问题，徐辰终於满意地点了点头。

……

搞定了数学模型的优化，摆在徐辰面前的，是另一个棘手的工程问题。

benchmark（业內普遍直接用英语称呼，意思是基准测试）怎么选？

做ai研究，光有模型没用，你得拉出来溜溜。你得在公开的测试中，把以前的模型，比如transformer、bert、gpt等给考倒了，別人才承认你牛逼。

当年的transformer为了证明它比以前的rnn和lstm强，google团队选择了“英德机器翻译数据集”。

这是一个非常经典的任务。评价標准是bleu分数，也就是看机器翻译出来的句子，和人类翻译的句子，在词汇重叠度上有多高。

transformer在那场考试中，以28。4的bleu分数，刷新了世界纪录，从此一战成名。

“但是。我的模型优势不在於『翻译，也不在於『文本生成的流畅度。”

现在的gpt模型，靠著海量的语料堆砌，已经是天生的语言大师了。让laart去跟它们比谁写诗写得好，谁翻译得溜，那是拿自己的短处去碰別人的长处。

laart的核心优势是什么？

是逻辑。

是永远不会说“猫是植物”，永远不会在做三段论推理时出现“a＞b，b＞c，所以a＜c”这种弱智错误的严谨性。

“用翻译数据集测逻辑，就像是考爱因斯坦背单词，根本测不出智商。”

“我需要一套专门考『逻辑推理的卷子。”

他在arxiv和github上飞速检索。

很快，几个备选方案浮现在眼前。

1。snli（stanfordnaturallanguageinference）：斯坦福自然语言推理数据集。给两句话，判断它们是“蕴含”、“矛盾”还是“中立”。这是最经典的nli任务。

2。squad（stanfordquestionansweringdataset）：阅读理解问答。这个稍好一点，但也侧重於信息提取。

3。clutrr（compositionallanguageunderstandingandtext-basedrelationalreasoning）：基於文本的关係推理。

徐辰的目光最终锁定了最后一个数据集clutrr。

……