这种“工业界倒逼学术界”的现象,在ai领域尤为明显。
很多最前沿的技术,根本来不及写进书里,甚至来不及发表正式的论文,就已经被openai、google、meta这些科技巨头,直接应用到了產品中,或者以技术博客、开原始码的形式,扔到了github和huggingface上。
“看来,光看书是不行了。”
徐辰果断调整了策略。
他打开了coursera、udemy,以及b站,找到了几门由史丹福大学、吴恩达、李飞飞等顶级大佬开设的最新网课。
《cs224n:自然语言处理与深度学习》
《cs231n:卷积神经网络与视觉识別》
《生成式ai导论》
他开启了倍速播放,一边看,一边在脑海中构建著知识图谱。
徐辰学得飞快。
这得益於他那恐怖的数学底子。
……
在ai领域,有一条不成文的鄙视链:搞算法的看不起搞调参的,搞理论的看不起搞应用的。
而站在鄙视链顶端的,永远是那些数学功底深厚的人。
普通的ai工程师,可能只会调用pytorch或tensorflow的api,像搭积木一样搭建模型,然后对著一堆超参数进行“玄学”调优。他们知道“怎么做”,但往往不知道“为什么”。
而数学家,看到的则是更本质的东西。
他们看到的是流形上的概率分布,是高维空间中的几何结构,是优化算法的收敛性证明。
“ai人员的数学好,通常是指他们擅长线性代数、概率论和微积分,能看懂公式,能推导梯度。”
“但数学家的数学好,是指他们能洞察这些公式背后的『结构与『本质。”
……
五天后。
当徐辰关掉最后一节关於“transformer架构源码解析”的网课视频时,他长长地舒了一口气。
海量的知识,从最底层的感知机,到最前沿的大语言模型,在他的脑海中,构建起了一座宏伟的知识大厦。
【叮!】
【检测到宿主系统性地掌握了“深度学习与自然语言处理”的核心知识体系。】
【信息学经验值+20!】
【当前信息学等级:lv。0(35100)】
看著那猛涨了一截的经验条,徐辰並没有太多的惊讶。
对於一个已经站在数学lv。2高度的人来说,ai的底层逻辑並不神秘。拋开工程实现的细节,现代深度学习的本质,就是在一个极高维的参数空间里,寻找一个能够擬合数据分布的流形。
“现在,地基已经打好了。”
徐辰的目光,投向了系统物品栏里那份名为《具备逻辑推理与长时记忆模块的改进型大语言模型算法框架(laart)》的“草稿”。
他將其提取出来,仔细研读。
这份“草稿”並没有直接给出成型的代码,它更像是一份来自未来的“技术白皮书”,指出了三个核心模块。徐辰决定,先攻克最核心的——符號逻辑推理模块(slrm)。
目前的ai界,为了解决大模型的“幻觉”问题,即一本正经地胡说八道,主流做法是rlhf,也就是基於人类反馈的强化学习。但这本质上是让人类去“教”鸚鵡说话,鸚鵡並不懂真理,它只是学会了迎合人类的口味。
徐辰翻开草稿的“逻辑推理”章节,眼神逐渐变得凝重。
草稿上写著这样一段话:
“不要试图在离散的符號层面去强行嫁接逻辑规则。应当將一阶谓词逻辑的语法树,通过某种拓扑变换,嵌入到连续的向量空间中。使得逻辑推演的过程,等价於向量空间中的几何变换。”
“建议路径:採用区域表示法。將每个概念视为高维空间的一个闭区域。逻辑蕴含即为几何包含。”