第一百二十六章老不正经杰姆斯？ (1/2)

我爱西瓜书 / 著投票加入书签

51小说网 www.51xsw.com，学霸从谈恋爱开始无错无删减全文免费阅读！

    在苏飞盯着这个海报左看右看的时候，摊主也是看到了他。

    “嘿，bro！你也是搞注意力机制这块的么？”

    这位亚洲人长相的小哥如沐春风地笑着，对苏飞热情地打着招呼。

    “华国人？”

    苏飞试探性地问道。

    “大韩民国。”小哥操着一口流利的英语，拉着苏飞介绍着自己的成果：“bro，你的眼光真不错，这可是基于注意力机制的预训练模型，我这还是独一家！”

    苏飞被这位小哥热情似火的态度搞的猝不及防，道：“emmm……的确是很震撼的研究，变形金刚发表才半个月您就把预训练模型完善好了，您对注意力机制的理解应该很透彻。”

    “no，no，no，兄弟，我们大韩民国早就提出了变形金刚这个模型了，只不过是被华国的那位本科生捷足先登罢了。”

    wtf？

    我把别人的成果捷足先登了？

    而且你们早就提出了变形金刚的模型？那为什么不发表论文？

    “bro，我知道你不理解，但我们大韩民国高丽大学的金博士和汉城大学的闽博士很早就提出了应对注意力机制信息无序问题和信息狭隘问题，只不过没有人发现罢了，这说明大韩民国早就有了变形金刚的雏形，只差一个人整合两位博士的想法，我敢打包票，变形金刚的那位作者绝对看过金博士和闽博士的论文！”

    “变形金刚这个跨世纪的研究本应该是大韩民国的产物。”

    苏飞很想说，作为变形金刚原作者，我看过华美英三国的算法文献，还真就没看过大韩民国的文献。

    “额，但是，你说的两位博士我都没怎么听过，而且听你话的意思，两人只是各解决了一个难点罢了，不还是没写出变形金刚么？”

    小哥摇了摇头：“你没听过金博士和闽博士只能说明你学的还太少、接触得太浅显，这两位当年可是差点提出了glove……”

    “等等，glove不是曼宁教授的成果么？”

    glove这篇论文是曼宁对自然语言处理领域的一个巨大贡献，2014年的时候提出，八年过去了，现在还被业内奉为经典。

    “所以说是差点，bro，别这么激动，或许我的话让你有些不爽，但当你看了金博士和闽博士的论文后就明白了，变形金刚和glove的核心想法都来源于大韩民国。”

    苏飞：“……”

    我的变形金刚就算了，怎么连曼宁教授的瓷都碰……都是我们的思密达？

    “我没有不爽，能快点进入正题么？让我看看您的变形金刚预训练模型。”苏飞颇为无语地说道。

    “okok，别着急，先自我介绍一下，我是高丽大学的硕士生，师从金恩熙金教授，就是之前跟你说的那个金博士。”

    金恩熙？

    看到这小哥一脸骄傲的模样，苏飞表示完全没听过，但他还是耐着性子微笑着示意对方接着说。

    “然后，我提出的论文还有参考的资料在这。”小哥掏出一叠厚厚的纸，随后又掏出一根黑色记号笔，说道：“但我还是推荐在白板上给你画一个模型图，我的想法非常简单，你看一眼就会明白，但我相信你会大受震撼！”

    “额，这是您的论文，不是金教授的论文？”

    苏飞瞪大了眼睛，一个硕士生能在变形金刚论文入库仅半个月就推导出预训练模型？

    好吧，作为本科生就提出变形金刚的作者本人来说，的确有这么个可能，难道这个小哥也开挂了？

    “bro，这也是我瞒着我们金教授来参加这次学会的原因，金教授觉得我的成果有待商榷，他们就是做事太谨慎，不懂得抢得先机的重要性。”小哥说得眉飞色舞，颇有一种独自一人远征美国的豪迈之气：“而我，要在这里，在斯坦福，在acl向他们说明我们大韩民国的真正实力！”

    好吧，苏飞总算知道这个有着重大成果的海报却无人问津的原因了，敢情您这是瞒着导师来的？

    偷了他邀请函进来的么？

    “稍等一会儿，马上就好。”

    小哥拿着黑色记号笔在白板上写写画画，

    这位小哥的言行吸引到了不少人的目光，他那自信且流畅的书写动作，让苏飞也觉得是不是真是一个特立独行的天才。

    怀着一丝期待和一丝好奇，苏飞认真地看着这位小哥的模型结构和证明过程。

    简而言之就是疯狂做减法。

    变形金刚由六个编码器和六个解码器组成，每个编码器和解码器里又分为多头注意力层、归一化层和线性层等等，这位小哥直接把六个解码器全砍了，编码器也砍了五个，剩余的一编码器里把里边各层也砍了好几个……

    emmmm……虽然你说你的想法很简单，但这也简单得太过分了……

    苏飞终于忍不住了：“冒昧地问一句，你做过实验么？”

    “实验？噢，bro，为了赶这次acl，我加班加点，实在没时间，但我保证我的这个结构是有效的，因为经典的elmo预训练模型也是这种简单的单层结构！”

    我特么……苏飞差点吐血，我的elmo的确也是疯狂做减法，但elmo模型和注意力机制有个毛线关系？

    敢情这位就是把elmo模型抄一半，再把变形金刚抄一半，组合成自己的论文？

    特么的！抄的左一篇右一篇全是我的论文！

    “或许你不了解变形金刚的设计意义，之所以这样重复性地叠加编码器和解码器是为了获取更高层次的特征，这个是由作者本人多次实践得出的结论，大幅度削减这些结构会让训练结果非常不稳定，elmo的单层结构是因为作者在建模之初只有一个命名体识别任务，不需要提取更高级的特征向量……”

    换而言之，这俩模型一人一半的结果就和大量水遇上活泼金属直接剧烈爆炸一样。

    围着这位小哥的懂行的学者也不禁点了点头，苏飞说的也是把变形金刚预训练化的难点，当然，大部分不做这一块的学者或者一些纯粹跟着导师来参观的路人就不太理解了。

    “bro，你的说法太武断了，elmo没有这么脆弱，变形金刚也没有那么复杂。”小哥眉头一挑，说道：“在我看来，没有什么比elmo和变形金刚更合适的了，这一点连创造他们的作者本人都没有理解透彻，只能为他感到多么遗憾。”

... -->>

本章未完，点击下一页继续阅读

第一百二十六章 老不正经杰姆斯？ (1/2)

第一百二十六章老不正经杰姆斯？ (1/2)