Datawhale干货
(资料图片仅供参考)
作者:平凡@知乎,诺桑比亚大学,在读博士
今天晚上,花了一点儿时间看了两篇文章:
《Emergent Abilities of Large Language Models》[1]
《PROGRESS MEASURES FOR GROKKING VIA MECHANISTIC INTERPRETABILITY》[2]
这两篇讲的都是emergent behavior,即涌现现象。
大规模神经网络下的涌现现象在机器学习中使用大规模神经网络时,由于增加了参数数量、训练数据或训练步骤等因素,出现了定性上的新能力和性质,这些能力和性质在小规模神经网络中往往是不存在的。
第一篇文章举了这个例子,每个图都可以理解为一个任务,横轴是神经网络的规模,而纵轴是准确率,可以理解为模型的性能。
我们拿图一来看,在10的22次方前,这些模型基本上的性能基本上都很稳定在0附近,而在10的22以后,突然在10的24次方上获得了很大的性能提升,在其他的几个任务上都表现出类似的特征。
意想不到的效果第二篇文章更是有趣,我直接把推特一位博主的评论引用在这里:
作者发现,当我们训练用网络计算同余加法 a+b = ? (mod c) 时,网络在某个时间突然获得了 100% 准确率。分析发现,神经网络实际上“顿悟”了使用傅立叶变换来计算同余加法!这个算法可以证明是正确的, 反人类直觉的。
从这俩例子里面我的感受是,只要数据量足够且真实,且模型没有硬错误的前提下,不断的训练说不定真的能够产生一些意想不到的效果。
还有就是我觉得人类现在积累的知识并不少,但是系统的少,零星的多,如果类似ChatGPT这样的大模型可以拿所有的人类已有知识进行不断学习的话,我觉得有很大概率会让它涌现出意想不到的能力。
甚至可能把人类的生产力解放提前很多。
参考
1.https://arxiv.org/pdf/2206.07682.pdf2.https://arxiv.org/pdf/2301.05217.pdf下一篇:最后一页
X 关闭
-
大语言模型中的涌现现象是不是伪科学?
Datawhale干货作者:平凡@知乎,诺桑比亚大学,在读博士今天晚上,花了一点儿时间看了两篇文章:《Emergent
-
影子系统有哪些(影子系统有什么用) 全球资讯
来为大家解答以上问题。影子系统有哪些,影子系统有什么用这个很多人还不清楚,现在一起跟着来瞧瞧吧!1、
-
世界即时看!本赛季五大联赛U21助攻榜:萨卡&奥利斯11次居首,穆西亚拉第三
在本轮英超水晶宫对阵诺丁汉森林的比赛中,奥利斯助攻队友破门得分。本赛季奥利斯已经取得11次英超助攻,在
-
消防沙的使用方法及注意事项_消防沙
1、为了你和他人的安全。2、请按照《建筑设计防火规范》检查你的仓库是否符合要求。3、并按照《建筑灭火器
-
崔永辉调研思明区城市更新工作 焦点速看
今天上午,市委书记崔永辉到思明区调研推进城市更新工作。他走进鹭江道同文顶片区,沿途察看城市更新改造项
- 1【全球快播报】中国工程院院士戴琼海:算法大模型成本日趋高昂 GPT系列研究投入累计超过30亿美元
- 2最资讯丨异动快报:*ST天成 6001129月5日13点27分触及跌停板
- 3湖南道县:设施农业促增收(组图) 环球今日报
- 4世界快资讯:网传四川大学足球赛场发生打架事件,有球员被踩脸&鲜血满面!
- 5福利来了!2023中国坐标·上海徐汇城市定向户外挑战赛6月10日开赛|焦点简讯
- 6当前要闻:谁抢跑618?是苹果啊,那没事了,iPhone 14 Pro绝赞降价中!
- 7世界播报:小鹏全新纯电MPV定名X9 主打“年轻态”市场
- 8焦点热讯:跟莲蓬很像是什么水果?
- 9张本智和2-4不敌梁靖崑无缘男单四强,三线作战皆败于国乒
- 10超值iQOO 11 5G手机限时抢购 世界热消息