1930年的 AI 没见过电脑,居然能写 Python 代码
来源量子位 机器学习算法与自然语言处理 本文约3000字建议阅读5分钟本文介绍 AI Agent 四大记忆分类与流水线解析生产架构、选型方案及常见落地误区。活久见一个生活在1931年之前在训练数据里没见过任何一台计算机跨越了将近一个世纪的AI——居然写出了Python代码家人们这真这不是科幻小说……模型名叫talkie-1930-13b.操盘手是AI研究员Nick Levine、多伦多大学副教授David Duvenaud以及大家熟悉的那位——真·GPT系列之父Alec Radford。该模型训练数据有一条铁律那就是1931年1月1日之后的任何一个字都不准进它不知道电视机、互联网为何物它的世界永远停在了1930年12月31日的午夜。然鹅最最最最魔幻的事儿来了团队成员发现这个本不该知道罗斯福新政的AI却把新政立法说得头头是道连年份都报得出来的内种更离大谱的是当团队扔给它一道Python编程题时这个跨越了将近一百年的过去之灵竟然写出了它人生中的第一行Python一个连计算机都没听过的AI跨越百年写代码这事网友们可坐不住了。直接一个脑洞瞬间开闸下面这位小哥连「穿越提问清单」都已经想好了疯狂想尝试ing我到底睡醒了没AI真能跨越时空了一个生活在1931年之前的老式儿模型一个在1931年之前生活的模型上知天文下知地理还会编程那咱高低得研究研究。事实上talkie是一个130亿参数的模型它在2600亿tokens的1931年之前的英文文本上训练而成——训练样本包括但不限于书籍、报纸、期刊、科学杂志等等。从狄更斯到马克吐温从爱因斯坦那年代的物理论文到百年前的烹饪书和礼仪手册全都被打包喂了进去之所以选择1930年作为模型的知识截止点也是有说法的因为这是美国版权法中作品进入公有领域的边界那问题来了为啥Alec Radford想做这么个项目呢事实上Radford及其团队想知道——如果只让一个模型阅读1931年之前的所有英文文本它会如何思考、如何对话、如何预测未来。结果您猜怎么着团队还真发现了几个《大瓜》。好家伙.jpg模型被时代发展震惊到眩晕瘫坐第一个发现就是模型被时代发展「震撼到了」的曲线图——团队从《纽约时报》的On This Day栏目里翻出了近5000个历史事件一股脑儿全喂给了talkie然后盯着屏幕看——这老兄对每件事到底有多「没料到」。结果一条相当戏剧性的曲线就这么出来了1930年之前talkie读得行云流水惊讶值稳如老狗。 talkie嗯嗯这些事儿俺都门儿清哈刚跨过1930年talkie惊讶值开始悄悄爬升。 talkie诶这事儿咋还能这样1950–60年代晶体管、电视机普及的年代talkie惊讶值直接陡峭飙升一柱擎天。 talkie等会儿人类上天了还整出个会动的盒子能放戏再往后嘛——直接佛系平和了。talkie眩晕震撼瘫坐人已懵您随便吧……这波也是刘姥姥进大观园了——质疑、理解、接受。这模型还学会了Python当然眩晕震撼瘫坐曲线图还不是这次研究中最炸裂的发现因为团队成员的第二个发现是——一个没见过电脑的AI居然学会了写Python在研究中团队给talkie扔了一份OpenAI的HumanEval编程测试集。在prompt里塞几个Python函数当示范例子然后让talkie看完直接解新题也就是让模型靠上下文现学现卖在这个测试中团队还顺手把训练过现代互联网数据的同架构talkie-web也拉出来一起测并画张对比折线图——黑线Vintage LM灰线Modern LM结果就是一个雷霆暴击talkie真的解出来了人家直接把加密函数里的5改成-5然后交卷。是的只改了一个字符但答案完全正确……不仅如此团队发现一个清晰的趋势那就是——模型规模越大能解出来的编程题越多。换句话说虽然目前还远不及现代模型但复古模型的「凭空学代码」的能力也在Scaling Law的作用下稳步爬升。对此团队也表示他们希望复古模型能帮整个AI圈搞清楚一个根本问题——LLM到底能泛化到训练数据之外多远。1930年模型VS2026年模型老话说得好有对比才有看头新发现。为了搞清楚talkie到底有几斤几两团队还用完全相同的架构和算力又训练了一个喂现代互联网数据的双胞胎——talkie-web-13b。并将两个模型放进各种标准LLM评测里打PK结果可以说甚是微妙不出意外talkie-1930在实际表现上确实落后于现代孪生兄弟。但是当研究员把那些超出知识范围的题目剔除后比如互联网、DNA相关的两者的差距直接缩小一半。更炸裂的是在核心语言理解和数学计算任务上新老模型的表现几乎一样好。这个结论某种程度也说明了「理解语言」和「算数」这两项能力似乎并不依赖你读了多少现代互联网内容。剩下的差距团队认为主要来自两个原因一是OCR转录质量太差毕竟1930年的报纸都是从扫描件里硬抠出来的。二是语料题材分布不同例如老报纸里科技含量低烹饪礼仪含量高。emm…大模型最值钱的那部分智能可能跟「读没读过现代互联网」没太大关系talkie俺要是生在2026年我也能背GitHub啊喂用1930年的礼仪手册把AI调教成了聊天助手大家知都道要想让talkie这样的模型变成能对话的AI助手传统做法是用ChatGPT那种现代指令数据。但问题是这样做会把21世纪的对话风格、价值观等时代元素统统注入回1930年的模型。talkie好不容易当上民国先生您一指令调教俺直接张口就说「宝子们」了…而团队的解决办法可以说是《神来之笔》——他们直接去1930年之前的故纸堆里考古出了一套训练数据包括教人怎么得体应答的礼仪手册、教人怎么回信的书信指南等等然后再用Claude Sonnet 4.6当老师做强化学习训练最后生成训练数据。就靠着这些百年前的天然问答语料团队硬是把talkie调教成了一个能聊天的AI助手。然而现实很快啪啪打脸——团队发现早期那个7B版本的talkie经过强化学习之后居然学会了用现代互联网那种1. 2. 3.的列表体说话。要知道1930年的语料里压根没有列表体这种超级现代感的东西的…..而罪魁祸首——就是Sonnet 4.6。因为Claude老师是现代AI因为Claude老师喜欢列表体所以talkie为了拿高分就学着用列表体说话了…真·投其所好啊…)这恰好也反映出模型的训练一大问题那就是AI反馈的训练方式不可避免地会让模型沾上现代风格。为了解决这个大bug团队的下一个目标就是有朝一日让talkie自己来当自己的老师。dogeAlec Radford是谁talkie背后的团队成员之一——Alec Radford也值得我们好好聊聊。关于他我们甚至可以说今天AI圈的一大半「基建」都跟他有关。在OpenAI的近十年里他是和Ilya Sutskever齐名的技术大神初代GPT系列的奠基者——包揽了GPT-1和GPT-2论文一作也是GPT-3、GPT-4的核心贡献者此外他还是多模态模型CLIP的主导者之一像Whisper、DALL·E也都有他深度参与的身影。他在2018年那篇开山之作里首次提出的基于Transformer的生成式预训练方法直接奠定了后续ChatGPT和所有大模型的基础。在2024年底Alec告别老东家OpenAI转做独立研究 2025年3月他又以顾问身份加入了前OpenAI CTO Mira Murati创立的Thinking Machines Lab。当我们回过头再看talkie本身感觉整个事情也颇值得玩味——当全世界都在卷AGI、卷推理模型的时候GPT系列之父本人却跑去和搭档们造了一个只活在1930年的AI。按团队的路线图今年夏天GPT-3级别的复古模型就要发布再往后他们还想把语料扩展到一万亿tokens、扩展到非英语世界。只是不知道当它再次醒来的那一天看到机器人跑马拉松、人手一台的智能手机、和遍地跑的Agent时——会不会再次原地眩晕震撼瘫坐.jpg。(模型使用入口我放下面了感兴趣的友友可以和一百年前的AI对话试试)参考链接[1]报告链接https://talkie-lm.com/introducing-talkie[2]github链接https://huggingface.co/talkie-lm[3]模型对话入口https://talkie-lm.com/chat编辑于腾凯校对李享沣关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU