如果你是一个博士生,写一篇论文大概需要多久?

乐观一点,三个月。悲观一点,三年也不是不可能。中间还得经历选题被毙、实验跑崩、数据对不上、审稿人第三轮还在要求major revision(就是大改!)等人间疾苦。

最近有个AI,用了417小时干完了166篇。

这个AI叫FARS,全称Fully Automated Research System,全自动科研系统,来自一家你可能没听过的中国初创公司,Analemma。它的工作流程跟博士生一模一样:翻文献、找选题、提假设、设计实验、写代码跑数据、分析结果、画图、成稿。全程没有导师催,没有deadline焦虑,不喝咖啡,不上厕所,24小时连轴转。

更离谱的是,整个过程是直播的。任何人都可以打开网页,实时围观这个AI怎么肝论文。就像看一个博士生在直播间里赶稿,只不过这个博士不需要睡觉。

让它跑的人的原话很简单:先写100篇。

结果这台“论文机器”一口气跑了417小时,累计17天,产出了166篇论文。平均每2小时17分钟交一篇。整个过程消耗了216亿个token,烧掉大约18.6万美元,折合人民币超过130万,算下来每篇论文的成本大约1100美元。

结算画面

博士生看了沉默,导师看了流泪。

但先别急着感叹。我们得搞清楚两件事:这个系统是怎么工作的?它写出来的东西,到底能不能看?

01. 造一台论文机器

做FARS的人叫孙天祥,复旦大学自然语言处理方向的博士,2024年毕业。

孙天祥个人主页

这个名字你可能没听过,但他做过的东西你没准有印象:MOSS

2023年初,ChatGPT刚在全球引爆AI热潮的时候,复旦大学发布了MOSS,这是国内最早一批对标ChatGPT的大语言模型之一。当时社交媒体上铺天盖地的讨论,各路媒体争相报道,MOSS项目的核心主导者,就是当时还是博士生的孙天祥。

当时的新闻稿,时间是亮点

2024年博士毕业后,他辗转进入上海创智学院担任助理教授,同时创立了Analemma。公司的slogan是:“In a world of infinite questions, it is time to build an infinite mind”,翻译过来就是:在一个问题无穷的世界,是时候构建一个无穷的心智。

这话听着玄乎,但他做的事倒是挺实在的:先造一个能自己做科研的AI系统,即本文的主角FARS。

FARS的工作方式,用人话说就是,四个AI研究员流水线协作:

-选题agent(Ideation):负责翻文献、找研究方向、提出假设

-规划agent(Planning):把假设变成具体的实验方案

-实验agent(Experiment):写代码、调用GPU集群跑实验、收集数据

-写作agent(Writing):把实验结果整理成一篇完整的论文

FARS的架构图

四个agent在一个共享文件系统里协作,彼此之间不直接对话,而是通过读写文件来交接工作,背后撑着这套系统的,是160块英伟达GPU组成的算力集群,配上所有agent想要调用的一线大模型。

打开FARS的直播页面,你能看到的东西相当丰富。顶上是当前课题的标题,下面一条进度条标着“选题→规划→实验→写作”走到了哪一步。左边是项目队列,十几个编号排着队,跑完一个换下一个。中间是当前项目的实验清单,哪步做完了、哪步还在跑,标得清清楚楚。右边是GPU集群的实时状态。如截图里显示的是76块GPU同时在干活,利用率75%。最底下一排数字实时跳动:已经产出了多少个假设、多少篇论文、跑了多久、烧了多少钱,整个界面就像一个科研工厂的监控大屏,全程直播放送。

直播页面长这样

FARS目前聚焦的研究领域是AI本身,也被称为“AI4AI”,用AI来研究AI。选这个领域有务实的考量:AI领域的实验可以完全在计算机上完成,不需要物理实验室,天然适合自动化。当然,局限也很明显:FARS暂时没法跑极度烧算力的实验(比如大规模预训练),也没法完成需要人类直接参与的实验(比如人工标注或专家评估)。

FARS还有一个设计上的执念:全程透明。所有166篇论文的代码,都通过FARS自己的GitLab账号公开提交。选择直播,也是因为创始人认为,规模化是检验AI科研系统的唯一方式。给它几篇论文看看,说明不了什么问题。只有大规模运行并且完全公开,才能让学术界真正去审视这个系统的能力和局限。

说到GitLab,其实还有个小插曲。FARS最早是在GitHub上提交代码的,但因为提交频率实在太高,触发了GitHub的频率限制,账号被卡了,只好搬到GitLab。打开FARS的GitLab主页,活动热力图很有意思:一整年几乎全是灰色,就最近两周多突然黑了一片。

FARS在Gitlab页面

02. 它写出来的东西,能看吗

说了这么多,FARS写出来的论文到底长什么样?我们来看一个具体的例子。

在FARS产出的166篇论文里,有一篇叫《Local-Time AdamW for Stability-Gap Reduction in Continual Learning》(用于减少持续学习中稳定性间隙的局部时间AdamW)。翻译成人话就是:AI在学习新任务的时候,经常会突然“忘掉”之前学过的东西,表现断崖式下跌,虽然过一会儿会恢复,但这个闪崩本身就很危险。FARS发现,AdamW优化器里一个叫“偏差校正”的机制,在任务切换时会帮倒忙,于是提出了一个改进方法:在任务切换时只重置校正步数,保留记忆缓冲区。

这个改动只需要改一行代码。

然后FARS设计了实验:在两个标准数据集上跑了对照实验,用了5个随机种子取平均,还专门设计了一个“如果关掉偏差校正,效果还在不在”的验证实验来排除干扰因素。最终结论是,这个方法在一个数据集上把稳定性间隙降低了31%,在另一个上降了17%。

整篇论文7页,结构完整,有摘要、引言、相关工作、方法、实验、结论,引用了15篇参考文献,代码开源在GitLab上。

这不是一篇随便糊弄的AI八股文。它有自己的假设、有实验设计、有对照组、有统计检验、有代码,论文的开头还明确标注了一行警告:“WARNING: This paper was generated by an automated research system.”(警告:本论文由自动化研究系统生成。)

论文写完之后还过了一道“审稿”。FARS使用的是斯坦福大学开发的AI审稿系统(Stanford Agentic Reviewer)。这个AI审稿员给出了详细的评审意见:肯定了研究的动机清晰、方法简洁、实验设计有对照组验证了因果机制;同时也指出了不足:实验规模偏小、缺少与更简单替代方案(比如直接调低学习率)的对比、对超参数敏感性的讨论不够。最终打分:5.2/10,评价大致相当于“weak accept”,有价值但还差点意思。

这个分数高不高?说实话,不算高。但问题是,一个AI系统用平均2个多小时自动完成的论文,拿到了一个5分出头的审稿意见,很多初次投稿的硕士生,花几个月写的论文,可能也就这水平。

FARS还有另一面,它也会失败。

在FARS的论文库里,有一篇研究对象是机器人控制AI的思考过程。现在有一类叫VLA(视觉-语言-动作模型)的系统,它看到摄像头画面、听到语言指令后,再给出动作指令。有意思的是,新一代VLA不是一口气给出答案,而是在内部反复琢磨,像在草稿纸上不断修改一样,反复调整自己的中间状态,琢磨够了才输出最终动作。

问题来了:怎么判断AI“琢磨够了”?已有的方法是看输出端:如果AI连续两步给出的动作几乎一样,就认为它想好了,可以停了。但FARS提出了一个更直觉的想法:与其盯着输出看,不如直接看AI内部“草稿纸”的变化。如果草稿纸上的内容趋于稳定,说明思考真的收敛了,这应该是一个更可靠的判断依据。

FARS为这个假设设计了完整的对照实验方案,设置了严格的公平比较条件,还预设了一系列前提检验来确保实验的有效性。但它同时也在论文里写明了:这个假设可能是错的,如果AI内部的“草稿纸”变化并不遵循收敛规律,那这个方法就不会奏效。即便失败了,这个否定结果本身也有价值,它说明收敛指标的选择并不是关键杠杆,研究者应该把精力放在其他方面。

研究失败,认了

这种态度反而让人觉得,这个系统比想象中更诚实。它不只展示成功的案例,也把不确定的、可能走不通的研究方向摊出来。在真正的科研里,大量假设最终都会被推翻,只不过人类科学家很少发表走不通的思路。FARS不挑结果,做完就如实报告。

03. 博士生该紧张吗

FARS不是唯一在做这件事儿的。

2024年,日本AI公司Sakana AI发布了“AI Scientist”系统,号称能自主完成从选题到成稿的全流程。同年年底,英国初创公司Intology推出了Zochi,也是类似的全自动科研系统。2025年,Sakana AI的升级版AI Scientist v2更进一步,它产出的论文,已经有被ICLR 2025 Workshop接收的案例。

这意味着,AI写的论文,确实已经通过了学术界的同行评审,虽然目前仅限于workshop级别。

顺带一提,在这一轮AI浪潮里,日本整体声量不大,但Sakana AI例外。它是目前日本身价最高的AI公司之一,联合创始人Llion Jones是那篇改变了整个AI行业的著名论文《Attention is All You Need》的八位作者之一。

Sakana AI 两位创始人;David Ha(左)、Llion Jones(右)

但在这股热潮之外,学术界对AI科学家的能力评估还相对冷静。

2025年,西湖大学联合国内多所高校发表了一篇大规模综述论文《How Far Are AI Scientists from Changing the World?》(AI科学家离改变世界有多远?),系统梳理了当前所有主流AI科学家系统的研究进展和短板。

标题已经比较直白了

这篇论文提出了一个能力框架,把AI科学家的成长分为四个层级:

1.知识获取——能不能自己读文献、搜索和理解已有的研究?

2.想法生成——能不能提出新颖且可行的科学假设?

3.验证与证伪——能不能设计实验、写代码、分析结果来验证假设?

4.进化——能不能从反馈中学习,持续提升自己的科研能力?

也可以看作是AI研究员的成长之路

目前,大多数AI科学家系统集中在前两个层级,读文献和提想法。到了“验证”这一关,问题就来了。综述团队用一个叫DeepReviewer的AI审稿模型,对5个主流AI科学家系统公开发表的28篇论文做了评估。结果不太好看:

- 评分最高的系统,平均也只有4.63/10

- 100%的论文存在“实验弱点”

- 96.4%存在“方法论不清或有缺陷”

- 89.3%存在“创新性存疑”

28篇文章里,发现AI还是有不少共性问题

换句话说,现在的AI科学家系统,在“做实验”这件事上还差得远。它们可以产出看起来完整的论文,但在实验设计的严谨性、方法论的创新性和可复现性上,离真正的高水平科研还有相当大的距离。

综述还指出了几个值得注意的问题:

第一,冲击同行评审体系。如果AI系统可以大规模、低成本地生成论文,现有的学术审稿机制可能会被淹没。审稿人已经忙不过来了,再加上海量AI生成的投稿,整个学术评价体系可能会出问题。

第二,削弱科研训练。如果年轻学者从一开始就过度依赖AI来选题、设计实验、写论文,那么批判性思维、动手能力、对科学方法的直觉理解,这些需要长期训练才能获得的能力,可能会被慢慢侵蚀。

第三,AI可能进入不该进入的领域。 一个不受约束的AI科学家系统,理论上可以自主探索任何研究方向,包括那些涉及安全风险的方向。

但趋势是明确的。

就在这几天,Analemma开始公开招募志愿审稿人,邀请人类研究者来评审FARS自动生成的论文。完成审稿的志愿者将被列为评审报告的作者,还能获得产品积分和实体纪念品。反正我品出了这样的味道:人类的角色正在从“写论文的”变成“给AI批作业的”。

从2024年的“AI辅助人类写论文”,再到现在FARS这种“AI做科研、AI审稿、人工二次审核”的模式,范式正在快速迭代。

我们今天讨论“AI能不能做科研”,可能就像十年前讨论“AI能不能下围棋”。问题本身很快就会过时。真正的问题是,当AI真的能做科研了,我们的学术体系、科研训练甚至科学伦理,准备好了吗?

FARS跑了417小时,写了166篇论文。这些论文的质量参差不齐,有的还不错,有的很一般,有的甚至以失败告终。但它做了一件以前没人真正做到的事:让AI从头到尾独立做科研,然后把所有过程摊在阳光下。所以不得不说,不管你是期待还是警惕,可能都需要接受这个现实:

它们才刚入学,它们的研究生涯才刚刚开始。