烧了18.6万美元让AI连轴肝了17天，它产出了166篇论文

如果你是一个博士生，写一篇论文大概需要多久？

乐观一点，三个月。悲观一点，三年也不是不可能。中间还得经历选题被毙、实验跑崩、数据对不上、审稿人第三轮还在要求major revision（就是大改！）等人间疾苦。

最近有个AI，用了417小时干完了166篇。

这个AI叫FARS，全称Fully Automated Research System，全自动科研系统，来自一家你可能没听过的中国初创公司，Analemma。它的工作流程跟博士生一模一样：翻文献、找选题、提假设、设计实验、写代码跑数据、分析结果、画图、成稿。全程没有导师催，没有deadline焦虑，不喝咖啡，不上厕所，24小时连轴转。

更离谱的是，整个过程是直播的。任何人都可以打开网页，实时围观这个AI怎么肝论文。就像看一个博士生在直播间里赶稿，只不过这个博士不需要睡觉。

让它跑的人的原话很简单：先写100篇。

结果这台“论文机器”一口气跑了417小时，累计17天，产出了166篇论文。平均每2小时17分钟交一篇。整个过程消耗了216亿个token，烧掉大约18.6万美元，折合人民币超过130万，算下来每篇论文的成本大约1100美元。

结算画面

博士生看了沉默，导师看了流泪。

但先别急着感叹。我们得搞清楚两件事：这个系统是怎么工作的？它写出来的东西，到底能不能看？

01. 造一台论文机器

做FARS的人叫孙天祥，复旦大学自然语言处理方向的博士，2024年毕业。

孙天祥个人主页

这个名字你可能没听过，但他做过的东西你没准有印象：MOSS。

2023年初，ChatGPT刚在全球引爆AI热潮的时候，复旦大学发布了MOSS，这是国内最早一批对标ChatGPT的大语言模型之一。当时社交媒体上铺天盖地的讨论，各路媒体争相报道，MOSS项目的核心主导者，就是当时还是博士生的孙天祥。

当时的新闻稿，时间是亮点

2024年博士毕业后，他辗转进入上海创智学院担任助理教授，同时创立了Analemma。公司的slogan是：“In a world of infinite questions, it is time to build an infinite mind”，翻译过来就是：在一个问题无穷的世界，是时候构建一个无穷的心智。

这话听着玄乎，但他做的事倒是挺实在的：先造一个能自己做科研的AI系统，即本文的主角FARS。

FARS的工作方式，用人话说就是，四个AI研究员流水线协作：

-选题agent（Ideation）：负责翻文献、找研究方向、提出假设

-规划agent（Planning）：把假设变成具体的实验方案

-实验agent（Experiment）：写代码、调用GPU集群跑实验、收集数据

-写作agent（Writing）：把实验结果整理成一篇完整的论文

FARS的架构图

四个agent在一个共享文件系统里协作，彼此之间不直接对话，而是通过读写文件来交接工作，背后撑着这套系统的，是160块英伟达GPU组成的算力集群，配上所有agent想要调用的一线大模型。

打开FARS的直播页面，你能看到的东西相当丰富。顶上是当前课题的标题，下面一条进度条标着“选题→规划→实验→写作”走到了哪一步。左边是项目队列，十几个编号排着队，跑完一个换下一个。中间是当前项目的实验清单，哪步做完了、哪步还在跑，标得清清楚楚。右边是GPU集群的实时状态。如截图里显示的是76块GPU同时在干活，利用率75%。最底下一排数字实时跳动：已经产出了多少个假设、多少篇论文、跑了多久、烧了多少钱，整个界面就像一个科研工厂的监控大屏，全程直播放送。

直播页面长这样

FARS目前聚焦的研究领域是AI本身，也被称为“AI4AI”，用AI来研究AI。选这个领域有务实的考量：AI领域的实验可以完全在计算机上完成，不需要物理实验室，天然适合自动化。当然，局限也很明显：FARS暂时没法跑极度烧算力的实验（比如大规模预训练），也没法完成需要人类直接参与的实验（比如人工标注或专家评估）。

FARS还有一个设计上的执念：全程透明。所有166篇论文的代码，都通过FARS自己的GitLab账号公开提交。选择直播，也是因为创始人认为，规模化是检验AI科研系统的唯一方式。给它几篇论文看看，说明不了什么问题。只有大规模运行并且完全公开，才能让学术界真正去审视这个系统的能力和局限。

说到GitLab，其实还有个小插曲。FARS最早是在GitHub上提交代码的，但因为提交频率实在太高，触发了GitHub的频率限制，账号被卡了，只好搬到GitLab。打开FARS的GitLab主页，活动热力图很有意思：一整年几乎全是灰色，就最近两周多突然黑了一片。

FARS在Gitlab页面

02. 它写出来的东西，能看吗

说了这么多，FARS写出来的论文到底长什么样？我们来看一个具体的例子。

在FARS产出的166篇论文里，有一篇叫《Local-Time AdamW for Stability-Gap Reduction in Continual Learning》（用于减少持续学习中稳定性间隙的局部时间AdamW）。翻译成人话就是：AI在学习新任务的时候，经常会突然“忘掉”之前学过的东西，表现断崖式下跌，虽然过一会儿会恢复，但这个闪崩本身就很危险。FARS发现，AdamW优化器里一个叫“偏差校正”的机制，在任务切换时会帮倒忙，于是提出了一个改进方法：在任务切换时只重置校正步数，保留记忆缓冲区。

这个改动只需要改一行代码。

然后FARS设计了实验：在两个标准数据集上跑了对照实验，用了5个随机种子取平均，还专门设计了一个“如果关掉偏差校正，效果还在不在”的验证实验来排除干扰因素。最终结论是，这个方法在一个数据集上把稳定性间隙降低了31%，在另一个上降了17%。

整篇论文7页，结构完整，有摘要、引言、相关工作、方法、实验、结论，引用了15篇参考文献，代码开源在GitLab上。

这不是一篇随便糊弄的AI八股文。它有自己的假设、有实验设计、有对照组、有统计检验、有代码，论文的开头还明确标注了一行警告：“WARNING: This paper was generated by an automated research system.”（警告：本论文由自动化研究系统生成。）

论文写完之后还过了一道“审稿”。FARS使用的是斯坦福大学开发的AI审稿系统（Stanford Agentic Reviewer）。这个AI审稿员给出了详细的评审意见：肯定了研究的动机清晰、方法简洁、实验设计有对照组验证了因果机制；同时也指出了不足：实验规模偏小、缺少与更简单替代方案（比如直接调低学习率）的对比、对超参数敏感性的讨论不够。最终打分：5.2/10，评价大致相当于“weak accept”，有价值但还差点意思。

这个分数高不高？说实话，不算高。但问题是，一个AI系统用平均2个多小时自动完成的论文，拿到了一个5分出头的审稿意见，很多初次投稿的硕士生，花几个月写的论文，可能也就这水平。

FARS还有另一面，它也会失败。

在FARS的论文库里，有一篇研究对象是机器人控制AI的思考过程。现在有一类叫VLA（视觉-语言-动作模型）的系统，它看到摄像头画面、听到语言指令后，再给出动作指令。有意思的是，新一代VLA不是一口气给出答案，而是在内部反复琢磨，像在草稿纸上不断修改一样，反复调整自己的中间状态，琢磨够了才输出最终动作。

问题来了：怎么判断AI“琢磨够了”？已有的方法是看输出端：如果AI连续两步给出的动作几乎一样，就认为它想好了，可以停了。但FARS提出了一个更直觉的想法：与其盯着输出看，不如直接看AI内部“草稿纸”的变化。如果草稿纸上的内容趋于稳定，说明思考真的收敛了，这应该是一个更可靠的判断依据。

FARS为这个假设设计了完整的对照实验方案，设置了严格的公平比较条件，还预设了一系列前提检验来确保实验的有效性。但它同时也在论文里写明了：这个假设可能是错的，如果AI内部的“草稿纸”变化并不遵循收敛规律，那这个方法就不会奏效。即便失败了，这个否定结果本身也有价值，它说明收敛指标的选择并不是关键杠杆，研究者应该把精力放在其他方面。

研究失败，认了

这种态度反而让人觉得，这个系统比想象中更诚实。它不只展示成功的案例，也把不确定的、可能走不通的研究方向摊出来。在真正的科研里，大量假设最终都会被推翻，只不过人类科学家很少发表走不通的思路。FARS不挑结果，做完就如实报告。

03. 博士生该紧张吗

FARS不是唯一在做这件事儿的。

2024年，日本AI公司Sakana AI发布了“AI Scientist”系统，号称能自主完成从选题到成稿的全流程。同年年底，英国初创公司Intology推出了Zochi，也是类似的全自动科研系统。2025年，Sakana AI的升级版AI Scientist v2更进一步，它产出的论文，已经有被ICLR 2025 Workshop接收的案例。

这意味着，AI写的论文，确实已经通过了学术界的同行评审，虽然目前仅限于workshop级别。

顺带一提，在这一轮AI浪潮里，日本整体声量不大，但Sakana AI例外。它是目前日本身价最高的AI公司之一，联合创始人Llion Jones是那篇改变了整个AI行业的著名论文《Attention is All You Need》的八位作者之一。

Sakana AI 两位创始人；David Ha（左）、Llion Jones（右）

但在这股热潮之外，学术界对AI科学家的能力评估还相对冷静。

2025年，西湖大学联合国内多所高校发表了一篇大规模综述论文《How Far Are AI Scientists from Changing the World?》（AI科学家离改变世界有多远？），系统梳理了当前所有主流AI科学家系统的研究进展和短板。

标题已经比较直白了

这篇论文提出了一个能力框架，把AI科学家的成长分为四个层级：

1.知识获取——能不能自己读文献、搜索和理解已有的研究？

2.想法生成——能不能提出新颖且可行的科学假设？

3.验证与证伪——能不能设计实验、写代码、分析结果来验证假设？

4.进化——能不能从反馈中学习，持续提升自己的科研能力？

也可以看作是AI研究员的成长之路

目前，大多数AI科学家系统集中在前两个层级，读文献和提想法。到了“验证”这一关，问题就来了。综述团队用一个叫DeepReviewer的AI审稿模型，对5个主流AI科学家系统公开发表的28篇论文做了评估。结果不太好看：

- 评分最高的系统，平均也只有4.63/10

- 100%的论文存在“实验弱点”

- 96.4%存在“方法论不清或有缺陷”

- 89.3%存在“创新性存疑”

28篇文章里，发现AI还是有不少共性问题

换句话说，现在的AI科学家系统，在“做实验”这件事上还差得远。它们可以产出看起来完整的论文，但在实验设计的严谨性、方法论的创新性和可复现性上，离真正的高水平科研还有相当大的距离。

综述还指出了几个值得注意的问题：

第一，冲击同行评审体系。如果AI系统可以大规模、低成本地生成论文，现有的学术审稿机制可能会被淹没。审稿人已经忙不过来了，再加上海量AI生成的投稿，整个学术评价体系可能会出问题。

第二，削弱科研训练。如果年轻学者从一开始就过度依赖AI来选题、设计实验、写论文，那么批判性思维、动手能力、对科学方法的直觉理解，这些需要长期训练才能获得的能力，可能会被慢慢侵蚀。

第三，AI可能进入不该进入的领域。一个不受约束的AI科学家系统，理论上可以自主探索任何研究方向，包括那些涉及安全风险的方向。

但趋势是明确的。

就在这几天，Analemma开始公开招募志愿审稿人，邀请人类研究者来评审FARS自动生成的论文。完成审稿的志愿者将被列为评审报告的作者，还能获得产品积分和实体纪念品。反正我品出了这样的味道：人类的角色正在从“写论文的”变成“给AI批作业的”。

从2024年的“AI辅助人类写论文”，再到现在FARS这种“AI做科研、AI审稿、人工二次审核”的模式，范式正在快速迭代。

我们今天讨论“AI能不能做科研”，可能就像十年前讨论“AI能不能下围棋”。问题本身很快就会过时。真正的问题是，当AI真的能做科研了，我们的学术体系、科研训练甚至科学伦理，准备好了吗？

FARS跑了417小时，写了166篇论文。这些论文的质量参差不齐，有的还不错，有的很一般，有的甚至以失败告终。但它做了一件以前没人真正做到的事：让AI从头到尾独立做科研，然后把所有过程摊在阳光下。所以不得不说，不管你是期待还是警惕，可能都需要接受这个现实：

它们才刚入学，它们的研究生涯才刚刚开始。