编者按:在微软亚洲研究院为实习生们打造的科研训练“沈老师带你肝论文”中,沈向洋博士曾分享了自己发现已发表的工作中出现错误,之后及时勘误的故事,以此告诉年轻的研究者,在科研中,犯错是正常的,纠错是必须的。科研就是一个不断发现错误与不断纠正错误的探索过程。“It’s honorable to admit your mistake”。对于科研,我们应有“深揭猛批”的态度,这样才能做出了不起的工作。
针对科研容错与纠错这个议题,我们与沈向洋博士进行了更多探讨,以下是Harry的分享。
Q1:您如何看待在科学研究中出现错误?
沈向洋:在科学研究中,犯错误是经常会出现的事情。因此,容错和纠错也是必不可少的一部分。科研的目的是发现知识。重复实验是验证知识的过程。然而实现“可重复性”的确不容易。不同的领域比如生命科学、量子物理、计算机科学重现实验的难度和代价也可能会有很大差距。
在我熟悉的计算机视觉领域,如果有优秀的论文发表出来,很快就会有人努力去尝试重现。如果不能被重现和验证,大家就会抱有一个“健康的怀疑态度”。2014年我还在Redmond必应搜索产品部门工作的时候,深度神经网络的研究已经在兴起。我回北京MSRA时和孙剑讨论了这个问题,他说他们团队深入研究了Hinton的AlexNet文章,但是因为有一些技巧和细节,包括网络初始化方式、数据增广、参数调节、GPU Kernel的编写等,在实现中并不能精确复现。但过了几个月再碰到孙剑,他说应该可以重现了。一年后ResNet就做出来了。
最近这些年,很多计算机和人工智能论文在发表的时候,会把代码和数据开源出来。这样对大家重复实验非常有帮助。
Q2:如果发现自己已发表的工作中存在错误,您会如何处理?
沈向洋:It’s honorable to admit your mistake,承认与改正错误是我们应该做的。
我可以与大家分享一个20年前的故事。2000年,我在IJCV上发表了一篇全景图Panoramic Image Mosaics的文章。2001年,欧洲的一位教授寄了一封Email给我,说在教计算机视觉课讲这个算法时,觉得公式中存在错误。
我开始觉得不可能,因为论文已经发表了一段时间了,我的程序更是跑了好几年了,结果都没问题。我后来花了周末一个下午的时间,仔细读了教授写的邮件,重读了自己的论文,再看程序里如何实现公式的,再次认真重读了论文,终于发现果然有个左乘换右乘的错误。因为它是一个迭代算法,所以程序最后还是收敛了!
虽然程序跑下来最后结果是没问题的,但里面的数学公式确实错了。所以我跟我的合作者Szeliski写了一篇勘误(见本文结尾),2002年发表在IJCV这本杂志上。
在计算机科学领域,像我这样刊登勘误是很常见的。论文里面有错误,领域内的共识是鼓励大家指出来,也鼓励作者再去改,甚至有人专门投稿去指出其他文章中的错误,有时可以写好几页纸。
如果论文结论本身存在重大错误,许多作者会选择认错并撤稿。比如上个月,荷兰物理学家、微软员工Leo Kouwenhoven就将三年前发表在《Nature》杂志上的论文以“技术错误”为由撤稿。在这篇论文中,他认为在自己的实验中观察到了量子物理界期盼多年的 “马约拉纳费米子”(Majorana fermion)。微软期望利用它建立拓扑量子计算机。因为不能重复发现该粒子的实验结果,Kouwenhoven和他的21位合著者发表了一篇新的论文并撤回原始论文。
Q3:在科学研究中,容错与纠错的价值与意义是什么?
沈向洋:科学研究是一个追求真理、追求新知的探索过程,也是一个去伪存真的过程。那么,容错与纠错必然是其中的重要一环。
丘成桐教授证明卡拉比猜想的故事是一个好的例证。意大利几何学家卡拉比在1954年提出了卡拉比猜想,即在封闭的空间中,有无可能存在没有物质分布的引力场。但是,包括卡拉比自己在内,没有人能证实这个猜想,甚至几乎所有数学家都认为,卡拉比是错的。
丘教授花了相当多的时间思考如何证明卡拉比猜想是错的,而且他也认为自己已经做出了证伪的证明。1973年,在一个会议上,丘成桐把自己的想法告诉了卡拉比,卡拉比专门组织了讨论会让丘成桐陈述。卡拉比很兴奋,在场者的人认为问题已经解决。
一个多月之后,卡拉比致信丘成桐,说他在重建丘的思想中碰到了困难。丘成桐又开始进行证明,几乎两个星期没有睡觉,但证明总会在最后一分钟崩溃。丘教授说,这时,他感觉卡拉比应该是正确的,于是他开始发明新工具来理解卡拉比猜想。1975年,丘成桐终于证明了卡拉比猜想。而卡拉比猜想的证明,也标志着微分几何新时代的到来。
在科学研究追求真理的过程中,犯错误不奇怪。其实,通过犯错、纠错来不断努力去接近真理,也正是科研的魅力之一。
Q4:在“沈老师带你肝论文”的科研训练中,您与同学们分享了自己发现错误与改正错误的故事,您希望借此对年轻的学生和科研工作者有什么启示与建议?
沈向洋:在MSRA的时候,我和郭百宁老师徐迎庆老师喜欢和同学们讲的一句话叫做“深揭猛批”。这是我非常推崇的一个概念:读别人的论文,要同时带着学习、怀疑和批判的态度去读;对自己的工作则要更加怀疑,更加批判。做科研的时候有这样的精神,才能做出了不起的学问。
“这个结论正确吗?我的假设成立吗?工作创新点在哪里?要不要再做个实验?还有哪里不清楚?换个方法重画框图?人家为什么应该来读我的论文?这篇论文投出去是不是浪费审稿人的时间?” 这些是我们应该不断问自己的问题。
世界上本来是没有什么学问的。学的时间长了,问的问题多了,就好像有学问了。
好文章,需要你的鼓励
邻里社交应用Nextdoor推出重新设计版本,新增本地新闻、实时警报和名为"Faves"的AI功能,用于发现本地商户和地点。该应用与3500家本地出版商合作提供新闻内容,通过Samdesk和Weather.com提供天气、交通、停电等实时警报。Faves功能利用15年邻里对话数据训练的大语言模型,为用户提供本地化AI推荐服务,帮助用户找到最佳餐厅、徒步地点等本地信息。
Skywork AI推出的第二代多模态推理模型R1V2,通过创新的混合强化学习方法,成功解决了AI"慢思考"策略在视觉推理中的挑战。该模型在保持强大推理能力的同时有效控制视觉幻觉,在多项权威测试中超越同类开源模型,某些指标甚至媲美商业产品,为开源AI发展树立了新标杆。
英国生物银行完成了世界上最大规模的全身成像项目,收集了10万名志愿者的超过10亿次扫描数据,用于研究人体衰老和疾病过程。该项目历时11年,每次扫描耗时5小时,投资6200万英镑。目前已有8万人的成像数据供全球研究人员使用,剩余数据将于年底前发布。项目已开发出能预测38种常见疾病的AI工具,并在心脏病、痴呆症和癌症诊断方面取得突破。
这项由北京大学等多所高校联合完成的研究,首次对OpenAI GPT-4o的图像生成能力进行了全面评估。研究团队设计了名为GPT-ImgEval的综合测试体系,从文本转图像、图像编辑和知识驱动创作三个维度评估GPT-4o,发现其在所有测试中都显著超越现有方法。研究还通过技术分析推断GPT-4o采用了自回归与扩散相结合的混合架构,并发现其生成图像仍可被现有检测工具有效识别,为AI图像生成领域提供了重要的评估基准和技术洞察。