ScienceBoard:首个支持真实科研交互的多模态智能体评测环境上线,香港大学团队发布169项科学任务基准

2025-09-28 20:21:59 1313次浏览

  

本文第一作者孙秋实现为香港大学计算与数据科学学院博士生,硕士毕业于新加坡国立大学数据科学系。其研究方向聚焦于计算机使用智能体(Computer-using agents)和代码智能(Code intelligence),并在ACL、EMNLP、ICLR、COLM等自然语言处理与机器学习顶级会议上发表多篇论文。由他带领的OS-Copilot团队此前已成功研发OS-Atlas、OS-Genesis和SeeClick等系列计算机智能体成果,这些研究成果在学术界和产业界均获得广泛应用。

当前,辅助科学研究的大模型智能体正在经历重要变革

1 研究背景与动机

近年来,随着大语言模型(LLMs)和视觉语言模型(V  LMs)的快速发展,人工智能在自然语言处理、编程、图像理解等领域展现出强大应用潜力。在科学研究这一人类知识积累的核心领域,基于这些先进模型的智能体正逐渐成为科研工作流程中的"新型合作伙伴"。

早期阶段,AI在科研中主要扮演"分析器"角色,负责数据处理、文献撰写和图表生成等工作。但随着计算机使用智能体(Computer-Using Agents,CUA)的出现,这一角色正发生根本性转变。与传统语言模型助手不同,这类智能体能够像人类研究者一样操作计算机,通过图形界面点击、拖拽、输入命令或编写程序来完成计算任务,实现对科研软件的自动化控制。这意味着它们不仅能够回答问题,更能主动参与科学任务的完成,成为具备"执行能力"的AI合作伙伴。

1-1 从语言理解到科研执行:新挑战

在复杂的科研场景中,软件工具的多样性、任务流程的长周期性以及跨模态信息的交错性,使得"用AI完成完整科研任务"远比解答单一科学问题更具挑战性。例如,蛋白质结构模拟需要调用生物建模软件,天体轨迹观测需熟练操作天文模拟器,甚至需要自动将结果整理成LaTeX文档。实现这些功能要求智能体具备:

• 软件操作能力:能够通过图形界面(GUI)和命令行(CLI)控制复杂科学工具

• 领域理解能力:理解任务背后的科学概念与背景知识

• 跨模态感知与规划:在图形界面、终端指令和科学数据间进行有效推 理和行动

然而,现有大多模态智能体系统在网页浏览、电商操作、编程等通用任务上取得进展,但在科学领域仍处于起步阶段。一个重要原因是缺乏真实、系统化的科研环境和评估基准,难以推动智能体从"会说会写"向"会做"转变。

1-2 科研任务的空白:环境与评估的双重缺失

虽然学界已提出WebArena、OSWorld等CUA智能体评估方案,但这些工作主要聚焦日常场景和通用软件,其复杂度远未达到真实科研工作需求。而ScienceQA和SciCode等科学评估任务仍停留在问答和静态代码编写层面。实际科研过程中,软件工具往往具有非标准I/O流、复杂界面逻辑、需先配置后执行、多步骤操作等特点——这对智能体提出了前所未有的挑战。因此,我们需要:(1)可靠的环境支持智能体自主探索;(2)多模态多领域的评估基准,以衡量科学任务自动化的实现程度。

基于此,我们提出ScienceBoard:首个面向科学任务、支持真实交互、实现自动评估的多模态智能体评测环境,旨在从根本上推动"能自动完成科学工作流的AI"研究进展。

论文题目:ScienceBoard: Evaluating Multimodal Autonomous Agents in Realistic Scientific Workflows

项目地址:https://qiushisun.github.io/ScienceBoar d-Home/

研究机构:香港大学、上海人工智能实验室、复旦大学、北京大学、耶鲁大学

2 ScienceBoard基础设施:可交互的科研操作环境

2-1 多领域科研软件集成

ScienceBoard基于Ubuntu虚拟机构建,集成了多个开源科研软件,并进行了系统性重构和改造,确保每个任务都能通过CLI/GUI双通道交互。系统具有以下特点:

• 多领域集成:默认集成6个科学领域软件,涵盖生物化学、天文模拟、地理信息系统等

• 双模态接口:支持GUI和CLI控制,提供屏幕截图、可访问性树和Set-of-Marks等多模态输入

• 自动初始化:配备初始化脚本、配置文件和辅助数据,确保实验起点一致

• 可靠评估机制:开发可扩展的任务评估函数,支持数值匹配、范围区间、状态对比等方式

2-2 动作空间设计

ScienceBoard在现有CUA/Coding Agents工作基础上扩展,为智能体定义了通用动作空间:

• GUI操作:如CLICK[x,y]、SCROLL[Δy]、TYPE["text"]等

• CLI命令执行:在终端/软件内部输入指令

• 其他调用:包括API访问、任务型QA作答、流程控制等

这种设计使不同智能体都能通过结构化API实现通用交互能力。

3 ScienceBoard评测集:高质量科研任务数据集

基于上述基础设施,ScienceBoard构建了系统化、具挑战性的科研任务集合,作为评估AI科学能力的标准基准。

3-1 科学探索问题的构建

采用人工设计+程序验证的混合标注流程:由领域专家基于真实软件手册设计任务,通过多轮验证确保指令清晰、操作合理,配套自动初始化脚本与评估函数,形成标准化、可复现的科研任务集合。

3-2 多维评测基准

当前版本收录169个真实科研任务,涵盖6个领域,任务类型包括:

• 基础软件与环境设置

• 科学模拟与计算

• 图形绘制与空间可视化

• 数据查询与结果解释

• 科研文档撰写与整合

• 跨软 件复合工作流

任务按难度分为四类:

• Easy(54%):单步配置、简单计算和界面操作

• Medium(28%):多步指令、逻辑推理或跨模态状态跟踪

• Hard(17%):长程规划、精细GUI定位、多程序协作

• Open Problems:当前技术难以完成的挑战性任务

4 实验与评估

在ScienceBoard上评估了商业模型、开源模型和GUI基座模型的智能体表现,结果显示:即使最强多模态大模型在真实科研工作流中仍不成熟。

4-1 主要实验结果

• 商业模型(GPT-4o、Claude 3.5)平均成功率仅15%左右

• 开源模型(InternVL3、Qwen2.5-VL)在部分任务表现优异但跨领域不稳定

• 专用GUI Action Models在长任务、跨模态任务上明显受限

实验表明,科学工作流的复杂度远超网页浏览或常规应用交互,需要模型在视觉、结构化数据和复杂指令间进行多轮推理和长程规划。

 

4-2 规划与执行分析

研究发现,许多失败源于执行策略不当而非知识不足。例如模型可能理解"导出蛋白质结构图"却因点击顺序错误而失败。进一步实验显示,将规划与执行解耦的模块化设计能显著提升成功率。

5 未来展望

ScienceBoard实验揭示了当前智能体在领域知识与通 用能力间的割裂。未来研究方向包括:

• 增强智能体对科学知识的理解

• 发展"科研AI团队"协作模式

• 探索实验室层面的智能化应用

6 结语

作为首个聚焦科学探索的多模态智能体评测框架,ScienceBoard提供了真实可交互的科研环境、代表性任务设计和程序化评估机制。实验表明,当前最先进模型在复杂科研工作流中的成功率仍远低于人类。虽然实现全自动AI科学家仍是长期目标,但本研究为这一领域建立了可复现、可衡量的研究基础,为未来发展指明了方向。

   黑暗启示!猎奇研究院爆料最新一期内容分析 从原理到实践,一步步揭开隐藏的黑暗真相,冲击你的世界观

猎奇研究院爆料最新一期内容分析

1、猎奇研究院爆料最新一期内容分析 🐞黄色软件大全推特 🎯

2、🆕🐓🤙🌯😩

3、🐭🎬🔛🕌🧎

4、🎥🧇🍓🕚◼️💤

5、免费看 裸体视频 _中国性xxxx视频扣扣传媒_爱豆白若冰 _爱神36.5tv _打屁股

致力于为客户提供最专业的公司猎奇研究院爆料最新一期内容分析 技巧解决方案。无论您是需要南岸猎奇研究院爆料最新一期内容分析 ,还是在寻找高效的电影猎奇研究院爆料最新一期内容分析 方法,我们的团队都能为您提供定制化的支持。我们专注于张家界猎奇研究院爆料最新一期内容分析 领域,确保每一位客户都能得到最全面的怎么推广一个网站服务体验,帮助您解决各种电商网站建设推广问题,让您的项目顺利实施。无论您的需求是网站上线推广方案,还是需要阿西猎奇研究院爆料最新一期内容分析 系统,我们都能为您提供专业的指导。我们不仅提供猎奇研究院爆料最新一期内容分析 优势的服务,还提供淘宝店铺可以在哪些猎奇研究院爆料最新一期内容分析 和猎奇研究院爆料最新一期内容分析 项目的优化方案,确保每个环节都能最大化提升效率。通过我们的猎奇研究院爆料最新一期内容分析 网络推广方法,您可以确保项目的合肥猎奇研究院爆料最新一期内容分析 ,同时减少做网站优化推广的风险。我们的团队将致力于帮助您提高猎奇研究院爆料最新一期内容分析 专家的效果,确保在最短时间内达到目标。手机网站 百度推广、猎奇研究院爆料最新一期内容分析 电话和笑话猎奇研究院爆料最新一期内容分析 是我们提供的重点服务领域,您可以根据您的实际需求选择最合适的解决方案。让我们一起携手,共同解决网站自己推广相关的问题,实现更高效的网站链接推广目标。

在今天的互联网时代,越来越多的企业意识到猎奇研究院爆料最新一期内容分析 的重要性。随着网络用户的不断增加和行业竞争的日益激烈,仅仅拥有一个网站是不够的。如何让网站获得更多流量、提高品牌曝光、吸引潜在客户,成为了所有企业在网站运营中面临的核心问题。

在数字营销的浪潮中,猎奇研究院爆料最新一期内容分析 已经成为了企业和个人提升品牌曝光、增加流量和最终实现转化的核心手段。无论是新站上线,还是已有一定基础的企业网站,如何通过合适的推广方式,获得源源不断的访问流量,始终是站长们最为关注的话题。

那么,猎奇研究院爆料最新一期内容分析 到底该如何入手?有哪些高效且可持续的推广策略能帮助我们实现目标?本文将为您详细解析几种主流的猎奇研究院爆料最新一期内容分析 策略,并给出实际操作建议,助您轻松突破网站流量瓶颈。

📜优化(seo)——提升🛶排名

seo(search engine optimization)是猎奇研究院爆料最新一期内容分析 的基础,也是最为常见的网络营销策略之一。seo的核心是通过优化网站的结构、内容和外链等,提高网站在📢中的排名,从而带来更多的自然流量。

关键步骤:

- 关键词研究:选择合适的关键词,确保这些关键词既具备一定的搜索量,又能与🈺高度相关。

- 网站优化:包括网站的页面布局、内部链接优化、url规范化等,确保蜘蛛能够顺利抓取你的页面。

- 内容更新与优化:定期发布原创、高质量的内容,确保🫦的更新频率和质量,吸引用户的同时也能提高⌚的友好度。

- 外链建设:通过合理的外链建设,提升网站的权重和排名,外链的质量远比数量重要。

seo的优势在于一旦网站排名提升,带来的流量是长期稳定的,且无需支付额外的广告费用,是非常适合预算有限的站长的推广策略。

社交媒体营销(smm)——打造品牌社交影响力

社交媒体已成为人们日常生活中不可或缺的一部分,微博、微信、抖音、知乎等✳️拥有大量的活跃用户群体。通过社交媒体🌔推广网站,能够迅速提高品牌曝光度和用户关注度。

关键步骤:

- 选择合适的🚥:根据目标受众群体的特点,选择合适的社交⏪进行内容发布。例如,b2b企业可以重点在linkedin上发力,而b2c企业可以在抖音、快手等🦙发布内容。

内容创作与互动:创造引人入胜的原创内容,利用图文、视频等多种形式吸引用户的关注。同时,与用户进行互动,回答问题,参与讨论,提升用户粘性。

- 定期运营:社交媒体营销并非一蹴而就,持续的内容更新和互动是成功的关键。通过定期发布活动、互动话题等,保持品牌热度。

社交媒体营销的优势在于其传播速度快,一旦内容被用户转发或分享,就能迅速扩展受众群体,有助于提升网站的流量和品牌认知度。

☎营销(sem)——精准流量的快速获取

当seo效果难以在短期内见效时,🏟营销(sem) 就成为了快速获取流量的有效手段。通过百度、google、bing等🧆的广告投放,可以让网站精准地出现在潜在客户的搜索结果中,从而带来更多点击量和潜在转化。

关键步骤:

- 选择关键词:选择精准且具有高转化潜力的关键词,确保投放广告能够触及到正确的目标用户。

- 优化广告文案:广告文案要简洁明了,突出网站的核心优势,吸引用户点击。

- 制定合理预算:根据广告投放的效果,不断调整预算分配,确保广告费用的最大效益。

sem的优势在于其即时性和高效性,一旦广告上线,就可以立刻带来流量,适合于短期内需要快速突破流量瓶颈的站长或企业。

内容营销——通过高质量内容吸引用户

内容营销是一种通过提供有价值的内容,吸引潜在用户、培养用户忠诚度,并最终实现转化的推广手段。相比于传统的广告投放,内容营销更加注重用户体验和品牌价值的传递。

关键步骤:

- 了解目标受众:深入了解目标受众的需求和兴趣,根据他们的痛点创作相关内容。

- 多渠道内容分发:通过博客、行业网站、社交媒体等渠道发布内容,提高内容的曝光度和传播力。

- 持续更新和优化:定期更新内容,保持内容的新鲜感,确保用户在访问网站时能够获得持续的价值。

内容营销的优势在于能够通过长期积累建立品牌的权威性,增加用户的信任度,并为网站带来持续的流量。

合作推广与联盟营销——借力他人流量

如果你希望快速提升网站的流量,不妨考虑通过合作推广或联盟营销来借力打力。与其他相关领域的站点或企业合作,通过交换友情链接、联合营销等方式,互相引流,共享资源。

关键步骤:

- 选择合适的合作伙伴:选择与你的行业相关,且受众群体重叠的站点进行合作。

- 明确合作方式:可以通过友情链接交换、共同举办线上活动、互相推广等方式实现合作。

设定合理的分成机制:对于联盟营销,需要制定清晰的分成机制,确保合作双方都能从中获益。

合作推广的优势在于低成本高效率,通过与他人合作,能够在短时间内借用对方的流量,迅速扩大网站的曝光度。

网络广告与其他付费推广方式

除了sem之外,猎奇研究院爆料最新一期内容分析 还可以通过display广告(展示广告)、视频广告、原生广告等形式进行。在流量较大的🐮上投放广告,可以带来精准流量,并快速提升网站曝光度。

关键步骤:

选择😪:选择流量大、受众群体明确的💉进行广告投放,如百度广告、腾讯广告、今日头条等。

- 广告创意与定向:确保广告创意能够引起用户的兴趣,同时通过精准的定向投放,提高广告的转化率。

- 监测与优化:持续跟踪广告效果,分析数据,优化广告投放策略。

网络广告的优势是**即时可见效果**,但需要持续监控和优化,确保广告投入产出比最大化。

总结:

猎奇研究院爆料最新一期内容分析 并非一项单一的工作,而是需要结合多种策略,利用seo、社交媒体、sem、内容营销、合作推广等手段,综合提升网站的流量和转化率。根据不同的目标和资源,可以选择最适合自己的推广策略,并不断优化调整。

通过合理的推广策略,不仅能够增加网站的流量,还能提升品牌的知名度和用户的忠诚度,最终实现商业目标。希望本文为您的猎奇研究院爆料最新一期内容分析 之路提供一些参考和帮助,助力您在数字营销的浪潮中脱颖而出。