本项目由清华大学鲁继文教授团队的张博、张博睿、江承昊、史明磊,以及极佳视界的技术团队共同完成。研究团队热忱欢迎社区反馈与技术贡献,期待与全球开发者共同拓展智能体在数字工作场景中的应用边界。Syll 是一个居住在你电脑屏幕边的智能体,它帮助照看那些差点被遗忘的草稿、文件、旧照片和未竟之事。如果你愿意教它一次,它会记住路径:哪里需要看,哪里需要点,何时敲命令,何时用工具。下一次,它就能沿着你留下的线索完成任务。Syll 不只会点屏幕,也不只会调用接口。GUI、CLI、MCP 都是它可以走的小径;你仍然可以随时停下它、检查它、重新教它。愿它成为你的伙伴,而不是替你做主的机器。

当前个人 AI 智能体面临界面割裂、教学门槛高、执行不透明、隐私与定制困难等问题。多数 AI 系统主要依赖 API 或命令行完成任务,难以覆盖闭源桌面软件;普通用户也很难用低门槛方式教会 AI 完成自己的工作流程;执行过程缺乏直观可查的依据,云端方案还可能带来数据安全与二次开发受限等问题。

为解决这些难题,清华大学智能视觉实验室团队开源了多模态全交互智能体框架 Syll。Syll 支持 GUI、CLI、MCP/API 等多种操作方式,并通过统一多模态执行能力、GUI 技能示教、全程可审计追踪与本地模块化架构,打造更易用、更可信、更安全且更适合二次开发的个人自动化智能体框架。

Syll 的核心设计理念包括:

Syll 具备统一的多模态执行能力,原生兼容 MCP/API、命令行 CLI 与视觉 GUI 三种操作方式,能够根据不同任务场景选择合适的执行路径,实现更灵活的电脑操控。

Syll 支持「示教即技能」机制。用户无需编写代码或手动设定复杂规则,只需把任务手动操作一遍,Syll 便可自动录制流程、提取关键步骤,并将其沉淀为可复用的智能体技能。

Syll 搭配多模态审计体系,AI 执行的每一步操作都会留下清晰可查的记录,全程透明可视化,让使用过程看得见、更可信。

Syll 采用本地模块化架构,用户的记忆、技能、规则及个人偏好都可以以可编辑文件的形式存储在本地,既保障数据隐私安全,又具备较高的扩展性。

Syll 设计起点不是在 GUI、CLI、MCP 之间选择,而是把它们放进同一个执行回路:需要观察界面时走 GUI,需要批量处理时切 CLI,需要连接服务时走 MCP/API。这样形成一个更完整的动作空间,让智能体在不同工作表面之间自然流转。

Syll 把 GUI 控制视为动作空间的一部分,而不是 API 不可用时的临时补丁。它需要学会观察屏幕、定位目标、处理弹窗、等待状态变化,并在适当的时候切换到命令行或工具接口,避免把所有问题都变成笨拙的点击。

Syll 选择了另一条更自然的路径:示教即技能。用户照习惯把事情做一遍,Syll 在后台记录关键视觉锚点、鼠标键盘窗口状态变化、任务上下文等信息,生成可复用的技能。学到的是「如何完成任务」,而不是孤立的按钮坐标。

Syll 的执行过程会留下可检查的轨迹,确保每次屏幕操作与界面状态变更均可被记录、回放与审计。用户始终保有对关键决策的最终把控权,形成机器执行到人审核的验证闭环,提升自动化效率的同时确保系统的可控性与可解释性。
Syll 的记忆、技能、规则和偏好都以本地可编辑文件的形式组织。对普通用户来说,在前端面板就能完成模型配置、技能管理、定时任务和日常对话。对开发者来说,Syll 的工程特点是高度模块化与可扩展性,提供良好的代码基础。

Syll 仍然处在早期 public alpha,会持续维护和迭代,支持更多真实任务当天操作复盘,同时保持框架的简洁性与可扩展性,也欢迎社区进行二次开发。它会一点点变得更懂你,有时帮你完成复杂流程,有时只是轻轻提醒一句。
正规券商极速开户提示:本文来自互联网,不代表本网站观点。