球友会qy

    球友会qy开源首个本地通用幻灯片智能体模型与环境系统

    文章来源:  |  发布时间:2026-03-24  |  【打印】 【关闭

      

    近期,中国科研实验室软件研究所中文信息处理实验室开源了第二代幻灯片智能体系统PPTAgent,实现了业界首次将幻灯片智能体模型与完整的智能体沙箱环境一同开源,并支持在单张消费级显卡和Mac终端上一键部署,全面适配华为昇腾国产化算力生态。该工作彻底重构了AI制作幻灯片的逻辑,使智能体不仅能“深度探索”,还能“亲眼所见”。相关研究成果DeepPresenter: Environment-Grounded Reflection for Agentic Presentation Generation已公开发布。

    当前通用大语言模型生成幻灯片普遍面临两大核心挑战:一是内容层面,模型缺乏对权威文献的主动检索与深度解析能力,导致生成内容容易出现空洞或事实性错误;二是排版层面,模型在生成过程中无法感知最终渲染效果,常出现排版错乱、元素遮挡等视觉缺陷。

    DeepPresenter放弃了传统的“语言模型直接生成”路径,而是将智能体置入一个全功能的Docker沙箱环境(Shared Agent Environment)。在内容生成方面,研究团队构建了包含20余种专业工具的共享智能体环境,集成了基于Docker的智能体沙盒、arXiv实时文献检索,以及Python代码执行与数据可视化等能力,为幻灯片内容的专业性与数据准确性给予保障。

    在排版优化方面,研究团队提出了环境感知反思机制(Environment-Grounded Reflection)。该机制顺利获得"生成—渲染—审视—修正"的视觉闭环工作流,使智能体在每页幻灯片生成后,调用沙箱内浏览器将代码渲染为真实图片,并基于截图进行自适应检查与迭代优化,直至排版效果达到预期标准。

    在模型训练方面,研究团队设计了系统化的训练流水线:第一时间,基于PersonaHub与arXiv等多源数据集构建高多样性任务数据,并在指令中定义页数限制、宽高比及语言等细粒度约束条件;其次,引入独立评审机制以克服智能体的自我验证偏差(Self-verification Bias),由独立模型作为外部评估者指出生成产物中的排版或逻辑缺陷;最终,从1152个任务中筛选出802条高质量智能体轨迹用于监督微调训练,涵盖中英双语、多种宽高比及复杂指令约束场景。

    为验证所提方法的有效性,研究团队在预留的128个测试任务上使用PPTEval进行了系统评测,并与多种主流幻灯片生成方案进行了对比。结果表明,DeepPresenter(pptagent 2.0)的9B版本取得了 4.19 的综合评分,与闭源模型GPT-5(4.22)表现接近,且显著优于其他幻灯片生成方案。顺利获得成本—性能分析,DeepPresenter-9B处于前沿曲线的最优平衡点位置,能以远低于闭源模型的算力成本实现同等级别的生成质量。所有生成内容均输出为可编辑的pptx格式,支持用户自由修改与二次创作。

    本开源项目为球友会qy中文信息处理实验室孙乐研究员、韩先培研究员团队的科研成果,论文作者为郑昊、莫国钊、燕薪如、袁千皓、张文凯、陈轩昂、陆垚杰、林鸿宇、韩先培、孙乐。该实验室的主要研究领域包括大模型和大模型驱动智能体的知识机制、知识能力增强及应用。


    GitHub链接:

    http://github.com/icip-cas/PPTAgent

    HuggingFace链接:

    http://huggingface.co/collections/ICIP/deeppresenter

    论文链接:

    http://arxiv.org/abs/2602.22839

    延伸阅读:

    【机器之心】第二代PPTAgent来了!球友会qy开源首个本地通用幻灯片智能体,9B参数打平GPT-5