Must Read — 针对 LLM 智能体工具调用安全 · 阿里达摩院发布RynnBrain
14 articles: 2 must read · 4 worth reading · 8 neutral
Top sources: 量子位 (3) · InfoQ (3) · PaperWeekly (2)
PaperWeekly · AI/Tech · 收藏
针对 LLM 智能体工具调用安全,提出了从末端检测转向过程引导的 ToolSafe 框架。
北京大学与上海AI Lab提出ToolSafe框架,旨在解决智能体在工具调用过程中的步骤级安全问题,将安全防护从‘事后检测’转向‘过程引导’。
机器之心 · AI/Tech · 收藏
阿里达摩院发布RynnBrain,通过将时空记忆和物理推理内化至模型底座,解决了具身智能多任务打断与长程规划的难题。
阿里达摩院开源了具身智能模型RynnBrain,通过将时空记忆和物理空间推理直接训练进模型,旨在提升机器人在复杂物理环境中的规划与执行能力。
PaperWeekly · AI/Tech · 精读
提出了从“数据驱动”向“模型-数据协同演进”的 L0-L4 数据分级治理体系。
清华大学、面壁智能等机构联合发布UltraData数据分级治理体系及2.4T开源数据,提出从‘数据驱动学习’向‘数据-模型协同演进’的范式转变。
量子位 · AI/Tech · 精读
华为诺亚方舟等团队通过对比实验证明,扩散大模型(DLLM)作为Agent底座在规划效率和执行速度上显著优于传统自回归模型。
华为等机构的研究表明,在相同条件下,将智能体的生成范式从自回归(AR)换成扩散模型(DLLM),能显著提升其规划效率和执行速度。
新智元 · AI/Tech · 精读
多校联合研发PrimeNash框架,利用LLM智能体自动推导博弈论纳什均衡的解析解并生成数学证明。
多所高校联合开发出名为PrimeNash的AI智能体框架,首次能够自动推导纳什均衡的闭式解析解并生成机器可验证证明。
InfoQ · AI/Tech · 精读
前 OpenAI 工程师通过实战体验,对比了 Claude Code 与 Codex 在上下文管理上的差异。
前OpenAI Codex核心研发者Calvin French-Owen高度评价Claude Code,认为其有效的上下文拆分能力是提升编程效率的关键。
追问nextquestion · AI/Tech · 精读
批判了社交媒体时代“治疗术语”的滥用如何破坏真实的人际沟通与心理诊疗。
文章指出,互联网上对‘煤气灯操纵’、‘NPD’等心理学术语的滥用和标签化,正在破坏现实人际关系中的有效沟通。
AGI Hunt · AI/Tech · 速览
探讨 AI 时代“软件即内容”的趋势,认为互动内容将是短视频后的下一个爆发点。
文章探讨了AI时代下一种新的内容形态——互动内容,并以产品Loopit为例,说明AI如何降低互动内容的创作门槛。
InfoQ · AI/Tech · 速览
阿里的技术专家分享关于 Vibe Coding 工具的设计原则与行业实践。
阿里巴巴高级技术专家分享Vibe Coding工具在构建过程中遇到的问题、产品设计原则及技术创新实践。
量子位 · AI/Tech · 速览
百度ERNIE 5.0发布技术报告,揭秘超大规模MoE架构及模态无关的路由调度机制。
百度发布ERNIE 5.0技术报告,其采用超稀疏MoE架构实现万亿参数规模,并通过模态无关的专家路由机制,首次实现了四种模态的原生自回归统一。
新智元 · AI/Tech · 速览
Yuan 3.0 Flash通过RIRM和RAPO算法解决大模型“过度思考”导致的Token浪费问题。
YuanLab.ai团队发布Yuan 3.0 Flash模型,通过RAPO和RIRM算法创新,旨在解决大模型‘过度思考’问题,以更少算力实现更高智能。
探索AGI · AI/Tech · 速览
Agent设计的核心在于上下文工程(Context Engineering)而非Prompt,需明确界定AI的权限边界。
文章以美团智能客服面试题为引,指出设计多轮对话Agent的核心在于精细的上下文工程,而非复杂的Prompt设计。
InfoQ · AI/Tech · 速览
介绍开源 AI 编程工具 OpenCode 的特性与优势。
开源AI编程工具OpenCode正式亮相,以其对75种以上模型的广泛兼容性、隐私优先架构和多平台集成能力吸引开发者。
量子位 · AI/Tech · 速览
展示如何利用 AI 工具将枯燥的文档转化为多邻国式的互动学习课程。
智谱清言推出‘学习搭子’功能,利用AI将海量知识(如论文、视频、GitHub项目)转化为多邻国式的交互课程,提升学习效率。