ai-daily-feed

AI Daily Harvest — 2026-02-13

Overview

Must Read — ICLR 2026 Oral论文提出SwingArena评测基准 · 华为 MindScale 架构深度解析：自进化 Agent 工作流与…

25 articles: 2 must read · 9 worth reading · 14 neutral

Top sources: InfoQ (6) · 机器之心 (3) · 量子位 (3)

88 [ICLR 2026 oral

AI代码真能进生产环境？SwingArena：从「写对代码Commit」到「通过CI审…](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2651016616&idx=3&sn=624e454e083a33187f767ac1244eab1f) — 机器之心

86 华为升级行业Agent算法架构！MindScale自己写prompt和工作流，KV Cache减少5.7倍token — 量子位

Must Read

ICLR 2026 oral | AI代码真能进生产环境？SwingArena：从「写对代码Commit」到「通过CI审查」 — 88/100

机器之心 · AI/Tech · 收藏

ICLR 2026 Oral论文提出SwingArena评测基准，将代码评测从‘跑通单测’升级为‘通过真实CI与对抗审查’。

SwingArena是一个旨在评测AI代码能否通过真实持续集成（CI）流水线的对抗式基准。它通过让两个模型分别扮演提交者和审查者，在真实CI环境中反复交锋，以填补现有代码评测仅关注单元测试的空白。

评测重点从“写对代码”转向“通过CI审查”，模拟真实软件开发中的审查与迭代过程。
引入检索增强流水线RACG，在有限上下文窗口内为模型定位关键代码片段，以应对真实项目的庞大规模。

华为升级行业Agent算法架构！MindScale自己写prompt和工作流，KV Cache减少5.7倍token — 86/100

量子位 · AI/Tech · 收藏

华为 MindScale 架构深度解析：自进化 Agent 工作流与 Prompt 自动化闭环。

华为诺亚方舟实验室发布了面向行业应用的算法包MindScale，旨在系统性解决行业Agent开发中工作流手工维护、历史知识复用难、训推效率瓶颈和复杂推理测评四大核心挑战。

包含EvoFabric算法，可从自然语言文档自动生成可执行的Agent工作流，并支持基于记忆的演进。
提出C-MOP等prompt自动优化器，实现“反馈->演进”的提示词优化闭环，并在特定场景取得超过20%的精度提升。

Worth Reading

大模型桌游试玩员来了：用五大画像模拟「千人千面」，评分精准度超越GPT-5.1 — 84/100

量子位 · AI/Tech · 精读

MeepleLM：结合 MDA 框架和玩家画像的垂类大模型设计逻辑解析。

MeepleLM是首个能模拟真实玩家视角并基于动态游戏体验给出建设性批评的虚拟桌游试玩模型。它通过引入MDA游戏设计理论构建推理核心，并内化五种典型玩家画像来模拟“千人千面”的感受。

构建了包含1,727本结构化桌游规则手册与15万条玩家真实评论的专属数据集，建立了从“客观规则”到“主观体验”的映射。
在还原玩家口碑与评分分布的精准度上，显著优于GPT-5.1和Gemini3-Pro等通用模型。

年末 AI 回顾：从模型到应用，从技术到商战，拽住洪流中的意义之线 — 82/100

晚点LatePost · AI/Tech · 精读

2025 年 AI 产业大地图复盘，涵盖模型演进、商业竞争与底层逻辑。

文章回顾了2025年至2026年初AI领域的关键进展，涵盖模型、应用、巨头竞争、创业公司、具身智能、硬件及人文影响等多个主题，试图在快速变化中梳理出发展脉络。

重点分析了Agentic Model（支持Agent能力的模型）的崛起，并以DeepSeek-R1的爆火为例，探讨了推理模型的重要性及其影响力扩散路径。
指出技术变化是驱动本轮AI热潮早期发展的最重要因素，是推演产品形态和商业格局的重要基点。

视觉强≠能干活！清北普林斯顿等开源WorldArena，世界模型评测被颠覆 — 82/100

机器之心 · AI/Tech · 精读

多校联合发布WorldArena评测体系，揭示了具身模型视觉质量与任务能力低相关性的现状，重构了世界模型评测范式。

多所顶尖机构联合开源WorldArena评测体系，首次将世界模型置于具身任务中进行功能测试，揭示模型视觉质量与任务执行能力相关性低。

提出六维视觉评测和三大具身任务评测，颠覆了以视觉质量为核心的评测范式。
推出EWMScore综合评分体系，与人类主观评估高度正相关。

AI、AI、AI，一天到晚都是AI，这背后是不是有什么阴谋？ — 81/100

追问nextquestion · AI/Tech · 精读

批判性拆解 AGI 叙事背后的权力逻辑，指出其如何通过“未来风险”掩盖“当下问题”。

文章批判性地指出，关于超级智能（AGI）的叙事是一种权力装置，它将公众注意力从AI当前造成的现实问题（如劳动剥削、算法偏见）转移到对未来假设性风险的讨论上，从而为科技巨头争取更少的监管和更多的资源。

认为最积极的超级智能预言家正是构建这些系统的始作俑者，他们通过警告未来风险将自己定位为不可或缺的守护者。
指出各国政府的监管框架（如美国行政命令、英国前沿AI工作坊、欧盟AI法案）正将政治能量聚集在未来的、推测性的系统风险上，而非当下的危害。

Open Responses 规范实现智能体式 LLM 工作流的统一 — 81/100

InfoQ · AI/Tech · 精读

OpenAI发布Open Responses规范，通过标准化原子条目和工具调用模型，解决AI Agent开发的API碎片化难题。

OpenAI发布了Open Responses开放规范，旨在实现智能体式AI工作流的标准化，减少API碎片化，使开发者在专有模型与开源模型之间切换时无需重写集成代码。

规范将条目、推理可观测性、工具执行等概念正式化，允许模型服务商在自身基础设施内管理多步骤的智能体工作流。
通过区分内部工具和外部工具，明确了编排逻辑的归属，并原生支持多模态输入、流式事件和跨服务商工具调用。

开源多模态推理「破壁」时刻：MMFineReason助力4B逆袭30B — 79/100

机器之心 · AI/Tech · 精读

MMFineReason通过100%开源管道合成高质量CoT数据，使4B小模型在多模态推理上实现跨级超越。

上海AI实验室开源MMFineReason框架与数据集，通过高质量、高推理密度的数据合成，使小参数模型在多模态推理任务上实现性能跃迁。

4B参数模型性能接近30B模型，8B模型超越部分顶级闭源模型。
通过难度感知过滤，仅用7%的高难度数据即可达到全量数据性能。

视听分离SOTA提速6倍！清华发布首个6M高性能模型｜ICLR’26 — 77/100

新智元 · AI/Tech · 精读

清华大学提出Dolphin模型，利用离散化视觉编码和GLA模块实现高效视听语音分离，显著降低端侧部署成本。

清华大学团队发布Dolphin模型，通过离散化视觉编码和热扩散注意力机制，以仅6M参数实现视听语音分离SOTA性能，推理速度提升6倍。

解决了高性能模型参数量大、轻量化模型依赖迭代推理导致高延迟的困境。
为端侧设备部署高清语音分离提供了新方案。

Z Tech｜ICLR 2026字节发布：从短句到篇章，DiscoX为长文翻译提供评测新范式 — 77/100

Z Potentials · AI/Tech · 精读

字节跳动发布 DiscoX 框架，定义了基于 Multi-Agent 编排的长文翻译无需参考（No-ref）评测范式。

字节跳动发布DiscoX长文翻译评测数据集与无参考评测框架Metric-S，旨在评估模型在真实场景下的长文翻译能力。

评测单元为平均1712 tokens的长篇章，重点考察逻辑一致性、术语精确性等。
Metric-S通过多智能体工作流进行无参考评估，提供细粒度归因，降低人工标注成本。

LinkedIn 重构服务发现：在大规模环境中用 Kafka 和 xDS 取代 Zookeeper — 75/100

InfoQ · AI/Tech · 精读

LinkedIn 详解如何利用 Kafka 和 xDS 协议重构服务发现系统，解决 ZooKeeper 的扩展性瓶颈。

LinkedIn工程团队用Kafka和xDS协议重构了其服务发现平台，以解决基于ZooKeeper的传统架构的可扩展性问题。

新架构将写入（Kafka）与读取（xDS）分离，从强一致性转向最终一致性。
实施双模式迁移策略，实现了零停机升级，数据传播延迟显著降低。

Neutral

高中肄业、25岁融资15亿，00后创始人宣战英伟达，不拼算力拼搬运 — 74/100

DeepTech深科技 · AI/Tech · 精读

初创公司OLIX提出摒弃HBM，采用SRAM+光子学方案，旨在通过解决“搬运”能效比瓶颈挑战英伟达的垄断地位。

00后创始人詹姆斯·达克穆比创办的芯片初创公司OLIX融资15亿，其核心方案是结合SRAM与光子学，试图绕开英伟达依赖的HBM内存瓶颈。

认为AI推理瓶颈在于数据搬运能耗，而非计算本身。
方案旨在通过将数据紧邻计算单元存放，减少搬运代价，以应对未来AI任务长度爆炸式增长。

Seedance 2.0 最全上手指南：4 大入口、火爆玩法、详细提示词都在这 — 73/100

APPSO · AI/Tech · 精读

Seedance 2.0 视频生成模型的功能拆解与实操指令指南。

文章介绍了AI视频生成模型Seedance 2.0的多种火爆玩法，主要包括利用其强大的参考能力，将用户形象替换到电影或视频中，以及结合知名IP形象进行无限创作。

Seedance 2.0能同时参考视频的动作运镜和人脸，生成动作流畅、人脸一致、场景还原度高的视频。
玩法多样，包括穿越到电影中、创作IP大杂烩视频、表达情绪以及生成动漫类作品，引发了病毒式传播。

GLM-5真够顶的：超24小时自己跑代码，700次工具调用、800次切上下文！ — 73/100

量子位 · AI/Tech · 精读

GLM-5 开源长任务能力实测，展示其在复杂代码和全栈开发中的表现。

GLM-5开源模型展示了强大的长任务执行能力，能够连续运行超过24小时，进行数百次工具调用和上下文切换，独立完成从零手搓一个GBA模拟器这样的复杂工程任务。

在无并行、无参考代码、关闭网络搜索的条件下，稳定完成了涉及CPU指令集、内存、音频、图形渲染的复杂项目。
在多项基准测试中，其编程能力与Claude Opus 4.5对齐，并在衡量经营能力的Vending Bench 2中取得开源第一的成绩。

喝点VC｜a16z最新2026大预测：下一波可观测性的浪潮将是物理的，而非数字的 — 73/100

Z Potentials · AI/Tech · 精读

a16z 预测 2026 年趋势：工业基础的 AI 原生化与物理世界的可观测性将成为核心。

a16z预测2026年AI应用趋势，指出下一波可观测性浪潮将聚焦物理世界，AI将更深地融入能源、制造等实体产业。

认为主流用户“提示框”将消亡，AI应用会主动观察并介入用户工作。
强调美国正在构建以AI和软件为核心的下一代工业基础。

面向 AI Agents 的高性能数据基座：架构和工程实践 — 72/100

InfoQ · AI/Tech · 精读

探讨从SaaS到Agent时代的软件范式变革，及由此带来的数据基座架构与工程挑战。

演讲探讨了AI Agent驱动的原生应用对数据基座提出的新挑战，并分享了面向此场景的高性能数据基座架构与工程实践。

指出AI原生应用在开发初期就需要外部数据作为“燃料”，数据的格式和规模可能不受开发者完全掌控，这与传统SaaS软件数据作为“排放物”的模式不同。
AI Agent与用户交互会产生更多数据，且需要处理多模态、访问模式和流量差异巨大的数据，对底层数据平台提出了高性能和灵活性的要求。

英伟达重磅研究：看完44000小时人类视频后，机器人开始学会“想象”物理世界了 — 71/100

DeepTech深科技 · AI/Tech · 精读

英伟达发布DreamDojo模型，通过大规模人类视频预训练及潜在动作表征，解决了具身智能数据稀缺及动作控制接口缺失的难题。

英伟达发布DreamDojo研究，通过44,000小时第一人称人类视频训练通用机器人世界模型，让机器人具备可控的“想象力”来预演物理交互。

利用大规模人类视频弥补高质量机器人操作数据的缺口。
模型通过“潜在动作”表征，弥合人类与机器人之间的“具身差异”。

“公司终局是纯 AI、纯机器人！”马斯克酒后激进预言：让机器人造机器人，未来要靠AI留着人类智能 — 70/100

InfoQ · AI/Tech · 精读

马斯克深度对谈：探讨太空算力的能源终局解及“纯 AI+机器人”的公司闭环形态。

马斯克在对话中阐述其激进观点，认为最强公司形态将是纯AI与纯机器人的闭环，并主张将AI算力部署到太空以解决地面电力扩张瓶颈。

指出未来AI发展的瓶颈是电力、制造能力等物理供给链，而非模型本身。
预测五年后太空每年新增并运行的AI总量将超过地球历史累计总量。

GLM-5 涨价背后的真相：算力稀缺才刚刚开始 — 68/100

有机大橘子 · AI/Tech · 速览

分析智谱 GLM-5 涨价背后的算力供需失衡，提出 Agent 时代 Token 消耗的三重指数增长逻辑。

文章分析GLM-5涨价限购现象，认为其背后是AI算力供给线性增长与需求指数级增长（模型能力提升、Agent爆发、多模态消耗）之间的结构性矛盾。

指出GLM-5的底气在于其Coding和Agent能力已逼近顶级闭源模型，并能执行长程工程任务。
认为算力稀缺将长期存在，价格战在稀缺资源上不适用。

一天两枚“代码核弹”：OpenAI 祭出首个“主打实时协作”的 Codex 模型，谷歌放出 Gemini Deep Think，码力冲到世界前8 — 68/100

InfoQ · AI/Tech · 速览

报道 OpenAI 发布实时协作模型 Codex-Spark 及谷歌 Gemini Deep Think 的动态。

OpenAI发布专为实时编码设计的GPT-5.3-Codex-Spark模型，旨在将人机交互延迟压缩到“无感”程度。

该模型是OpenAI与Cerebras芯片合作的首个技术里程碑。
针对高频、碎片化的即时编码反馈场景进行优化，支持实时协作与中断。

AI Agent也有体检中心了？诊断级安全框架AgentDoG正式开源 — 66/100

PaperAgent · AI/Tech · 速览

上海 AI 实验室开源 AgentDoG 框架，将 Agent 安全从简单的拦截提升到三维诊断层面。

上海人工智能实验室开源AgentDoG框架，这是全球首个具备深度诊断能力的AI智能体安全护栏，能对智能体行为进行三维风险分析与归因。

提出“风险来源、失效模式、真实危害”三维分类法，超越传统二元安全判断。
通过自动化合成管道构建了覆盖万级工具库的大规模训练数据。

“代码 + 编译器”要消失了？马斯克在 xAI 全员会上放话：到今年年底，AI 或将直接生成二进制 — 65/100

InfoQ · AI/Tech · 速览

马斯克预言AI将跳过代码直接生成二进制，并公开xAI全员会视频回应离职潮与组织重组。

马斯克在xAI全员会上预测，到2026年底，AI可能不再编写传统代码，而是直接生成优化后的二进制程序，从而彻底改变软件开发流程。

马斯克将近期xAI的联合创始人及核心工程师离职潮定性为因公司规模扩大而进行的组织结构调整（裁员），而非绩效问题。
他透露Grok Code有望在2到3个月内达到业界顶尖（state-of-the-art）水平。

加州理工翁玉林团队证实，塔克拉玛干沙漠正向全球碳汇转型 — 62/100

DeepTech深科技 · AI/Tech · 速览

加州理工团队通过长周期卫星数据证实，塔克拉玛干沙漠的生态修复工程已使其转型为显著的碳汇。

加州理工团队通过卫星数据证实，中国塔克拉玛干沙漠边缘的生态恢复工程已使其转变为碳汇，夏季吸碳能力显著。

研究显示，尽管年降雨量未增，但植被覆盖度和光合活性逐年提升，增强了碳吸收。
估算若将造林模式推广至全国，年碳吸收量可达中国全年碳排放的14%。

具身AI变天了！这是我分析完7篇最新Paper得出的结论~ — 61/100

PaperAgent · AI/Tech · 速览

通过对7篇最新论文的梳理，文章总结了具身AI在世界模型、异步执行及低成本部署上的最新趋势。

文章分析多篇来自蚂蚁、小米、高德的具身AI论文，认为该领域正发生范式变革，从封闭的学术盆景转向开源、可落地的工业森林。

蚂蚁开源了世界模型和VLA框架，小米实现了VLA在消费级显卡上的实时运行。
指出具身智能的核心正从“感知”转向“预见”和高效执行。

300亿美金为AI新王加冕！Anthropic估值狂飙至3800亿，马斯克急了 — 60/100

新智元 · AI/Tech · 速览

Anthropic估值达3800亿美金，其企业级战略和Claude Code产品成为核心营收引擎。

Anthropic完成300亿美元G轮融资，估值达3800亿美元，其企业级AI战略，特别是Claude Code产品，成为增长核心引擎。

首次披露年化营收达140亿美元，过去三年增长超10倍。
Claude Code贡献显著，全球4%的GitHub公开提交代码来自该工具。

This site is open source. Improve this page.