ai-daily-feed

AI Daily Harvest — 2026-02-13

Overview

Must Read — ICLR 2026 Oral论文提出SwingArena评测基准 · 华为 MindScale 架构深度解析:自进化 Agent 工作流与…

25 articles: 2 must read · 9 worth reading · 14 neutral

Top sources: InfoQ (6) · 机器之心 (3) · 量子位 (3)

Must Read

ICLR 2026 oral | AI代码真能进生产环境?SwingArena:从「写对代码Commit」到「通过CI审查」 — 88/100

机器之心 · AI/Tech · 收藏

ICLR 2026 Oral论文提出SwingArena评测基准,将代码评测从‘跑通单测’升级为‘通过真实CI与对抗审查’。

SwingArena是一个旨在评测AI代码能否通过真实持续集成(CI)流水线的对抗式基准。它通过让两个模型分别扮演提交者和审查者,在真实CI环境中反复交锋,以填补现有代码评测仅关注单元测试的空白。


华为升级行业Agent算法架构!MindScale自己写prompt和工作流,KV Cache减少5.7倍token — 86/100

量子位 · AI/Tech · 收藏

华为 MindScale 架构深度解析:自进化 Agent 工作流与 Prompt 自动化闭环。

华为诺亚方舟实验室发布了面向行业应用的算法包MindScale,旨在系统性解决行业Agent开发中工作流手工维护、历史知识复用难、训推效率瓶颈和复杂推理测评四大核心挑战。


Worth Reading

大模型桌游试玩员来了:用五大画像模拟「千人千面」,评分精准度超越GPT-5.1 — 84/100

量子位 · AI/Tech · 精读

MeepleLM:结合 MDA 框架和玩家画像的垂类大模型设计逻辑解析。

MeepleLM是首个能模拟真实玩家视角并基于动态游戏体验给出建设性批评的虚拟桌游试玩模型。它通过引入MDA游戏设计理论构建推理核心,并内化五种典型玩家画像来模拟“千人千面”的感受。


年末 AI 回顾:从模型到应用,从技术到商战,拽住洪流中的意义之线 — 82/100

晚点LatePost · AI/Tech · 精读

2025 年 AI 产业大地图复盘,涵盖模型演进、商业竞争与底层逻辑。

文章回顾了2025年至2026年初AI领域的关键进展,涵盖模型、应用、巨头竞争、创业公司、具身智能、硬件及人文影响等多个主题,试图在快速变化中梳理出发展脉络。


视觉强≠能干活!清北普林斯顿等开源WorldArena,世界模型评测被颠覆 — 82/100

机器之心 · AI/Tech · 精读

多校联合发布WorldArena评测体系,揭示了具身模型视觉质量与任务能力低相关性的现状,重构了世界模型评测范式。

多所顶尖机构联合开源WorldArena评测体系,首次将世界模型置于具身任务中进行功能测试,揭示模型视觉质量与任务执行能力相关性低。


AI、AI、AI,一天到晚都是AI,这背后是不是有什么阴谋? — 81/100

追问nextquestion · AI/Tech · 精读

批判性拆解 AGI 叙事背后的权力逻辑,指出其如何通过“未来风险”掩盖“当下问题”。

文章批判性地指出,关于超级智能(AGI)的叙事是一种权力装置,它将公众注意力从AI当前造成的现实问题(如劳动剥削、算法偏见)转移到对未来假设性风险的讨论上,从而为科技巨头争取更少的监管和更多的资源。


Open Responses 规范实现智能体式 LLM 工作流的统一 — 81/100

InfoQ · AI/Tech · 精读

OpenAI发布Open Responses规范,通过标准化原子条目和工具调用模型,解决AI Agent开发的API碎片化难题。

OpenAI发布了Open Responses开放规范,旨在实现智能体式AI工作流的标准化,减少API碎片化,使开发者在专有模型与开源模型之间切换时无需重写集成代码。


开源多模态推理「破壁」时刻:MMFineReason助力4B逆袭30B — 79/100

机器之心 · AI/Tech · 精读

MMFineReason通过100%开源管道合成高质量CoT数据,使4B小模型在多模态推理上实现跨级超越。

上海AI实验室开源MMFineReason框架与数据集,通过高质量、高推理密度的数据合成,使小参数模型在多模态推理任务上实现性能跃迁。


视听分离SOTA提速6倍!清华发布首个6M高性能模型|ICLR’26 — 77/100

新智元 · AI/Tech · 精读

清华大学提出Dolphin模型,利用离散化视觉编码和GLA模块实现高效视听语音分离,显著降低端侧部署成本。

清华大学团队发布Dolphin模型,通过离散化视觉编码和热扩散注意力机制,以仅6M参数实现视听语音分离SOTA性能,推理速度提升6倍。


Z Tech|ICLR 2026字节发布:从短句到篇章,DiscoX为长文翻译提供评测新范式 — 77/100

Z Potentials · AI/Tech · 精读

字节跳动发布 DiscoX 框架,定义了基于 Multi-Agent 编排的长文翻译无需参考(No-ref)评测范式。

字节跳动发布DiscoX长文翻译评测数据集与无参考评测框架Metric-S,旨在评估模型在真实场景下的长文翻译能力。


LinkedIn 重构服务发现:在大规模环境中用 Kafka 和 xDS 取代 Zookeeper — 75/100

InfoQ · AI/Tech · 精读

LinkedIn 详解如何利用 Kafka 和 xDS 协议重构服务发现系统,解决 ZooKeeper 的扩展性瓶颈。

LinkedIn工程团队用Kafka和xDS协议重构了其服务发现平台,以解决基于ZooKeeper的传统架构的可扩展性问题。


Neutral

高中肄业、25岁融资15亿,00后创始人宣战英伟达,不拼算力拼搬运 — 74/100

DeepTech深科技 · AI/Tech · 精读

初创公司OLIX提出摒弃HBM,采用SRAM+光子学方案,旨在通过解决“搬运”能效比瓶颈挑战英伟达的垄断地位。

00后创始人詹姆斯·达克穆比创办的芯片初创公司OLIX融资15亿,其核心方案是结合SRAM与光子学,试图绕开英伟达依赖的HBM内存瓶颈。


Seedance 2.0 最全上手指南:4 大入口、火爆玩法、详细提示词都在这 — 73/100

APPSO · AI/Tech · 精读

Seedance 2.0 视频生成模型的功能拆解与实操指令指南。

文章介绍了AI视频生成模型Seedance 2.0的多种火爆玩法,主要包括利用其强大的参考能力,将用户形象替换到电影或视频中,以及结合知名IP形象进行无限创作。


GLM-5真够顶的:超24小时自己跑代码,700次工具调用、800次切上下文! — 73/100

量子位 · AI/Tech · 精读

GLM-5 开源长任务能力实测,展示其在复杂代码和全栈开发中的表现。

GLM-5开源模型展示了强大的长任务执行能力,能够连续运行超过24小时,进行数百次工具调用和上下文切换,独立完成从零手搓一个GBA模拟器这样的复杂工程任务。


喝点VC|a16z最新2026大预测:下一波可观测性的浪潮将是物理的,而非数字的 — 73/100

Z Potentials · AI/Tech · 精读

a16z 预测 2026 年趋势:工业基础的 AI 原生化与物理世界的可观测性将成为核心。

a16z预测2026年AI应用趋势,指出下一波可观测性浪潮将聚焦物理世界,AI将更深地融入能源、制造等实体产业。


面向 AI Agents 的高性能数据基座:架构和工程实践 — 72/100

InfoQ · AI/Tech · 精读

探讨从SaaS到Agent时代的软件范式变革,及由此带来的数据基座架构与工程挑战。

演讲探讨了AI Agent驱动的原生应用对数据基座提出的新挑战,并分享了面向此场景的高性能数据基座架构与工程实践。


英伟达重磅研究:看完44000小时人类视频后,机器人开始学会“想象”物理世界了 — 71/100

DeepTech深科技 · AI/Tech · 精读

英伟达发布DreamDojo模型,通过大规模人类视频预训练及潜在动作表征,解决了具身智能数据稀缺及动作控制接口缺失的难题。

英伟达发布DreamDojo研究,通过44,000小时第一人称人类视频训练通用机器人世界模型,让机器人具备可控的“想象力”来预演物理交互。


“公司终局是纯 AI、纯机器人!”马斯克酒后激进预言:让机器人造机器人,未来要靠AI留着人类智能 — 70/100

InfoQ · AI/Tech · 精读

马斯克深度对谈:探讨太空算力的能源终局解及“纯 AI+机器人”的公司闭环形态。

马斯克在对话中阐述其激进观点,认为最强公司形态将是纯AI与纯机器人的闭环,并主张将AI算力部署到太空以解决地面电力扩张瓶颈。


GLM-5 涨价背后的真相:算力稀缺才刚刚开始 — 68/100

有机大橘子 · AI/Tech · 速览

分析智谱 GLM-5 涨价背后的算力供需失衡,提出 Agent 时代 Token 消耗的三重指数增长逻辑。

文章分析GLM-5涨价限购现象,认为其背后是AI算力供给线性增长与需求指数级增长(模型能力提升、Agent爆发、多模态消耗)之间的结构性矛盾。


一天两枚“代码核弹”:OpenAI 祭出首个“主打实时协作”的 Codex 模型,谷歌放出 Gemini Deep Think,码力冲到世界前8 — 68/100

InfoQ · AI/Tech · 速览

报道 OpenAI 发布实时协作模型 Codex-Spark 及谷歌 Gemini Deep Think 的动态。

OpenAI发布专为实时编码设计的GPT-5.3-Codex-Spark模型,旨在将人机交互延迟压缩到“无感”程度。


AI Agent也有体检中心了?诊断级安全框架AgentDoG正式开源 — 66/100

PaperAgent · AI/Tech · 速览

上海 AI 实验室开源 AgentDoG 框架,将 Agent 安全从简单的拦截提升到三维诊断层面。

上海人工智能实验室开源AgentDoG框架,这是全球首个具备深度诊断能力的AI智能体安全护栏,能对智能体行为进行三维风险分析与归因。


“代码 + 编译器”要消失了?马斯克在 xAI 全员会上放话:到今年年底,AI 或将直接生成二进制 — 65/100

InfoQ · AI/Tech · 速览

马斯克预言AI将跳过代码直接生成二进制,并公开xAI全员会视频回应离职潮与组织重组。

马斯克在xAI全员会上预测,到2026年底,AI可能不再编写传统代码,而是直接生成优化后的二进制程序,从而彻底改变软件开发流程。


加州理工翁玉林团队证实,塔克拉玛干沙漠正向全球碳汇转型 — 62/100

DeepTech深科技 · AI/Tech · 速览

加州理工团队通过长周期卫星数据证实,塔克拉玛干沙漠的生态修复工程已使其转型为显著的碳汇。

加州理工团队通过卫星数据证实,中国塔克拉玛干沙漠边缘的生态恢复工程已使其转变为碳汇,夏季吸碳能力显著。


具身AI变天了!这是我分析完7篇最新Paper得出的结论~ — 61/100

PaperAgent · AI/Tech · 速览

通过对7篇最新论文的梳理,文章总结了具身AI在世界模型、异步执行及低成本部署上的最新趋势。

文章分析多篇来自蚂蚁、小米、高德的具身AI论文,认为该领域正发生范式变革,从封闭的学术盆景转向开源、可落地的工业森林。


300亿美金为AI新王加冕!Anthropic估值狂飙至3800亿,马斯克急了 — 60/100

新智元 · AI/Tech · 速览

Anthropic估值达3800亿美金,其企业级战略和Claude Code产品成为核心营收引擎。

Anthropic完成300亿美元G轮融资,估值达3800亿美元,其企业级AI战略,特别是Claude Code产品,成为增长核心引擎。