ai-daily-feed

AI Daily Harvest — 2026-01-28

Overview

Must Read — DeepSeek-OCR-2 技术拆解：首创视觉因果流 · 深入探讨了 AI Agent 竞争重心从工具调用转向“独立记忆系统（Memory… · 提出了针对 AI Agent 的“历史投毒”和“指令检测”防御范式 (+2 more)

23 articles: 5 must read · 8 worth reading · 10 neutral

Top sources: InfoQ (3) · Z Potentials (3) · PaperWeekly (2)

91 告别CLIP！DeepSeek-OCR-2开源：首创视觉因果流，用LLM重构视觉编码 — PaperWeekly
86 Agent 真正的护城河，正在从工具转向记忆资产 — Founder Park
86 AI Agent 是长期运行的“风险系统”，如果你还只在防 Prompt Injection，说明已经落后一代了 — InfoQ

85 [AAAI 2026

告别Attention！北大清华首创波动方程建模，视觉速度精度双超越](https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247717257&idx=2&sn=9b768f8fdff60981caef96a2f7ccf1c0) — PaperWeekly

85 测试时Scaling或是最大错觉，Google：R1/O1强推理另有原因 — PaperAgent

Must Read

告别CLIP！DeepSeek-OCR-2开源：首创视觉因果流，用LLM重构视觉编码 — 91/100

PaperWeekly · AI/Tech · 收藏

DeepSeek-OCR-2 技术拆解：首创视觉因果流，通过弃用 CLIP 并利用 LLM 原生编码解决文档解析中的拓扑顺序问题。

DeepSeek开源DeepSeek-OCR-2，提出视觉因果流范式，用LLM替代CLIP作为视觉编码器，旨在解决文档解析中因光栅扫描导致的语义与序列错配问题。

首创视觉因果流，将2D图像理解重构为阅读逻辑推理与任务逻辑推理两阶段过程。
采用DeepEncoder V2架构，引入可学习查询与因果注意力机制，实现视觉Token的动态语义重排。

Agent 真正的护城河，正在从工具转向记忆资产 — 86/100

Founder Park · AI/Tech · 收藏

深入探讨了 AI Agent 竞争重心从工具调用转向“独立记忆系统（Memory Layer）”的必然性及工程挑战。

文章认为AI Agent的竞争护城河正从工具能力转向记忆系统，独立的、工程化的记忆层是解决当前Agent连续性问题的关键。

指出单纯依赖长上下文或RAG无法解决真实业务中持续增长、需要版本管理的记忆问题。
强调需要一套独立的Memory层来管理用户画像、跨对话记忆，以实现更主动、更个性化的Agent。

AI Agent 是长期运行的“风险系统”，如果你还只在防 Prompt Injection，说明已经落后一代了 — 86/100

InfoQ · AI/Tech · 收藏

提出了针对 AI Agent 的“历史投毒”和“指令检测”防御范式，超越了简单的 Prompt 注入防御。

CyberArk 提出一种分层防御流水线，通过“指令检测”与“历史感知校验”来保护 AI Agent，防范恶意输入和上下文历史投毒攻击。

将进入 Agent 上下文的所有外部文本（包括 API 响应）都视为不可信数据。
使用基于 LLM 的“指令检测器”识别文本中的指令意图，并引入“蜜罐动作”作为安全陷阱来诱捕恶意行为。
通过“历史感知校验”防止在多轮交互中零散恶意指令片段累积拼接成完整攻击指令。

AAAI 2026 | 告别Attention！北大清华首创波动方程建模，视觉速度精度双超越 — 85/100

PaperWeekly · AI/Tech · 收藏

北大清华推出的 WaveFormer 架构，利用波动方程代替 Attention 实现 O(N log N) 复杂度的全局特征建模。

北大清华团队提出WaveFormer，首次将波动方程作为视觉主干网络的核心全局建模机制，以替代注意力机制，实现全局交互与高频细节保留。

将特征图视为遵循欠阻尼波动方程演化的空间信号，实现频率-时间解耦。
提出WPO算子，在频域进行全局语义传播，计算复杂度为O(N log N)，低于注意力机制。

测试时Scaling或是最大错觉，Google：R1/O1强推理另有原因 — 85/100

PaperAgent · AI/Tech · 收藏

解读Google最新研究，指出推理模型的提升源于“思想社会”的隐式多智能体互动，而非单纯的计算时间增加。

Google 研究认为，o1、R1 等模型的强推理能力提升，主要源于模型内部自发形成了类似多智能体辩论的“思想社会”机制，而非单纯延长计算时间。

通过稀疏自编码器（SAE）干预，发现增强“对话感”特征能显著提升推理任务准确率。
对思维链的分析显示，推理模型比同尺寸指令模型表现出更高的问答、冲突与和解等“社会性”行为频率。
仅奖励最终答案正确的强化学习，也能让模型自发产生对话行为，并提升性能。

Worth Reading

被誉为大统一的预测编码，为什么是错的？ — 84/100

追问nextquestion · AI/Tech · 精读

文章深度对比了预测编码（PC）理论与偏向竞争理论（BELIEF），挑战了大脑仅作为“误差削减机器”的传统大统一框架。

文章基于新神经生理学证据，质疑预测编码理论作为大脑统一解释框架的正确性，并介绍了与之竞争的偏向竞争理论。

指出新证据与预测编码理论的核心原理（通过反馈连接传递预测以削减误差）不符。
介绍偏向竞争理论，认为感知是视觉表征间激烈竞争的结果，并提及大脑可能采用动态的“模型集合”策略。

我收集了 12 条技术社区疯传的 Claude Prompt，如今这篇帖子火遍全网 — 84/100

InfoQ · AI/Tech · 精读

整理了 12 条侧重于批判性思维、逻辑拆解和压力测试的高阶 Claude 提示词技巧。

一篇汇总了 12 条“被反复验证有效”的 Claude Prompt 的帖子在技术社区走红，这些提示词的核心是引导模型进行质疑、拆解和反思，而非直接产出结果。

提示词清单聚焦于批判性思维任务，如“矛盾查找器”、“审阅者 #2”、“倒着解释”、“假设压力测试”等。
这些提示旨在将研究、审稿等高级认知工作委托给 AI，提升分析和思考深度。
帖子传播性很强，尽管“60秒完成10小时工作”的说法有夸张成分。

Claude Code 浏览器自动化方案，怎么选？ — 84/100

刘小排r · AI/Tech · 精读

对比了Claude Code环境下三大浏览器自动化方案的优劣，并给出了明确的选择建议与场景说明。

文章对比了 Claude Code 中三个主流的浏览器自动化方案（Agent Browser, DevTools MCP, Playwright MCP），并给出了根据场景选择的建议。

Agent Browser 最轻量、省 Token，适合日常快速浏览、截图、填表等简单操作。
Playwright MCP 最专业、稳定，适合测试验证、复杂流程自动化等场景。
DevTools MCP 最适合调试排错、性能分析和网络请求抓取，功能最全能。

曾在一线手搓材料，如今他要为每家企业配一位AI CTO | 专访律动造物谢童 — 81/100

DeepTech深科技 · AI/Tech · 精读

通过 MiST 框架量化科学大模型的“潜在可解性”，将 RL 训练从经验主义转向可预测的工程路径。

律动造物创始人谢童团队与EPFL合作，提出了MiST（中段科学预训练）框架，旨在解决通用大模型在化学、材料科学等硬核科学领域推理不稳定、输出不准确的问题。该框架通过量化评估模型的“潜在可解性”，为后续强化学习提供可靠基础，使科学推理模型的训练走向工程化路径。

MiST框架在强化学习前引入内生诊断指标（SCS化学语法得分与CCS化学能力得分），量化模型的“潜在可解性”。
经MiST和强化学习训练的CheMiST模型，在有机反应命名、无机材料生成等任务上准确率获得数倍提升。

深度｜蚂蚁灵波上桌，不止“性能超越Pi 0.5”，更是具身智能新分工时代 — 79/100

Z Potentials · AI/Tech · 精读

介绍了具身大模型 LingBot-VLA 及其开源后训练工具链，探讨具身智能的“智能层”分工。

蚂蚁灵波开源其具身大模型 LingBot-VLA 及全链路工具链，旨在为行业提供一个高性能、可泛化的智能基座，以解决机器人领域算法孤岛和全栈自研成本高的问题。

在真实世界操作基准测试中，LingBot-VLA 的性能超越对标模型 Pi0.5。
模型与高精度空间感知模型 LingBot-Depth 协同，增强了机器人对3D空间的理解和精细操作能力。
灵波科技定位为智能层赋能者，不下场造硬件，希望通过开源基座推动产业规模化。

告别 AI 土味审美！Kimi K2.5 实测：扔个视频复刻 iOS 级丝滑动效 — 78/100

歸藏的AI工具箱 · AI/Tech · 精读

Kimi K2.5 视觉多模态能力的实测案例，展示了如何通过视频参考直接复刻 iOS 级别的 UI 动效代码。

文章实测Kimi K2.5模型，重点展示其通过视频多模态识别精准复刻复杂前端交互动效的能力，并认为其前端审美有显著提升。

K2.5支持视频多模态输入，能根据交互视频准确还原丝滑的动效与视觉细节。
通过截图标记反馈可快速迭代修正生成的前端代码，设计还原度高。

告别RAG相似匹配！百度Agentic-R为多轮搜索重塑检索器 — 78/100

PaperAgent · AI/Tech · 精读

介绍百度Agentic-R框架，通过双视角打分解决多轮搜索中的检索偏差问题。

百度等提出 Agentic-R，一种为多轮智能搜索（Agentic Search）重塑的检索器训练框架，通过同时优化局部相关性和全局答案正确性，提升多跳推理的准确率。

传统 RAG 的相似度检索在多跳推理中易被高相似但误导性的段落带偏。
Agentic-R 训练时同时考虑段落对当前查询的直接相关性，以及它能否引导智能体最终得出正确答案。
通过“检索器-智能体”协同迭代的飞轮，仅两轮训练就能显著提升多个数据集的性能，并减少搜索轮数。

Qwen3满血版上线，第一件事就是把搜索按钮干掉了。 — 76/100

探索AGI · AI/Tech · 精读

分析 Qwen3-max 满血版通过“自适应工具调用”取消搜索按钮背后的 Agent 演进逻辑。

Qwen3-max-thinking 模型删除了手动搜索按钮，引入了“自适应工具调用”能力，由模型自主判断何时调用搜索、代码解释器等工具，提升了任务处理的流畅性和准确性。

模型能自主决定何时进行联网搜索（如查询实时信息），何时直接推理或计算（如写代码、做算术）。
思考过程在界面上呈现为结构化的步骤，类似 Agent 的 TODO 列表，清晰可读。
在需要精确计算的任务（如数字母）中，会主动调用代码解释器来保证结果正确。

Neutral

K2.5，是 Kimi 的一个分水岭 — 73/100

赛博禅心 · AI/Tech · 精读

从技术质感与多模态能力的维度，评析了 Kimi K2.5 发布后的品牌回归与技术对标。

作者认为 Kimi K2.5 是月之暗面的一个分水岭，标志着其在国产旗舰模型中率先实现了原生多模态能力，并回归了其早期注重技术和开发者体验的“天才少年”质感。

K2.5 是原生多模态模型，视觉与文本能力同步提升，支持从视频输入生成代码等任务。
公司官网与 GitHub 发布页合二为一，采用极简技术派美学，受到开发者欢迎。
作者主观上认为此次发布找回了 Kimi 早期有品位、有技术的品牌形象。

Vidu悄悄上线万物可参考视频模型，电影里的特效/材质/动作…都是我的了 — 69/100

卡尔的AI沃茨 · AI/Tech · 速览

Vidu Q2 参考生 Pro 模型的功能评测，重点介绍多素材融合、材质迁移和动作克隆能力。

文章介绍Vidu Q2参考生Pro视频模型，强调其“万物皆可参考”的能力，可复刻视频中的特效、材质、动作等元素，并进行视频编辑。

支持上传多张图片和多个视频作为参考，可复合迁移动作、表情、材质等多种元素。
具备视频编辑能力，如改变背景、替换主体、修改风格等。

什么？心识宇宙（Mindverse）收购了马卡龙（Macaron AI）？不会吧！ — 68/100

MindCode · AI/Tech · 速览

作者通过对心识宇宙（Mindverse）融资新闻的疑点分析，推测其可能收购了Macaron AI，并探讨了个人AI Agent的技术逻辑。

作者对一则融资新闻表示困惑，该新闻将“马卡龙（Macaron AI）”表述为“心识宇宙（Mindverse）”旗下产品，作者推测可能存在收购情况。

指出心识宇宙（Mindverse）的知名产品是“second me”，而“马卡龙（Macaron）”是另一个独立的Personal AI Agent产品。
基于新闻内容与已知信息的矛盾，提出心识宇宙可能收购了马卡龙团队的猜测。

何止是“看图写代码”，Kimi K2.5甚至可以“看视频写代码”！ — 68/100

刘小排r · AI/Tech · 速览

测试Kimi Code的“看视频写代码”能力，并提供了初步的安装和使用教程。

Kimi K2.5 及 Kimi Code 实现了“看视频写代码”等原生多模态编程能力，在部分场景下领先于海外同类产品，但复杂项目编程能力仍有差距。

Kimi Code 支持直接上传视频文件（100M以内），并理解视频内容来生成代码，而 Claude Code 和 Codex 目前需要通过截图曲线救国。
Kimi Code 是开源项目，基于 Python 从零构建，方便开发者魔改。
作者认为在小型简单项目上差距不明显，但在复杂项目中，其编程智能水平仍与海外顶级模型有差距。

从Pi0.5，再到LingBot-VLA：一条具身智能的路正在成型 — 66/100

十字路口Crossing · AI/Tech · 速览

蚂蚁灵波开源 LingBot-VLA 具身智能大模型，旨在通过开源全链路工具打破机器人场景碎片的瓶颈。

蚂蚁灵波开源了其具身智能通用大模型LingBot-VLA，旨在通过一个通用的视觉-语言-动作（VLA）基础模型，解决机器人领域因场景切换而需重复训练、导致发展碎片化的问题。此举被视为在Physical Intelligence开源Pi0.5模型后，对“VLA+开源”路线的进一步验证和推进。

LingBot-VLA基于2万小时真实机器人数据训练，覆盖9种双臂配置，并完整开源了代码、权重及工具链。
文章指出，行业正从针对单一场景的碎片化开发，转向基于开源VLA基础模型进行快速适配的通用化路径，以加速具身智能落地。

追问daily | 为何AI无法毁灭人类？奥特曼承认ChatGPT“走偏”了；意识即记忆：感知是对过去的模拟 — 65/100

追问nextquestion · AI/Tech · 速览

一份关于脑科学前沿研究（如髓鞘修复、细胞衰老）与AI行业动态的每日资讯合集。

该文章为资讯摘要，涵盖脑科学动态与AI行业动态。脑科学部分包括大脑自我修复新机制等研究；AI部分包括奥特曼评论ChatGPT、Kimi开源等消息。

脑科学：Science发文揭示少突胶质细胞前体细胞持续尝试分化，为大脑提供时刻的修复潜能。
AI行业：奥特曼承认ChatGPT发展“走偏”，未来将回归通用；Kimi K2.5模型宣布开源。

速递｜红点领投4200万，节点式设计工具Flora对标Figma、Krea抢占AI设计风口 — 65/100

Z Potentials · AI/Tech · 速览

节点式 AI 设计工具 Flora 获融资，探讨生成式计算下创意界面的重构逻辑。

AI 设计工具 Flora 获得 4200 万美元 A 轮融资，它采用节点式界面连接不同 AI 模型，帮助设计师进行快速迭代和创意探索，顺应了 AI 优先的设计工作流变革。

Flora 允许用户通过图像、文本或视频输入来生成和迭代媒体资产，节点图记录了可追溯的创作流程。
CEO 认为生成式 AI 需要全新的创意界面，Flora 旨在重新设计整个创意工作流，而非精确控制单个像素。
该领域备受关注，此前已有 Figma 收购 Weavy、Krea 获得大额融资等案例。

速递｜高通800万美元投资AI合同审阅平台SpotDraft，可完全离线处理数据，半年内估值翻倍 — 64/100

Z Potentials · AI/Tech · 速览

高通投资 SpotDraft 推动合同审阅 AI 走向端侧离线化，解决法律行业隐私痛点。

AI 合同审阅平台 SpotDraft 获得高通 800 万美元投资，其核心突破是开发了可完全在设备端离线处理敏感合同的 VerifAI 技术，以满足法律等受监管行业对数据隐私的极致要求。

VerifAI 可在搭载 Snapdragon X Elite 芯片的设备上离线运行合同审阅、风险评估和修订，文档无需上传云端。
该技术针对法律、制药、国防等对数据隐私和驻留要求严格的行业，解决了使用云端 AI 处理敏感文件的顾虑。
设备端模型在性能上已接近云端模型，响应速度达到云端三分之一，估值在半年内翻倍。

保姆级Clawdbot教程来了，但我还是想劝大家悠着点。 — 63/100

数字生命卡兹克 · AI/Tech · 速览

详细介绍了爆火的本地Agent工具Clawdbot（现名Moltbot）的背景、风险、优势及部署逻辑。

Clawdbot（已改名 Moltbot）是一个爆火的本地运行、权限极高的个人 AI 助理，因其强大的主动性和安全隐患引发关注，导致二手 Mac Mini 热销。

Clawdbot 是开源的本地 Agent，拥有系统高级权限和长期记忆，主动性极强，能处理文件、邮件等各类任务。
因其潜在风险（如误删文件、乱发消息），许多用户选择在新电脑或虚拟机/云服务上部署，推动了 Mac Mini 销量。
相比 Claude Code，它更侧重通用助理定位，并能接入 WhatsApp、Telegram、飞书等聊天软件作为交互入口。

内存一年疯涨170%，云账单里的“隐性成本”该算清了 — 62/100

InfoQ · AI/Tech · 速览

分析了 AI 时代内存成本飙升背景下，云服务器从固定规格向柔性算力演进的行业趋势。

由于内存价格疯涨及云服务器固定 CPU/内存配比导致的资源浪费，文章探讨了华为云 Flexus 实例代表的“柔性算力”方向，即按应用真实需求动态配置资源以减少成本。

2025年 DRAM 价格同比上涨超170%，推高了企业自建IDC和云上存储成本。
传统云服务器固定规格无法匹配多样化的业务负载，造成资源闲置和浪费，在内存涨价周期中问题加剧。
柔性算力技术打破 CPU 与内存的固定绑定，允许按需配置，从源头减少浪费，并需结合智能调度优化性能。

This site is open source. Improve this page.