ai-daily-feed

AI Daily Harvest — 2026-01-28

Overview

Must Read — DeepSeek-OCR-2 技术拆解:首创视觉因果流 · 深入探讨了 AI Agent 竞争重心从工具调用转向“独立记忆系统(Memory… · 提出了针对 AI Agent 的“历史投毒”和“指令检测”防御范式 (+2 more)

23 articles: 5 must read · 8 worth reading · 10 neutral

Top sources: InfoQ (3) · Z Potentials (3) · PaperWeekly (2)

Must Read

告别CLIP!DeepSeek-OCR-2开源:首创视觉因果流,用LLM重构视觉编码 — 91/100

PaperWeekly · AI/Tech · 收藏

DeepSeek-OCR-2 技术拆解:首创视觉因果流,通过弃用 CLIP 并利用 LLM 原生编码解决文档解析中的拓扑顺序问题。

DeepSeek开源DeepSeek-OCR-2,提出视觉因果流范式,用LLM替代CLIP作为视觉编码器,旨在解决文档解析中因光栅扫描导致的语义与序列错配问题。


Agent 真正的护城河,正在从工具转向记忆资产 — 86/100

Founder Park · AI/Tech · 收藏

深入探讨了 AI Agent 竞争重心从工具调用转向“独立记忆系统(Memory Layer)”的必然性及工程挑战。

文章认为AI Agent的竞争护城河正从工具能力转向记忆系统,独立的、工程化的记忆层是解决当前Agent连续性问题的关键。


AI Agent 是长期运行的“风险系统”,如果你还只在防 Prompt Injection,说明已经落后一代了 — 86/100

InfoQ · AI/Tech · 收藏

提出了针对 AI Agent 的“历史投毒”和“指令检测”防御范式,超越了简单的 Prompt 注入防御。

CyberArk 提出一种分层防御流水线,通过“指令检测”与“历史感知校验”来保护 AI Agent,防范恶意输入和上下文历史投毒攻击。


AAAI 2026 | 告别Attention!北大清华首创波动方程建模,视觉速度精度双超越 — 85/100

PaperWeekly · AI/Tech · 收藏

北大清华推出的 WaveFormer 架构,利用波动方程代替 Attention 实现 O(N log N) 复杂度的全局特征建模。

北大清华团队提出WaveFormer,首次将波动方程作为视觉主干网络的核心全局建模机制,以替代注意力机制,实现全局交互与高频细节保留。


测试时Scaling或是最大错觉,Google:R1/O1强推理另有原因 — 85/100

PaperAgent · AI/Tech · 收藏

解读Google最新研究,指出推理模型的提升源于“思想社会”的隐式多智能体互动,而非单纯的计算时间增加。

Google 研究认为,o1、R1 等模型的强推理能力提升,主要源于模型内部自发形成了类似多智能体辩论的“思想社会”机制,而非单纯延长计算时间。


Worth Reading

被誉为大统一的预测编码,为什么是错的? — 84/100

追问nextquestion · AI/Tech · 精读

文章深度对比了预测编码(PC)理论与偏向竞争理论(BELIEF),挑战了大脑仅作为“误差削减机器”的传统大统一框架。

文章基于新神经生理学证据,质疑预测编码理论作为大脑统一解释框架的正确性,并介绍了与之竞争的偏向竞争理论。


我收集了 12 条技术社区疯传的 Claude Prompt,如今这篇帖子火遍全网 — 84/100

InfoQ · AI/Tech · 精读

整理了 12 条侧重于批判性思维、逻辑拆解和压力测试的高阶 Claude 提示词技巧。

一篇汇总了 12 条“被反复验证有效”的 Claude Prompt 的帖子在技术社区走红,这些提示词的核心是引导模型进行质疑、拆解和反思,而非直接产出结果。


Claude Code 浏览器自动化方案,怎么选? — 84/100

刘小排r · AI/Tech · 精读

对比了Claude Code环境下三大浏览器自动化方案的优劣,并给出了明确的选择建议与场景说明。

文章对比了 Claude Code 中三个主流的浏览器自动化方案(Agent Browser, DevTools MCP, Playwright MCP),并给出了根据场景选择的建议。


曾在一线手搓材料,如今他要为每家企业配一位AI CTO | 专访律动造物谢童 — 81/100

DeepTech深科技 · AI/Tech · 精读

通过 MiST 框架量化科学大模型的“潜在可解性”,将 RL 训练从经验主义转向可预测的工程路径。

律动造物创始人谢童团队与EPFL合作,提出了MiST(中段科学预训练)框架,旨在解决通用大模型在化学、材料科学等硬核科学领域推理不稳定、输出不准确的问题。该框架通过量化评估模型的“潜在可解性”,为后续强化学习提供可靠基础,使科学推理模型的训练走向工程化路径。


深度|蚂蚁灵波上桌,不止“性能超越Pi 0.5”,更是具身智能新分工时代 — 79/100

Z Potentials · AI/Tech · 精读

介绍了具身大模型 LingBot-VLA 及其开源后训练工具链,探讨具身智能的“智能层”分工。

蚂蚁灵波开源其具身大模型 LingBot-VLA 及全链路工具链,旨在为行业提供一个高性能、可泛化的智能基座,以解决机器人领域算法孤岛和全栈自研成本高的问题。


告别 AI 土味审美!Kimi K2.5 实测:扔个视频复刻 iOS 级丝滑动效 — 78/100

歸藏的AI工具箱 · AI/Tech · 精读

Kimi K2.5 视觉多模态能力的实测案例,展示了如何通过视频参考直接复刻 iOS 级别的 UI 动效代码。

文章实测Kimi K2.5模型,重点展示其通过视频多模态识别精准复刻复杂前端交互动效的能力,并认为其前端审美有显著提升。


告别RAG相似匹配!百度Agentic-R为多轮搜索重塑检索器 — 78/100

PaperAgent · AI/Tech · 精读

介绍百度Agentic-R框架,通过双视角打分解决多轮搜索中的检索偏差问题。

百度等提出 Agentic-R,一种为多轮智能搜索(Agentic Search)重塑的检索器训练框架,通过同时优化局部相关性和全局答案正确性,提升多跳推理的准确率。


Qwen3满血版上线,第一件事就是把搜索按钮干掉了。 — 76/100

探索AGI · AI/Tech · 精读

分析 Qwen3-max 满血版通过“自适应工具调用”取消搜索按钮背后的 Agent 演进逻辑。

Qwen3-max-thinking 模型删除了手动搜索按钮,引入了“自适应工具调用”能力,由模型自主判断何时调用搜索、代码解释器等工具,提升了任务处理的流畅性和准确性。


Neutral

K2.5,是 Kimi 的一个分水岭 — 73/100

赛博禅心 · AI/Tech · 精读

从技术质感与多模态能力的维度,评析了 Kimi K2.5 发布后的品牌回归与技术对标。

作者认为 Kimi K2.5 是月之暗面的一个分水岭,标志着其在国产旗舰模型中率先实现了原生多模态能力,并回归了其早期注重技术和开发者体验的“天才少年”质感。


Vidu悄悄上线万物可参考视频模型,电影里的特效/材质/动作…都是我的了 — 69/100

卡尔的AI沃茨 · AI/Tech · 速览

Vidu Q2 参考生 Pro 模型的功能评测,重点介绍多素材融合、材质迁移和动作克隆能力。

文章介绍Vidu Q2参考生Pro视频模型,强调其“万物皆可参考”的能力,可复刻视频中的特效、材质、动作等元素,并进行视频编辑。


什么?心识宇宙(Mindverse)收购了马卡龙(Macaron AI)?不会吧! — 68/100

MindCode · AI/Tech · 速览

作者通过对心识宇宙(Mindverse)融资新闻的疑点分析,推测其可能收购了Macaron AI,并探讨了个人AI Agent的技术逻辑。

作者对一则融资新闻表示困惑,该新闻将“马卡龙(Macaron AI)”表述为“心识宇宙(Mindverse)”旗下产品,作者推测可能存在收购情况。


何止是“看图写代码”,Kimi K2.5甚至可以“看视频写代码”! — 68/100

刘小排r · AI/Tech · 速览

测试Kimi Code的“看视频写代码”能力,并提供了初步的安装和使用教程。

Kimi K2.5 及 Kimi Code 实现了“看视频写代码”等原生多模态编程能力,在部分场景下领先于海外同类产品,但复杂项目编程能力仍有差距。


从Pi0.5,再到LingBot-VLA:一条具身智能的路正在成型 — 66/100

十字路口Crossing · AI/Tech · 速览

蚂蚁灵波开源 LingBot-VLA 具身智能大模型,旨在通过开源全链路工具打破机器人场景碎片的瓶颈。

蚂蚁灵波开源了其具身智能通用大模型LingBot-VLA,旨在通过一个通用的视觉-语言-动作(VLA)基础模型,解决机器人领域因场景切换而需重复训练、导致发展碎片化的问题。此举被视为在Physical Intelligence开源Pi0.5模型后,对“VLA+开源”路线的进一步验证和推进。


追问daily | 为何AI无法毁灭人类?奥特曼承认ChatGPT“走偏”了;意识即记忆:感知是对过去的模拟 — 65/100

追问nextquestion · AI/Tech · 速览

一份关于脑科学前沿研究(如髓鞘修复、细胞衰老)与AI行业动态的每日资讯合集。

该文章为资讯摘要,涵盖脑科学动态与AI行业动态。脑科学部分包括大脑自我修复新机制等研究;AI部分包括奥特曼评论ChatGPT、Kimi开源等消息。


速递|红点领投4200万,节点式设计工具Flora对标Figma、Krea抢占AI设计风口 — 65/100

Z Potentials · AI/Tech · 速览

节点式 AI 设计工具 Flora 获融资,探讨生成式计算下创意界面的重构逻辑。

AI 设计工具 Flora 获得 4200 万美元 A 轮融资,它采用节点式界面连接不同 AI 模型,帮助设计师进行快速迭代和创意探索,顺应了 AI 优先的设计工作流变革。


速递|高通800万美元投资AI合同审阅平台SpotDraft,可完全离线处理数据,半年内估值翻倍 — 64/100

Z Potentials · AI/Tech · 速览

高通投资 SpotDraft 推动合同审阅 AI 走向端侧离线化,解决法律行业隐私痛点。

AI 合同审阅平台 SpotDraft 获得高通 800 万美元投资,其核心突破是开发了可完全在设备端离线处理敏感合同的 VerifAI 技术,以满足法律等受监管行业对数据隐私的极致要求。


保姆级Clawdbot教程来了,但我还是想劝大家悠着点。 — 63/100

数字生命卡兹克 · AI/Tech · 速览

详细介绍了爆火的本地Agent工具Clawdbot(现名Moltbot)的背景、风险、优势及部署逻辑。

Clawdbot(已改名 Moltbot)是一个爆火的本地运行、权限极高的个人 AI 助理,因其强大的主动性和安全隐患引发关注,导致二手 Mac Mini 热销。


内存一年疯涨170%,云账单里的“隐性成本”该算清了 — 62/100

InfoQ · AI/Tech · 速览

分析了 AI 时代内存成本飙升背景下,云服务器从固定规格向柔性算力演进的行业趋势。

由于内存价格疯涨及云服务器固定 CPU/内存配比导致的资源浪费,文章探讨了华为云 Flexus 实例代表的“柔性算力”方向,即按应用真实需求动态配置资源以减少成本。