ai-daily-feed

AI Daily Harvest — 2026-01-29

Overview

Must Read — 通过纯 NumPy 手写实现 Ilya 书单中的 30 篇论文 · AlphaGenome通过U-Net-Transformer架构实现1Mb序列下… · Clawdbot 展示了基于本地 Markdown 的两层持久化记忆系统 (+5 more)

32 articles: 8 must read · 11 worth reading · 13 neutral

Top sources: PaperWeekly (5) · InfoQ (3) · 追问nextquestion (2)

91 拒绝调包！纯NumPy手搓Ilya推荐的30篇论文，连反向传播都是手写的 — PaperWeekly
87 谷歌新模型登顶Nature，人类基因密码被解码 — PaperAgent
87 今天，分享Clawdbot记忆系统最佳工程实践 — PaperAgent
87 在机器人眼中，玻璃并不存在 — 赛博禅心
86 年度最勇投稿！手持300篇假引用名单踢馆，ACL审稿人敢拒这篇吗？ — PaperWeekly

Must Read

拒绝调包！纯NumPy手搓Ilya推荐的30篇论文，连反向传播都是手写的 — 91/100

PaperWeekly · AI/Tech · 收藏

通过纯 NumPy 手写实现 Ilya 书单中的 30 篇论文，深度拆解深度学习底层逻辑，拒绝黑盒。

一个GitHub项目仅用NumPy从零复现了Ilya Sutskever推荐的30篇AI核心论文，包括手写反向传播和Attention机制。

项目遵循四条铁律：纯NumPy、零外部数据依赖、可视化、交互式Notebook。
复现路径分为四个阶段，从基础概念到现代架构，涵盖LSTM、Transformer等关键模型。

谷歌新模型登顶Nature，人类基因密码被解码 — 87/100

PaperAgent · AI/Tech · 收藏

AlphaGenome通过U-Net-Transformer架构实现1Mb序列下采样与多模态联合训练，刷新基因变异预测SOTA。

谷歌DeepMind开发的AlphaGenome模型在《自然》杂志发表，该AI模型能输入长达100万个碱基对的DNA序列，以单碱基分辨率同时预测多种基因调控功能。

在26个变异效应预测基准任务中，有25个达到或超越现有最强模型。
模型采用U-Net-Transformer混合架构，并通过集成蒸馏提升鲁棒性和推理速度。

今天，分享Clawdbot记忆系统最佳工程实践 — 87/100

PaperAgent · AI/Tech · 收藏

Clawdbot 展示了基于本地 Markdown 的两层持久化记忆系统，区分了上下文与记忆的工程边界。

Clawdbot的持久记忆系统是其核心特色，通过本地Markdown文件实现24/7的上下文保留和无限记忆。

记忆系统分为两层：每日日志和长期记忆文件，存储在本地工作区。
代理通过专门的工具（memory_search, memory_get）访问记忆，写入则由标准文件编辑工具完成。

在机器人眼中，玻璃并不存在 — 87/100

赛博禅心 · AI/Tech · 收藏

从 3D 扫描硬件痛点出发，解析 LingBot-Depth 如何利用 AI 补全思路解决透明/反光物体的深度测量难题。

传统3D扫描设备无法有效捕捉透明和反光物体，而LingBot-Depth项目通过AI补全深度图解决了这一问题。

项目将深度图中“测不准”的区域作为训练材料，让AI学习理解并补全透明/反光物体的形状。
该方法使机器人能稳定抓取透明玻璃杯等物体，项目已开源。

年度最勇投稿！手持300篇假引用名单踢馆，ACL审稿人敢拒这篇吗？ — 86/100

PaperWeekly · AI/Tech · 收藏

NAIST 团队通过审计 ACL 系列会议论文，揭露了生成式 AI 导致的‘幻觉引用’（HalluCitation）危机，EMNLP 2025 成为重灾区。

一篇名为《HalluCitation Matters》的投稿论文对过去两年ACL系列会议的17,000多篇论文进行学术审计，揪出近300篇包含虚假引用的论文，并在附录中实名列出。

论文定义并量化了由AI辅助写作工具引发的“幻觉引用”问题，即参考文献被彻底虚构。
审计数据显示，EMNLP 2025主会的幻觉论文比例高达2.60%，是Findings的三倍以上，表明现有审稿机制存在系统性失效。

破案实锤！Qwen用假信号也能拿高分？虚假的RLVR如何激活隐藏记忆回路？ — 86/100

PaperWeekly · AI/Tech · 收藏

通过机制解释学拆解 Qwen 在虚假奖励下的表现，发现 RLVR 实际上激活了模型内部的‘记忆捷径’而非推理能力。

一项研究揭示了虚假的RLVR训练并非真正提升模型推理能力，而是通过激活模型内部的记忆捷径，使其更高效地检索训练集中的污染知识。

研究发现“困惑度悖论”：虚假RLVR训练中，模型对答案的困惑度下降，但对问题的困惑度上升，表明其牺牲了语言理解能力来记忆答案。
通过路径修补等技术，研究精准定位到第18-20层是驱动这种记忆检索的关键“功能锚点层”。

Agent 真正的护城河，正在从工具转向记忆资产 — 86/100

Founder Park · AI/Tech · 收藏

Agent 的核心竞争力正转向独立的记忆系统，它是解决上下文冗余与跨域连续性的关键。

文章认为独立的记忆系统（Memory层）正在成为AI Agent的关键基础设施，而不仅仅是依赖长上下文或RAG。

长上下文和RAG在管理持续增长、需要版本控制的记忆数据流时存在根本性局限。
行业需要一套工程化的记忆系统来维护用户画像、跨任务记忆，并实现更主动的Agent。

告别CLIP！DeepSeek-OCR-2开源：首创视觉因果流，用LLM重构视觉编码 — 85/100

PaperWeekly · AI/Tech · 收藏

深度解析 DeepSeek-OCR-2 弃用 CLIP 转向 LLM 原生编码的底层架构，提出“视觉因果流”新范式。

DeepSeek-OCR-2开源，它摒弃CLIP，直接用LLM作为视觉编码器，并提出“视觉因果流”范式来改善文档解析。

核心创新是DeepEncoder V2，它通过可学习查询和因果注意力机制，将2D图像按语义逻辑重排为1D序列。
该方法旨在解决传统视觉编码器因光栅扫描导致的文档阅读顺序混乱问题。

Worth Reading

告别 AI 土味审美！Kimi K2.5 实测：扔个视频复刻 iOS 级丝滑动效 — 82/100

歸藏的AI工具箱 · AI/Tech · 精读

实测 Kimi K2.5 的视频多模态识别与前端动效复刻能力，强调视觉反馈在代码生成中的重要性。

Kimi K2.5模型增强了多模态识别能力，能根据视频参考生成具有iOS级丝滑交互动效的前端代码。

模型支持输入图片、视频或网页链接作为参考，通过截图标记进行迭代修改，显著提升了前端设计审美。
测试显示，K2.5能准确复刻复杂交互视频中的细节，如Tab切换、弹性动画等。

他用100年前的哲学，颠覆了整个神经科学：时间，根本不在大脑里 | 万字追问 — 82/100

追问nextquestion · AI/Tech · 精读

通过柏格森哲学与神经科学实验，探讨时间感知的非大脑中心性，对比人脑与 AI 的本质区别。

神经科学家大卫·罗比基于哲学思想和动物实验提出，时间感知并非产生于大脑内部，而是源于生物体与环境的互动。

研究认为，大脑不包含内在的“时钟”，对时间的估计依赖于刻板行为或外部规律运动。
文章将这种观点与人工智能（被视为一系列无时间性的事件）进行了对比。

万字追问：当红的意识整合信息论，为何在他眼中只是一个漂亮的营销工具？ — 81/100

追问nextquestion · AI/Tech · 精读

认知科学家 Joscha Bach 对意识整合信息论（IIT）的深度批判，认为意识是基于模型生成的虚拟叙事，而非纯粹数学公理。

认知科学家约夏·巴赫与物理学家徐道辉讨论了意识的本质，巴赫认为所有意识体验本质上都是虚拟的建构，并批评整合信息理论更像是一个营销工具。

巴赫提出，区分“虚构的意识”与“真实的意识”在现象学层面近乎无解，因为所有意识体验都是大脑生成的模型。
巴赫指出整合信息理论的“公理”只是文字描述而非数学公理，其核心度量φ值更像是理论的推销工具。

实测 Prism：OpenAI 的论文写作工具，完全免费 — 81/100

赛博禅心 · AI/Tech · 精读

OpenAI 论文写作工具 Prism 的深度测评，对比了 Overleaf 并警示了数据安全风险。

OpenAI 发布了免费的云端 LaTeX 写作工具 Prism，深度集成 GPT-5.2，旨在辅助科研写作。

Prism 具备项目级上下文理解、原地编辑、内置 arXiv 文献检索和图片转 LaTeX 公式等核心功能。
该工具完全免费，但用户内容默认可能被用于模型训练，存在数据隐私考量。

AI记忆革命爆发！Clawdbot如何像大脑般记住一切 — 81/100

新智元 · AI/Tech · 精读

开源项目Clawdbot通过本地Markdown存储机制实现了长时记忆与任务执行，区别于大厂云端方案。

Clawdbot是一个开源的、可在本地运行的AI助手，其核心特点是具备持久的长时记忆系统，并能自主处理现实世界任务。

记忆系统独立于模型上下文，可无限增长且存储在本地，用户拥有完全控制权。
能集成到Discord等聊天平台，并管理邮件、安排日历等后台任务。

DeepMind & Anthropic：当 AGI 来临后｜Vital Views — 80/100

緑洲资本 Vitalbridge · AI/Tech · 精读

DeepMind 与 Anthropic 掌舵者对 AGI 到来后社会变革的对谈：代码能力将是加速 AGI 循环闭合的核心驱动力。

燃尽三年重启十天，访谈 Clawdbot 创始人用 AI 搓出了 GitHub 最陡增长曲线 — 78/100

饭後服用AfterHours · AI/Tech · 精读

Clawdbot 创始人复盘如何利用 AI 编程实现爆发式增长，提出“Vibe-coding”与个人智能体的新趋势。

前 PSPDFKit 创始人 Peter Steinberger 在经历三年倦怠期后，受 Claude Code 启发，仅用 10 天开发出 GitHub 爆款项目 Clawdbot（Moltbot）。

Peter Steinberger 认为 2026 年是“个人助手智能体年”，并自称点燃了这把火。
他通过亲身经历描述了从对 AI 编程上瘾到快速构建出 WhatsApp 个人助手原型的过程。

DeepMind团队独家揭秘AlphaGenome内幕：两年攻坚，让AI读懂基因组98%的非编码区 — 78/100

DeepTech深科技 · AI/Tech · 精读

DeepMind开源AlphaGenome模型，通过1Mb长序列输入实现对基因组98%非编码区的功能精准预测。

DeepMind团队开发的AlphaGenome模型旨在解读占人类基因组98%的非编码区，能高效预测遗传变异对基因调控的功能影响。

模型能一次性输出基因表达、剪接、染色质开放性等多种功能特征。
在癌症研究和罕见病诊断等领域有广泛应用前景，例如已成功解析T细胞白血病的致病非编码突变。

Clawdbot火了，Anthropic急了，Claude Code连夜更新了Agent任务系统。 — 77/100

探索AGI · AI/Tech · 精读

Claude Code 任务系统从线性 Todo 升级为持久化的 DAG 依赖图，解决了长上下文任务中断与多 Agent 协作的底层基建问题。

Claude Code 将原有的 TODO 系统升级为 Tasks 系统，实现了任务持久化、依赖图调度和多 Agent 协作。

任务状态现在存储在本地文件中，解决了因上下文丢失或会话切换导致任务进度丢失的问题。
新的任务系统采用有向无环图管理任务依赖关系，避免了任务执行的逻辑混乱，并支持多个 Agent 共享同一任务图进行协作。

实测 Kimi 新品：前端设计，追平 Gemini 3 Pro — 76/100

一泽Eze · AI/Tech · 精读

详细实测了 Kimi K2.5 的多模态视觉 Coding 能力与 Agent 集群模式，并对国产模型演进给出了清晰判断。

Kimi发布K2.5等多款新品，其中K2.5作为多模态混合推理模型，显著提升了视觉Coding和前端设计能力。

K2.5支持看图/视频生成或修改应用，其设计审美被认为追平了Gemini 3 Pro。
同时发布的Agent集群模式支持并行调度成百上千个子智能体协作完成任务。

美联储杀人，AI埋尸？牛津曝光L型死局：10亿打工人再无归路 — 75/100

新智元 · AI/Tech · 精读

基于牛津大学研究，反思 2022 年裁员潮的主因是宏观利率而非 AI 替代，纠正了行业认知偏差。

牛津大学研究指出，2022年全球科技大裁员的主要驱动因素是宏观经济周期（如美联储加息），而非AI替代。

数据显示，高AI暴露率职业的招聘需求在ChatGPT发布前就已开始断崖式下跌，与纳斯达克指数走势高度重合。
研究认为，AI在当时更多是资本进行周期性缩编的“替罪羊”。

Neutral

蚂蚁深夜开源比肩Genie 3的世界模型，我也看到了具身智能的未来。 — 72/100

数字生命卡兹克 · AI/Tech · 精读

蚂蚁灵波科技开源实时交互世界模型 LingBot-World，标志着从预渲染视频生成向实时演算模拟器的跨越。

蚂蚁集团旗下的灵波科技开源了可实时交互生成的世界模型 LingBot-World，其质量被认为可对标 Google Genie 3。

LingBot-World 能够根据用户的指令（如方向键或文本命令）实时生成并扩展视频世界，而非预渲染固定内容。
模型展示了强大的场景一致性和长时记忆能力，例如在10分钟的古建筑探索视频中，场景未发生崩溃。

Gemini 3 Pro的位置，Kimi K2.5也想坐坐？ — 72/100

AGI Hunt · AI/Tech · 精读

Kimi K2.5 通过原生多模态训练实现‘审美涌现’，在视觉编程（Visual Coding）领域挑战 Gemini 3.0 的领先地位。

Kimi 发布的 K2.5 模型在视觉编程能力上取得显著进步，能够根据设计图或操作视频生成具有良好审美的网页代码。

K2.5 通过原生多模态训练，使其生成的网页在布局、色彩、留白等方面更符合设计美学，减少了“AI味”。
模型能够理解动态交互逻辑，支持从视频直接生成可用的网页代码。

新瓶旧酒or涅槃重生？操作系统的 AI 进化终将走向何方？ — 71/100

InfoQ · AI/Tech · 精读

AI时代OS的进化正从“以芯片为中心”转向“系统级重构”，国内通过“以软补硬”和开源协同实现突围。

文章探讨了AI时代操作系统的进化方向，指出国内外技术路线存在差异：国外如英伟达进行系统级重构，而国内通过开源社区协同和软硬协同优化进行突围。

阿里云在龙蜥社区推动内核与基础组件统一，并通过Attention Forward Disaggregation等方案优化异构算力性能。
在“AI for OS”方向，国内外基本处于同一起跑线，国内拥有独特的场景优势。

对话鸣鸣很忙晏周：千亿零食王国的诞生、合并与远征 — 71/100

晚点LatePost · AI/Tech · 精读

鸣鸣很忙晏周首谈零食零售逻辑：极致效率与最大公约数生意的县城突围。

鸣鸣很忙（由零食很忙和赵一鸣零食合并而成）通过极致性价比和高效率，成长为中国最大的休闲零食零售公司。

公司采用直接从厂商进货的模式，降低价格（如可乐1.8元），商品库存周转仅需11天。
创始人晏周认为零食是跨越地域和阶层的“最大公约数”生意，只要有中国人的地方就能开店。

50个Agent分工干活，Kimi K2.5的Agent“军团”把我看呆了。。。 — 69/100

探索AGI · AI/Tech · 速览

展示 Kimi K2.5 的 Agent Swarm 场景，通过 50 个分身并行执行任务。

Kimi K2.5的多模态能力和Agent集群（Swarm）功能令人印象深刻，能根据视频复刻网站，并调度大量子智能体协作。

用户可通过上传设计图、视频或链接，让K2.5复刻网站，并支持在预览界面上进行可视化圈选修改。
Agent Swarm场景可让用户分出大量子智能体并行完成任务，如批量收集信息、出图等。

Vidu悄悄上线万物可参考视频模型，电影里的特效/材质/动作…都是我的了 — 69/100

卡尔的AI沃茨 · AI/Tech · 速览

介绍了 Vidu Q2 的多维度参考生视频功能，强调了材质迁移和动作/表情复合迁移的实用性。

Vidu Q2 参考生 Pro 视频模型支持多素材参考，能复刻视频中的特效、材质、动作和情绪，并实现精准的视频编辑。

模型可上传最多4张图片和2个视频作为参考，实现元素（如材质、动作、表情）的分离与组合迁移。
功能涵盖复刻电影特效、改变视频背景、替换主体等，适用于AI短剧等创意制作。

Clawdbot 爆火的 4 个原因 — 69/100

十字路口Crossing · AI/Tech · 速览

总结了开源项目 Clawdbot 爆火的四个原因，分析了本地 Agent 与主动式 AI 的新范式。

Clawdbot爆火的原因在于其可直接在IM应用中使用、能在电脑本地执行任务、具备长记忆工程能力以及支持主动交互。

项目将对话记录以Markdown文件形式存储在本地，构建了跨时间、跨场景的个人记忆系统。
它更像一个给极客的玩具，但其展示的范式（如本地化、长记忆、主动式）为AI应用进化提供了方向。

昇腾MindSpeed：分布式训练加速库的创新实践与突破 — 68/100

InfoQ · AI/Tech · 速览

华为昇腾MindSpeed通过分布式并行技术、算子优化及DeepSeek式的工程创新提升大模型训练效率。

华为昇腾MindSpeed是一个分布式训练加速库，通过在计算、通信和显存等多个维度进行优化，以提升大模型训练效率。

支持主流大模型和多模态模型的训练，并提供端到端的训练方案。
指出DeepSeek开创了通过可接受的精度损失来极大降低训练成本的工程创新范式。

Rebuttal还在手动查文献？Paper2Rebuttal一键生成有理有据的学术回复 — 68/100

PaperWeekly · AI/Tech · 速览

RebuttalAgent 通过多智能体协作框架，将学术回复转化为以证据为中心的规划任务。

Paper2Rebuttal是一个多智能体框架，能自动为学术论文审稿意见生成有理有据的回复，包括检索文献和核实论据。

框架工作流分为三步：结构化解析审稿意见、混合证据构建（内外部检索）、战略规划与人机回环。
它生成带占位符的严谨回复模板和待办清单，旨在减少幻觉，提高回复的准确性和效率。

Hugging Face 发布 FineTranslations：一个万亿级的多语言平行文本数据集 — 62/100

InfoQ · AI/Tech · 速览

Hugging Face发布万亿级多语言平行数据集FineTranslations，利用Gemma3翻译技术解决低资源语言翻译难题。

Hugging Face发布了名为FineTranslations的大规模多语言平行文本数据集，包含超过1万亿个Token，覆盖500多种语言。

数据集通过使用Gemma3 27B模型将FineWeb2中的非英语内容翻译成英语而创建，流程可复现。
旨在提升机器翻译质量，特别是资源较少语言的英译方向，同时生成的英语语料也可用于仅限英语的模型预训练。

周亚辉为什么把时间花在“写歌”上？| 实测Mureka V8 — 61/100

十字路口Crossing · AI/Tech · 速览

Mureka V8通过引入音乐思维链（CoT）机制，试图解决AI音乐结构松散和情感缺失的问题。

昆仑万维发布的AI音乐模型Mureka V8引入了音乐思维链机制，旨在让AI在生成前先理解歌曲的整体结构，以生成更完整、可用的音乐。

提供了“简易模式”和“自定义模式”两种生成方式，用户可用自然语言描述或输入歌词来创作。
官方演示曲目M:RA《MCE》已在音乐平台上线，展示了其生成完整流行歌曲的能力。

没有亏损也没有现金，猪周期底部的牧原急赴港股 — 60/100

晚点LatePost · AI/Tech · 速览

分析牧原股份在猪周期底部的债务缩表与经营现金流挑战。

牧原股份在猪周期底部赴港上市，其核心挑战在于用波动性的经营现金流应对固定的债务偿还压力。

牧原通过独特的育种体系和养殖效率，实现了低于行业平均的完全成本，领先行业。
公司正在用经营活动所得现金缩减债务，但行业周期性波动使得现金流管理成为持续考验。

1. 人人皆开发者的观点存在偏差，大量人群对构建技术产品兴趣不高。/ Mark Tenenholtz 2. 智能体编程带来的速度提升不仅体现在执行效率，更扩展了… — 60/100

AGI Hunt · AI/Tech · 速览

AI 领袖观点集锦：从智能体编程到推理成本降低带来的个人软件时代。

这是一系列关于AI行业现状与未来的观点摘要，涉及开发者生产力、AI替代、智能体效果及资源消耗等话题。

Andrej Karpathy称其80%的代码已由智能体生成，Sam Altman预测低成本个人开发将成为可能。
观点指出AI将优先替代重复性任务，而Clawdbot等项目的实际效果可能未达预期。

This site is open source. Improve this page.