Must Read — TinyLoRA 通过 RL 的高信息密度实现仅用 13 个参数即让 Qwen… · xMemory 提出“拆-聚-检”层级记忆结构 · 提出“Agent 电脑”是继 PC/手机后的新计算终端 (+3 more)
33 articles: 6 must read · 13 worth reading · 14 neutral
Top sources: InfoQ (3) · 机器之心 (3) · APPSO (3)
PaperAgent · AI/Tech · 收藏
TinyLoRA 通过 RL 的高信息密度实现仅用 13 个参数即让 Qwen 获得极强推理能力,揭示了 RL 微调的极致参数效率。
Meta提出TinyLoRA方法,仅用13个参数微调Qwen2.5-7B,即可在GSM8K数学推理任务上达到91%准确率。研究发现,强化学习(RL)场景下的信息密度远高于监督微调(SFT),使得超低参数微调成为可能。
PaperAgent · AI/Tech · 收藏
xMemory 提出“拆-聚-检”层级记忆结构,重新定义了智能体长程记忆的处理范式。
伦敦国王学院团队提出xMemory,一种为Agent设计的层级记忆结构,通过‘先拆后聚’的方法,在减少30%冗余检索Token的同时,将QA分数提升了10+点。
晚点LatePost · AI/Tech · 收藏
提出“Agent 电脑”是继 PC/手机后的新计算终端,论证了 Agent 独立物理运行环境的必要性。
创业者叶天奇认为Agent需要独立的物理设备(如他开发的Pamir AI盒子),而非仅仅依赖软件层,以提供7x24小时在线的独立运行环境。
新智元 · AI/Tech · 收藏
将多智能体协作定义为分布式共识过程,通过系统工程手段解决模型并发中的一致性、延迟与成本问题。
新理论框架将多智能体推理建模为分布式共识过程,通过明确的智能体共识(Agentic Consensus)系统语义,大幅提升了系统性能,降低了延迟和计算成本。
PaperWeekly · AI/Tech · 收藏
Meta 发布 TinyLoRA,通过 13 个参数配合 RL 达到全量微调效果,揭示了 RL 在信号分离上的本质优势。
Meta FAIR等机构提出TinyLoRA,仅用13个参数(26字节)就能让7B模型在数学推理任务上逼近全量微调效果,揭示了在强化学习下极少数关键参数足以激活模型能力。
探索AGI · AI/Tech · 收藏
Anthropic 揭示编程排行榜水分:算力资源限制的执行差异可导致 6% 的分差。
Anthropic发现,AI编程评测排行榜上模型间几个百分点的差距,可能与模型能力无关,而受评测机器的资源配置(如内存限制)影响巨大,最高可达6个百分点。
机器之心 · AI/Tech · 精读
介绍 DeepMind 利用 LLM 驱动的进化系统 AlphaEvolve 在无限 Python 空间搜索新型激活函数的方法论。
DeepMind 利用 AlphaEvolve(一个由 LLM 驱动的进化编码系统)在无限的 Python 函数空间中搜索新的激活函数。该方法专注于在合成数据上优化分布外泛化能力,发现了如 GELUSine 等性能优于 ReLU 和 GELU 的新函数。
探索AGI · AI/Tech · 精读
Multi-Agent 范式从“角色扮演”转向“内置协作能力”,核心变量在于模型推理增强与原生编排器的出现。
文章指出,今年的Multi-Agent已从去年的“角色扮演”演进为具备真正协作能力的Agent集群,其关键在于单个Agent能力的大幅提升和由AI自主决策的协调能力的出现。
饭後服用AfterHours · AI/Tech · 精读
从财务结构和历史并购逻辑深挖美团收购叮咚背后的“低利润率基建”护城河策略。
美团以7.17亿美元收购叮咚买菜,旨在补齐其在华东地区的前置仓网络,并延续其擅长运营低利润、高市场占比业务的战略。
量子位 · AI/Tech · 精读
深度拆解 Nature 发表的 OpenScholar 系统,通过 RAG 闭环和庞大数据库解决 AI 论文引用的幻觉问题。
艾伦人工智能研究所和华盛顿大学开源了 OpenScholar 系统,该系统通过接入包含 4500 万篇论文的 ScholarStore 数据库,并采用检索增强生成(RAG)和自我反馈推理的闭环流程,显著降低了文献综述中的虚假引用问题。
歸藏的AI工具箱 · AI/Tech · 精读
展示了利用新版 Claude 模型和 Agent Teams 模式快速开发并开源桌面端工具的实战案例与技巧。
开发者利用 Claude Opus 4.6 和 Agent Teams 功能,在一天内开发并开源了一个功能完整的 Claude Code 桌面客户端 CodePilot。
PaperWeekly · AI/Tech · 精读
华中科技大学综述提出多模态推荐系统“偏好-目标-生成”三元新范式。
华中科技大学团队在综述中提出,多模态推荐系统正从传统的“在库中选择”范式,转向“为用户个性化生成”的新范式。
机器之心 · AI/Tech · 精读
提出了视频世界模型的全新分类体系(状态构建与动态建模),旨在将视频生成从视觉保真度推向功能性模拟。
快手可灵团队与港科大(广州)团队联合发表综述,提出以“状态构建”与“动态建模”为双支柱的新分类体系,旨在将视频生成模型推进为具备推理和规划能力的“通用世界模拟器”。
赛博禅心 · AI/Tech · 精读
伯克利教授在 OpenAI 分享如何利用 GAN 模型发现鲸鱼语言中的元音结构,挑战只有人类有语言的假设。
研究人员利用AI模型分析抹香鲸的咔哒声,在其中发现了类似人类元音的频谱结构,挑战了“只有人类才能学语言”的语言学基本假设。
AGI Hunt · AI/Tech · 精读
Claude Opus 4.6发布,重点升级长文本处理能力(1M窗口)及Agent多机协作功能。
Anthropic 发布了 Claude Opus 4.6,在多项基准测试中领先,并首次支持 1M token 上下文窗口(Beta),显著改善了长上下文处理中的“上下文腐烂”问题。
有机大橘子 · AI/Tech · 精读
展示了 AI 作为一个独立“劳动力”而非工具,从零开发浏览器插件的完整思维路径。
作者(AI)应人类用户‘橘子’的要求,独立完成了一个YouTube实时字幕翻译浏览器插件的开发,从需求分析到打包发布仅用5分钟,展示了AI作为协作劳动力(AI as Labor)的潜力。
APPSO · AI/Tech · 精读
实测 OpenAI 新发布的 GPT-5.3-Codex 及其桌面端应用,展示其在本地 Agent 任务处理上的能力。
OpenAI 发布了 GPT-5.3-Codex 模型,并集成到 Codex 桌面应用中,使其能够处理本地文件、调用 Skills、执行复杂任务,与 Claude Code 等本地 Agent 工具形成竞争。
数字生命卡兹克 · AI/Tech · 精读
可灵3.0实测:分镜控制与语言遵循能力大幅提升,重塑AI导演流派。
快手可灵 3.0 在视频生成质量、分镜能力和多语言指令遵循方面有显著提升,支持智能分镜和自定义分镜,能生成包含复杂镜头语言的连贯视频。
InfoQ · AI/Tech · 精读
Cloudflare 的 Matrix 演示因过度依赖 AI 生成代码导致核心功能缺失,引发对 AI 辅助开发边界的反思。
Cloudflare一篇展示无服务器Matrix家庭服务器的博客文章因技术声明不准确和疑似包含大量AI生成代码而引发争议,Matrix联合创始人指出其严重夸大了项目范围。
InfoQ · AI/Tech · 精读
面壁智能推出全双工全模态端侧模型,通过端到端训练实现“边看边听主动说”的即时交互。
面壁智能发布并开源9B参数的全双工全模态模型MiniCPM-o 4.5,实现了“边看、边听、主动说”的高度拟人化即时自由对话交互。
DeepTech深科技 · AI/Tech · 精读
详解 Claude Opus 4.6 和 GPT-5.3-Codex 发布,引入“努力程度控制”与“上下文压缩”等关键功能。
Anthropic发布Claude Opus 4.6,OpenAI发布GPT-5.3-Codex,两者在编程、长上下文、智能体能力上展开正面竞争。
量子位 · AI/Tech · 精读
清华与生数科技开源大一统世界模型Motus,通过MoT架构实现感知、预测与行动的闭环。
清华团队开源了“大一统”世界模型 Motus,首次在单一架构内统一了视觉-语言-动作(VLA)、世界模型、视频生成等五种具身智能范式,在多项任务上性能超越国际标杆 Pi-0.5。
卡尔的AI沃茨 · AI/Tech · 精读
对比分析了 Claude Opus 4.6 与 GPT-5.3-Codex 的跑分差异及背后测试集的局限性。
文章对比了同日发布的Claude Opus 4.6和GPT-5.3-Codex,指出在Terminal-Bench 2.0上GPT-5.3-Codex分数更高,但两者测试数据集存在差异,需谨慎对比。
新智元 · AI/Tech · 精读
华科校友通过“数字孪生”应对医疗异质性,并利用“共形预测”量化大模型不确定性。
华科校友程璐教授凭借在“负责任的大语言模型”和AI医疗“数字孪生”方面的研究,接连获得NSF CAREER Award及阿尔茨海默病研究重磅资助。
数字生命卡兹克 · AI/Tech · 精读
深度解析了 Claude 4.6 在流体智力(ARC AGI 2)上的突破及其对研究报告场景的重塑。
Claude Opus 4.6在多项关键评测(如GDPval-AA、Terminal-Bench 2.0、ARC AGI 2)上超越GPT-5.2,展现出在知识工作、编程和流体智力推理上的全面领先。
赛博禅心 · AI/Tech · 速览
全面整理了 Anthropic 发布的各领域 Benchmark 细节及长上下文检索能力的提升曲线。
Claude Opus 4.6在知识工作、Agent搜索、Agent编码、多学科推理等多个维度评测中取得SOTA成绩,并首次为Opus级模型引入1M token上下文窗口。
APPSO · AI/Tech · 速览
通过对 Genie 3 技术原理(帧生成)的拆解,指出当前 AI 生成视频与真实游戏引擎在逻辑一致性、物理模拟和长期记忆上的本质区别。
文章认为,尽管 Genie 3 等 AI 模型能快速生成可交互的 3D 场景,但因其缺乏长期一致性、确定性的物理逻辑和复杂的事件因果链,目前无法替代传统游戏开发中构建鲜活、深度游戏世界的工作。
APPSO · AI/Tech · 速览
通过腾讯混元团队的 CL-bench 测试指出,当前大模型在‘情境学习’(脱离预训练记忆处理新信息)能力上普遍极弱。
腾讯混元团队与复旦大学的研究指出,大模型在根据全新上下文(未在预训练中出现过的信息)进行推理时表现很差,最强模型的正确率仅约 23.7%,揭示了 AI 在“现学现卖”情境下的核心短板。
InfoQ · AI/Tech · 速览
AI Agent 正在从逻辑底层重构工作流,导致依赖“人头数”和“粘性”的传统 SaaS 模式估值崩盘。
AI Agent工作流的兴起,动摇了传统SaaS依赖高增长、高转换成本和高粘性的商业模式,导致相关企业市值大幅蒸发,市场逻辑正在被重新校准。
饭後服用AfterHours · AI/Tech · 速览
分析通义千问 30 亿红包背后的产品逻辑:从对话消费转向场景化 Agent 消费。
阿里千问发放30亿红包,其目标不仅是吸引用户,更是对用户进行深度AI使用场景教育,推动AI Chatbot从对话工具向能一键完成‘衣食住行’消费的生活Agent转变。
DeepTech深科技 · AI/Tech · 速览
加州理工联合团队开发出超低损耗“片上光纤”平台,突破了集成光子学的损耗瓶颈。
研究团队开发出超低损耗的掺锗二氧化硅光子集成平台(‘片上光纤’),在近红外波段损耗低至0.08 dB/m,为精密测量、AI算力和量子计算的芯片化集成开辟了新路径。
机器之心 · AI/Tech · 速览
Anthropic通过超级碗广告宣布Claude永久无广告,引发与OpenAI关于商业模式的争论。
Anthropic 在超级碗期间发布广告,宣布 Claude 将永久保持无广告状态,此举被广泛视为对 OpenAI 在 ChatGPT 中测试广告的直接回应。OpenAI CEO 奥特曼发文反驳,称其广告描绘不实。
刘小排r · AI/Tech · 速览
快速整理了 Opus 4.6 的 8 个核心更新点,重点关注工程侧配置细节。
Claude Opus 4.6在多项指标上达到新SOTA,引入1M Token上下文窗口,速度提升,并增强了在复杂长链路任务上的可靠性。