AI 多模态：优质文章清单

最后更新：2026-03-05

视频生成、语音合成、具身智能、多模态大模型的最新进展。从简报系统 937 篇 AI 文章中按评分精选 Top 50，持续更新。

1. 想让机器人春晚包饺子？阿里达摩院：别急，先把「大脑」优化一下

链接：阅读原文
来源：机器之心
日期：2026-02-10
评分：85
要点：阿里达摩院开源了具身智能模型RynnBrain，通过将时空记忆和物理空间推理直接训练进模型，旨在提升机器人在复杂物理环境中的规划与执行能力。

2. 昨天马斯克转发的那个App，我让一个5岁小孩试了试，他安静地玩了一晚上。

链接：阅读原文
来源：探索AGI
日期：2026-02-11
评分：84
要点：文章通过实际体验，认为Loopit的核心价值在于让AI生成可交互、可玩的内容，而不仅仅是观看的视频，这使其区别于Sora等AI视频生成工具。

3. 在机器人眼中，玻璃并不存在

链接：阅读原文
来源：赛博禅心
日期：2026-01-27
评分：82
要点：机器人视觉系统长期存在无法准确识别透明或反光物体的问题，而开源项目LingBot-Depth通过AI模型补全缺失的深度信息，为解决此问题提供了新思路。

4. 年末 AI 回顾：从模型到应用，从技术到商战，拽住洪流中的意义之线

链接：阅读原文
来源：晚点LatePost
日期：2026-02-12
评分：82
要点：文章回顾了2025年至2026年初AI领域的关键进展，涵盖模型、应用、巨头竞争、创业公司、具身智能、硬件及人文影响等多个主题，试图在快速变化中梳理出发展脉络。

5. 陶哲轩来给AI数学泼冷水了

链接：阅读原文
来源：量子位
日期：2026-02-25
评分：82
要点：① 陶哲轩指出，AI在生成大量数学新想法的同时，也显著降低了想法的平均质量，许多AI生成的方案被证明是错误的。② 他提出数学进步公式应修正为“优秀新想法数量”乘以“想法库信噪比”，AI可能通过增加低质量想法而降低整体信噪比。③ 为抑制负面影响，他建议开发一种用于描述数学策略（而非完整证明）的新形式化语言，为AI生成的想法引入“选择性摩擦”，引导其产出更优质的结果。

6. 万字追问：当红的意识整合信息论，为何在他眼中只是一个漂亮的营销工具？

链接：阅读原文
来源：追问nextquestion
日期：2026-01-29
评分：81
要点：认知科学家约夏·巴赫与物理学家徐道辉讨论了意识的本质，巴赫认为所有意识体验本质上都是虚拟的建构，并批评整合信息理论更像是一个营销工具。

7. 陈亦伦和李震宇创立的具身公司它石智航，不做 VLA、不仿真，不走主流路线

链接：阅读原文
来源：晚点LatePost
日期：2026-02-02
评分：81
要点：它石智航由陈亦伦和李震宇创立，在具身智能领域采取反主流路线，不依赖 VLA 模型，而是自研 AWE 并采集真实场景数据。

8. 从“选择”迈向“生成”！华科团队最新综述：定义多模态推荐系统新范式

链接：阅读原文
来源：PaperWeekly
评分：81
要点：华中科技大学团队在综述中提出，多模态推荐系统正从传统的“在库中选择”范式，转向“为用户个性化生成”的新范式。

9. 全新视角看世界模型：从视频生成迈向通用世界模拟器

链接：阅读原文
来源：机器之心
日期：2026-02-07
评分：80
要点：快手可灵团队与港科大（广州）团队联合发表综述，提出以“状态构建”与“动态建模”为双支柱的新分类体系，旨在将视频生成模型推进为具备推理和规划能力的“通用世界模拟器”。

10. 深度｜蚂蚁灵波上桌，不止“性能超越Pi 0.5”，更是具身智能新分工时代

链接：阅读原文
来源：Z Potentials
日期：2026-01-28
评分：79
要点：蚂蚁灵波开源其具身大模型 LingBot-VLA 及全链路工具链，旨在为行业提供一个高性能、可泛化的智能基座，以解决机器人领域算法孤岛和全栈自研成本高的问题。

11. 大家都在说它是 AI 时代的抖音，真的吗？

链接：阅读原文
来源：十字路口Crossing
日期：2026-02-11
评分：79
要点：文章通过实测体验Loopit，探讨其作为「互动内容平台」与抖音等传统「观看型」内容平台的区别，认为其核心是让用户「玩」内容而不仅是「看」。

12. 对话拓竹陶冶：我们一群工程师，一起造个朴素的硬核公司

链接：阅读原文
来源：晚点LatePost
日期：2026-01-26
评分：78
要点：文章讲述了拓竹科技如何通过硬核工程创新，将难用的消费级3D打印机变得易用，从而引爆市场，成为行业第一的创业故事。

13. 21天让肿瘤缩小60%！加州理工团队研发尿素驱动气泡机器人，可自主导航精准引爆肿瘤

链接：阅读原文
来源：DeepTech深科技
日期：2026-02-08
评分：78
要点：加州理工团队研发出以尿素为动力的生物可吸收微泡机器人，能自主导航至肿瘤并定向释放药物，在小鼠实验中使肿瘤缩小60%。

14. 春晚机器人没切镜头，阿里RynnBrain让具身智能不再需要切换模型

链接：阅读原文
来源：PaperAgent
日期：2026-02-25
评分：78
要点：阿里开源的RynnBrain是一个统一的具身智能时空基础模型，将感知、定位、推理、规划四大核心能力集成于一体，无需为不同任务切换模型。该模型旨在让机器人在真实动态环境中实现“手眼脑”协同，如同今年春晚机器人表演一样流畅。这代表了具身智能从“多模型切换”迈向“统一大脑”的技术跨越。

15. 三家中国大模型公司被卷入蒸馏风波，律师解读：Anthropic的指控从法律上很牵强

链接：阅读原文
来源：腾讯科技
日期：2026-02-25
评分：77
要点：律师针对Anthropic指控中国大模型公司通过蒸馏技术窃取其模型功能一事进行解读，认为从法律角度看该指控很牵强。核心论据在于，通过API调用获取的AI生成内容缺乏人类作者的智力创造，难以构成受著作权法保护的作品；且蒸馏是行业常见技术迭代手段。文章暗示Anthropic的指控可能意在技术霸权与数字垄断，而非单纯维权。

16. 实测可灵3.0 - 属于每个人的AI导演时代。

链接：阅读原文
来源：数字生命卡兹克
评分：76
要点：快手可灵 3.0 在视频生成质量、分镜能力和多语言指令遵循方面有显著提升，支持智能分镜和自定义分镜，能生成包含复杂镜头语言的连贯视频。

17. 机器人成精了？Figure 03下厨房，不经意关抽屉那一下，太像人了

链接：阅读原文
来源：新智元
日期：2026-02-08
评分：76
要点：Figure AI发布最新人形机器人Figure 03，其Helix 02系统实现了全身协同的自主控制，能像人类一样在厨房中流畅完成复杂任务。

18. 我用 AI 看了一个月新闻，63% 回答有问题，一堆 404 和瞎扯

链接：阅读原文
来源：APPSO
日期：2026-02-09
评分：74
要点：通过为期一个月的实验，文章揭示了当前AI聊天机器人在提供新闻摘要时存在严重的事实错误、编造来源和链接失效等问题，其清晰、专业的表述风格会制造一种误导性的可信感。

19. 告别上帝视角！MVGGT提出3D分割新范式，仅凭几张图精准锁定3D目标

链接：阅读原文
来源：PaperWeekly
日期：2026-01-25
评分：73
要点：文章介绍了一种名为MVGGT的新方法，用于解决在稀疏多视角RGB图像条件下进行3D指代分割的难题，无需依赖完整的稠密点云。

20. Clawdbot 教程 02：如何集成飞书，完全国产化！

链接：阅读原文
来源：歸藏的AI工具箱
日期：2026-02-05
评分：73
要点：文章提供了将Clawdbot集成到飞书的详细教程，旨在实现完全国产化的AI应用流程。

21. Seedance 2.0 最全上手指南：4 大入口、火爆玩法、详细提示词都在这

链接：阅读原文
来源：APPSO
日期：2026-02-13
评分：73
要点：文章介绍了AI视频生成模型Seedance 2.0的多种火爆玩法，主要包括利用其强大的参考能力，将用户形象替换到电影或视频中，以及结合知名IP形象进行无限创作。

22. 西湖大学破解Rectified Flow反演不稳定难题，实现零成本稳定增强｜ICLR'26

链接：阅读原文
来源：量子位
日期：2026-03-01
评分：73
要点：西湖大学提出PMI机制，通过在Rectified Flow反演中加入轻量修正项，实现零成本且无需训练的图像编辑稳定性提升。

23. 蚂蚁深夜开源比肩Genie 3的世界模型，我也看到了具身智能的未来。

链接：阅读原文
来源：数字生命卡兹克
日期：2026-01-29
评分：72
要点：蚂蚁集团旗下的灵波科技开源了可实时交互生成的世界模型 LingBot-World，其质量被认为可对标 Google Genie 3。

24. 从代工到品牌，被内容电商重塑的跨境生意

链接：阅读原文
来源：晚点LatePost
日期：2026-01-30
评分：72
要点：内容电商（如TikTok Shop）正在重塑跨境生意，通过短视频和直播将隐性消费需求转化为显性购买，帮助中国出海品牌突破认知壁垒并建立品牌心智。

25. 特斯拉停产两款传奇车型，改建产线生产人形机器人

链接：阅读原文
来源：DeepTech深科技
日期：2026-01-30
评分：71
要点：特斯拉宣布将于2026年下半年逐步停产Model S和Model X，并将相关产线改建用于生产Optimus人形机器人，标志着公司向自动驾驶和AI机器人核心的战略转型。

26. 实测即梦 Seedance 2.0：老外急着想注册，这就是中国 AI 视频的「黑神话」时刻

链接：阅读原文
来源：APPSO
日期：2026-02-11
评分：71
要点：字节自研视频生成模型Seedance 2.0因能生成高一致性、复杂运镜的AI视频而在国内外引发广泛关注和讨论。

27. 速递｜企业需要“被AI找到”：SIG和光速创投领投，AI搜索营销平台Gushwork完成900万美元种子轮融资

链接：阅读原文
来源：Z Potentials
日期：2026-02-26
评分：70
要点：【主张】AI搜索营销平台Gushwork完成900万美元种子轮融资，帮助企业从ChatGPT、Gemini等AI搜索平台捕获客户线索。【论据】Gushwork利用AI代理网络自动生成SEO内容、构建反向链接并追踪线索。其内部数据显示，AI搜索渠道贡献了客户约20%的网站流量，却带来了近40%的入站销售线索。公司年化经常性收入约150万美元，月增长率达50-80%。【启示】随着AI搜索工具...

28. Nano Banana 2深夜空降！一键生成20张图、4K高保真，价格还降了

链接：阅读原文
来源：DeepTech深科技
日期：2026-02-27
评分：70
要点：谷歌悄然发布新一代图像生成模型Nano Banana 2，基于Gemini 3.1 Flash架构，旨在结合高速生成与高质量输出。模型继承了Pro版本的图像检索、文字生成、角色一致性等功能，并在4K分辨率下价格较Pro版本下降约37%，推理速度接近翻倍。官方定位其为综合性价比高的4K生图方案。

29. 对话九合王啸：90%具身智能公司没未来，市场名额只有三五家

链接：阅读原文
来源：量子位
日期：2026-03-01
评分：70
要点：对话九合创投王啸，深入探讨具身智能的泡沫、竞争格局及投资逻辑。

30. 支持远程操控和通用GUI操作，开源版桌面虚拟同事Open Cowork来了！

链接：阅读原文
来源：机器之心
日期：2026-03-01
评分：70
要点：开源项目Open Cowork发布，集成了远程控制、GUI操作和文档生成能力，旨在打造桌面端的虚拟AI同事。

31. 马斯克深夜点赞！内容的下一站是：玩！

链接：阅读原文
来源：AGI Hunt
日期：2026-02-10
评分：69
要点：文章探讨了AI时代下一种新的内容形态——互动内容，并以产品Loopit为例，说明AI如何降低互动内容的创作门槛。

32. AI一分钟生成「塞尔达」，游戏巨头市值「雪崩」，任天堂却笑了

链接：阅读原文
来源：APPSO
日期：2026-02-07
评分：67
要点：文章认为，尽管 Genie 3 等 AI 模型能快速生成可交互的 3D 场景，但因其缺乏长期一致性、确定性的物理逻辑和复杂的事件因果链，目前无法替代传统游戏开发中构建鲜活、深度游戏世界的工作。

33. MiniMax交卷，闫俊杰瞄准三大战场

链接：阅读原文
来源：腾讯科技
日期：2026-03-03
评分：67
要点：MiniMax发布上市后首份年报，2025年总收入7904万美元，同比增长158.9%，海外收入占比提升至73%。创始人闫俊杰强调技术迭代速度（108天完成M2系列三代迭代）和增长势头（ARR已超1.5亿美元）。公司构建了全模态能力，并指出视频生成是巨大市场机会。财报显示销售费用大幅下降，而收入高速增长，表明增长由产品驱动。

34. 3D领域的NanoBanana也来了，万物皆可用嘴操控。

链接：阅读原文
来源：数字生命卡兹克
日期：2026-01-26
评分：66
要点：文章介绍了名为hyper3D的AI工具及其Rodin Gen-2功能，该工具允许用户通过自然语言提示直接编辑任意上传的3D模型，实现了“用嘴改模型”。

35. 从Pi0.5，再到LingBot-VLA：一条具身智能的路正在成型

链接：阅读原文
来源：十字路口Crossing
日期：2026-01-28
评分：66
要点：蚂蚁灵波开源了其具身智能通用大模型LingBot-VLA，旨在通过一个通用的视觉-语言-动作（VLA）基础模型，解决机器人领域因场景切换而需重复训练、导致发展碎片化的问题。此举被视为在Physical Intelligence开源Pi0.5模型后，对“VLA+开源”路线的进一步验证和推进。

36. 深度｜从 Genie 3 到 Yoroll，AI 视频原生游戏正在真正落地

链接：阅读原文
来源：Z Potentials
日期：2026-02-25
评分：65
要点：AI视频原生游戏正在落地，其核心变化是从“需用游戏引擎”变为“会用故事就能创作”。以Yoroll平台为例，它整合了AI视频生成与游戏逻辑系统，让创作者通过定义世界观和关键节点，即可生成可交互、有剧情的游戏。这降低了游戏制作门槛，可能吸引大量视频创作者进入，并冲击传统游戏引擎与制作公司的商业模式。

37. 晚点独家丨小鹏自动驾驶、智能座舱中心合并，新成立通用智能中心

链接：阅读原文
来源：晚点LatePost
日期：2026-02-03
评分：63
要点：小鹏汽车将自动驾驶中心与智能座舱中心合并为“通用智能中心”，以统一的AI技术中台支撑智驾、座舱及机器人等业务。

38. 从"看得见"到"能干活"，机器人的下一步是拥有触觉 | 对话戴盟机器人段江哗

链接：阅读原文
来源：DeepTech深科技
日期：2026-03-01
评分：63
要点：深度对话戴盟机器人，探讨视触觉传感器在具身智能从视觉迈向精细操作中的关键作用。

39. 周亚辉为什么把时间花在“写歌”上？| 实测Mureka V8

链接：阅读原文
来源：十字路口Crossing
日期：2026-01-29
评分：61
要点：昆仑万维发布的AI音乐模型Mureka V8引入了音乐思维链机制，旨在让AI在生成前先理解歌曲的整体结构，以生成更完整、可用的音乐。

40. “会长大”的机器人来了！南科大颠覆人形机器人设计，柔性骨骼身高可缩放

链接：阅读原文
来源：DeepTech深科技
日期：2026-02-02
评分：61
要点：南方科技大学团队受人类骨骼启发，研发出柔性可伸缩的人形机器人 GrowHR，其身高可在 0.49 米至 1.36 米间自由变化。

41. Seedance2.0又新出了9种神级商用玩法，变身骑士已经落后N个版本了

链接：阅读原文
来源：卡尔的AI沃茨
日期：2026-02-26
评分：60
要点：【主张】文章总结了Seedance 2.0视频生成模型的9种新兴商业用途，展示了其在追热点、广告制作、电商展示等场景下的强大能力。【论据】具体案例包括：1) 通过截取关键帧模仿热门电影转场；2) 根据指定产品自动生成包含分镜、配乐、Slogan的完整广告；3) 根据服装图片生成换装卡点视频；4) 为产品生成包含口播、近景展示的直播带货视频，甚至能自动识别产品成分生成对应文案。【启示】Se...

42. 曝OpenAI 首款硬件定名「Dime」，坏消息：成本太高，9月首发只有「阉割版」

链接：阅读原文
来源：APPSO
日期：2026-02-08
评分：58
要点：爆料称OpenAI首款消费级硬件AI耳机定名“Dime”，但因成本问题，首发版本可能仅为功能简化的音频设备。

43. 刚刚，Nano Banana 2 发布！便宜又大碗还更懂中文，体验后我发现这些细节

链接：阅读原文
来源：APPSO
日期：2026-02-27
评分：58
要点：文章实测了谷歌新发布的Nano Banana 2图像生成模型，重点评估了其基于真实世界知识库和搜索能力带来的理解力提升。模型在空间比例、复杂UI场景、中文文字渲染（如诗歌、漫画对白）以及信息图表生成方面表现出色，能更准确地理解并执行复杂、嵌套的提示词，生图结果更具实用性和“常识感”。

44. 百度端侧大模型安全建设实践：在算力与保障之间找到平衡

链接：阅读原文
来源：InfoQ
日期：2026-02-03
评分：56
要点：百度分享了在端侧大模型安全建设中的实践，重点是如何在低算力限制下满足内容审核效果，并支持多模态安全审核。

45. 实测可灵3.0，普通人的导演梦成真了

链接：阅读原文
来源：卡尔的AI沃茨
日期：2026-02-08
评分：55
要点：可灵3.0视频生成模型在分镜设计、多角色对话和画面一致性上取得显著进步，让普通人能更便捷地制作具有电影感的视频。

46. 复刻、长语音、对话、指令、音效全覆盖！模思智能推出MOSS-TTS Family！

链接：阅读原文
来源：机器之心
日期：2026-02-11
评分：55
要点：模思智能推出并开源MOSS-TTS Family语音生成模型家族，包含五个专门模型，覆盖高保真复刻、对话合成、角色设计、音效生成和实时交互等全场景语音生产需求。

47. 一副手套，干翻硅谷炫技派！中国队杀入战场，狂卷100万小时数据

链接：阅读原文
来源：新智元
日期：2026-02-13
评分：55
要点：灵初智能通过数据手套采集“人类原生数据”，以解决具身智能领域的数据荒问题，其方案区别于主流的“机器人中心”数据采集模式。

48. Seedance2.0炸场后，又一中国黑马登顶AA榜单！AI味没了

链接：阅读原文
来源：新智元
日期：2026-02-27
评分：55
要点：昆仑万维 SkyReels-V4 视频模型发布，在多模态控制和音画同步上表现优异并登顶榜单。

49. 烧光几个亿，奥特曼押注的AI记忆巨头为何突然退场？专家：记住一切，不等于创造价值

链接：阅读原文
来源：DeepTech深科技
日期：2026-02-23
评分：53
要点：① 主张：曾获奥特曼投资、试图记录用户一生的AI记忆公司Limitless（原Rewind）被Meta收购并关闭服务，案例引发对AI记忆产品市场可行性的反思。② 论据：Limitless的产品能录制并转录用户屏幕和对话，但最终未能走向大众化成功。专家指出，“记住一切”不等于“创造价值”，用户可能不愿为被动记录付费，且存在隐私、数据归属等复杂问题。③ 启示：AI记忆赛道虽受关注，但仅提供“全记...

50. 告别“哑剧”时代！Vidu Q3横空出世：16秒声画同出，硬刚Sora！

链接：阅读原文
来源：AI产品黄叔
评分：50
要点：Vidu Q3视频生成模型实现了16秒声画同步直出，标志着AI视频生成从“哑剧”进入实用阶段。