跳转至

AI 多模态:优质文章清单

最后更新:2026-03-05

视频生成、语音合成、具身智能、多模态大模型的最新进展。 从简报系统 937 篇 AI 文章中按评分精选 Top 50,持续更新。


1. 想让机器人春晚包饺子?阿里达摩院:别急,先把「大脑」优化一下

  • 链接阅读原文
  • 来源:机器之心
  • 日期:2026-02-10
  • 评分:85
  • 要点:阿里达摩院开源了具身智能模型RynnBrain,通过将时空记忆和物理空间推理直接训练进模型,旨在提升机器人在复杂物理环境中的规划与执行能力。

2. 昨天马斯克转发的那个App,我让一个5岁小孩试了试,他安静地玩了一晚上。

  • 链接阅读原文
  • 来源:探索AGI
  • 日期:2026-02-11
  • 评分:84
  • 要点:文章通过实际体验,认为Loopit的核心价值在于让AI生成可交互、可玩的内容,而不仅仅是观看的视频,这使其区别于Sora等AI视频生成工具。

3. 在机器人眼中,玻璃并不存在

  • 链接阅读原文
  • 来源:赛博禅心
  • 日期:2026-01-27
  • 评分:82
  • 要点:机器人视觉系统长期存在无法准确识别透明或反光物体的问题,而开源项目LingBot-Depth通过AI模型补全缺失的深度信息,为解决此问题提供了新思路。

4. 年末 AI 回顾:从模型到应用,从技术到商战,拽住洪流中的意义之线

  • 链接阅读原文
  • 来源:晚点LatePost
  • 日期:2026-02-12
  • 评分:82
  • 要点:文章回顾了2025年至2026年初AI领域的关键进展,涵盖模型、应用、巨头竞争、创业公司、具身智能、硬件及人文影响等多个主题,试图在快速变化中梳理出发展脉络。

5. 陶哲轩来给AI数学泼冷水了

  • 链接阅读原文
  • 来源:量子位
  • 日期:2026-02-25
  • 评分:82
  • 要点:① 陶哲轩指出,AI在生成大量数学新想法的同时,也显著降低了想法的平均质量,许多AI生成的方案被证明是错误的。② 他提出数学进步公式应修正为“优秀新想法数量”乘以“想法库信噪比”,AI可能通过增加低质量想法而降低整体信噪比。③ 为抑制负面影响,他建议开发一种用于描述数学策略(而非完整证明)的新形式化语言,为AI生成的想法引入“选择性摩擦”,引导其产出更优质的结果。

6. 万字追问:当红的意识整合信息论,为何在他眼中只是一个漂亮的营销工具?

  • 链接阅读原文
  • 来源:追问nextquestion
  • 日期:2026-01-29
  • 评分:81
  • 要点:认知科学家约夏·巴赫与物理学家徐道辉讨论了意识的本质,巴赫认为所有意识体验本质上都是虚拟的建构,并批评整合信息理论更像是一个营销工具。

7. 陈亦伦和李震宇创立的具身公司它石智航,不做 VLA、不仿真,不走主流路线

  • 链接阅读原文
  • 来源:晚点LatePost
  • 日期:2026-02-02
  • 评分:81
  • 要点:它石智航由陈亦伦和李震宇创立,在具身智能领域采取反主流路线,不依赖 VLA 模型,而是自研 AWE 并采集真实场景数据。

8. 从“选择”迈向“生成”!华科团队最新综述:定义多模态推荐系统新范式

  • 链接阅读原文
  • 来源:PaperWeekly
  • 评分:81
  • 要点:华中科技大学团队在综述中提出,多模态推荐系统正从传统的“在库中选择”范式,转向“为用户个性化生成”的新范式。

9. 全新视角看世界模型:从视频生成迈向通用世界模拟器

  • 链接阅读原文
  • 来源:机器之心
  • 日期:2026-02-07
  • 评分:80
  • 要点:快手可灵团队与港科大(广州)团队联合发表综述,提出以“状态构建”与“动态建模”为双支柱的新分类体系,旨在将视频生成模型推进为具备推理和规划能力的“通用世界模拟器”。

10. 深度|蚂蚁灵波上桌,不止“性能超越Pi 0.5”,更是具身智能新分工时代

  • 链接阅读原文
  • 来源:Z Potentials
  • 日期:2026-01-28
  • 评分:79
  • 要点:蚂蚁灵波开源其具身大模型 LingBot-VLA 及全链路工具链,旨在为行业提供一个高性能、可泛化的智能基座,以解决机器人领域算法孤岛和全栈自研成本高的问题。

11. 大家都在说它是 AI 时代的抖音,真的吗?

  • 链接阅读原文
  • 来源:十字路口Crossing
  • 日期:2026-02-11
  • 评分:79
  • 要点:文章通过实测体验Loopit,探讨其作为「互动内容平台」与抖音等传统「观看型」内容平台的区别,认为其核心是让用户「玩」内容而不仅是「看」。

12. 对话拓竹陶冶:我们一群工程师,一起造个朴素的硬核公司

  • 链接阅读原文
  • 来源:晚点LatePost
  • 日期:2026-01-26
  • 评分:78
  • 要点:文章讲述了拓竹科技如何通过硬核工程创新,将难用的消费级3D打印机变得易用,从而引爆市场,成为行业第一的创业故事。

13. 21天让肿瘤缩小60%!加州理工团队研发尿素驱动气泡机器人,可自主导航精准引爆肿瘤

  • 链接阅读原文
  • 来源:DeepTech深科技
  • 日期:2026-02-08
  • 评分:78
  • 要点:加州理工团队研发出以尿素为动力的生物可吸收微泡机器人,能自主导航至肿瘤并定向释放药物,在小鼠实验中使肿瘤缩小60%。

14. 春晚机器人没切镜头,阿里RynnBrain让具身智能不再需要切换模型

  • 链接阅读原文
  • 来源:PaperAgent
  • 日期:2026-02-25
  • 评分:78
  • 要点:阿里开源的RynnBrain是一个统一的具身智能时空基础模型,将感知、定位、推理、规划四大核心能力集成于一体,无需为不同任务切换模型。该模型旨在让机器人在真实动态环境中实现“手眼脑”协同,如同今年春晚机器人表演一样流畅。这代表了具身智能从“多模型切换”迈向“统一大脑”的技术跨越。

15. 三家中国大模型公司被卷入蒸馏风波,律师解读:Anthropic的指控从法律上很牵强

  • 链接阅读原文
  • 来源:腾讯科技
  • 日期:2026-02-25
  • 评分:77
  • 要点:律师针对Anthropic指控中国大模型公司通过蒸馏技术窃取其模型功能一事进行解读,认为从法律角度看该指控很牵强。核心论据在于,通过API调用获取的AI生成内容缺乏人类作者的智力创造,难以构成受著作权法保护的作品;且蒸馏是行业常见技术迭代手段。文章暗示Anthropic的指控可能意在技术霸权与数字垄断,而非单纯维权。

16. 实测可灵3.0 - 属于每个人的AI导演时代。

  • 链接阅读原文
  • 来源:数字生命卡兹克
  • 评分:76
  • 要点:快手可灵 3.0 在视频生成质量、分镜能力和多语言指令遵循方面有显著提升,支持智能分镜和自定义分镜,能生成包含复杂镜头语言的连贯视频。

17. 机器人成精了?Figure 03下厨房,不经意关抽屉那一下,太像人了

  • 链接阅读原文
  • 来源:新智元
  • 日期:2026-02-08
  • 评分:76
  • 要点:Figure AI发布最新人形机器人Figure 03,其Helix 02系统实现了全身协同的自主控制,能像人类一样在厨房中流畅完成复杂任务。

18. 我用 AI 看了一个月新闻,63% 回答有问题,一堆 404 和瞎扯

  • 链接阅读原文
  • 来源:APPSO
  • 日期:2026-02-09
  • 评分:74
  • 要点:通过为期一个月的实验,文章揭示了当前AI聊天机器人在提供新闻摘要时存在严重的事实错误、编造来源和链接失效等问题,其清晰、专业的表述风格会制造一种误导性的可信感。

19. 告别上帝视角!MVGGT提出3D分割新范式,仅凭几张图精准锁定3D目标

  • 链接阅读原文
  • 来源:PaperWeekly
  • 日期:2026-01-25
  • 评分:73
  • 要点:文章介绍了一种名为MVGGT的新方法,用于解决在稀疏多视角RGB图像条件下进行3D指代分割的难题,无需依赖完整的稠密点云。

20. Clawdbot 教程 02:如何集成飞书,完全国产化!

  • 链接阅读原文
  • 来源:歸藏的AI工具箱
  • 日期:2026-02-05
  • 评分:73
  • 要点:文章提供了将Clawdbot集成到飞书的详细教程,旨在实现完全国产化的AI应用流程。

21. Seedance 2.0 最全上手指南:4 大入口、火爆玩法、详细提示词都在这

  • 链接阅读原文
  • 来源:APPSO
  • 日期:2026-02-13
  • 评分:73
  • 要点:文章介绍了AI视频生成模型Seedance 2.0的多种火爆玩法,主要包括利用其强大的参考能力,将用户形象替换到电影或视频中,以及结合知名IP形象进行无限创作。

22. 西湖大学破解Rectified Flow反演不稳定难题,实现零成本稳定增强|ICLR'26

  • 链接阅读原文
  • 来源:量子位
  • 日期:2026-03-01
  • 评分:73
  • 要点:西湖大学提出PMI机制,通过在Rectified Flow反演中加入轻量修正项,实现零成本且无需训练的图像编辑稳定性提升。

23. 蚂蚁深夜开源比肩Genie 3的世界模型,我也看到了具身智能的未来。

  • 链接阅读原文
  • 来源:数字生命卡兹克
  • 日期:2026-01-29
  • 评分:72
  • 要点:蚂蚁集团旗下的灵波科技开源了可实时交互生成的世界模型 LingBot-World,其质量被认为可对标 Google Genie 3。

24. 从代工到品牌,被内容电商重塑的跨境生意

  • 链接阅读原文
  • 来源:晚点LatePost
  • 日期:2026-01-30
  • 评分:72
  • 要点:内容电商(如TikTok Shop)正在重塑跨境生意,通过短视频和直播将隐性消费需求转化为显性购买,帮助中国出海品牌突破认知壁垒并建立品牌心智。

25. 特斯拉停产两款传奇车型,改建产线生产人形机器人

  • 链接阅读原文
  • 来源:DeepTech深科技
  • 日期:2026-01-30
  • 评分:71
  • 要点:特斯拉宣布将于2026年下半年逐步停产Model S和Model X,并将相关产线改建用于生产Optimus人形机器人,标志着公司向自动驾驶和AI机器人核心的战略转型。

26. 实测即梦 Seedance 2.0:老外急着想注册,这就是中国 AI 视频的「黑神话」时刻

  • 链接阅读原文
  • 来源:APPSO
  • 日期:2026-02-11
  • 评分:71
  • 要点:字节自研视频生成模型Seedance 2.0因能生成高一致性、复杂运镜的AI视频而在国内外引发广泛关注和讨论。

27. 速递|企业需要“被AI找到”:SIG和光速创投领投,AI搜索营销平台Gushwork完成900万美元种子轮融资

  • 链接阅读原文
  • 来源:Z Potentials
  • 日期:2026-02-26
  • 评分:70
  • 要点:【主张】AI搜索营销平台Gushwork完成900万美元种子轮融资,帮助企业从ChatGPT、Gemini等AI搜索平台捕获客户线索。 【论据】Gushwork利用AI代理网络自动生成SEO内容、构建反向链接并追踪线索。其内部数据显示,AI搜索渠道贡献了客户约20%的网站流量,却带来了近40%的入站销售线索。公司年化经常性收入约150万美元,月增长率达50-80%。 【启示】随着AI搜索工具...

28. Nano Banana 2深夜空降!一键生成20张图、4K高保真,价格还降了

  • 链接阅读原文
  • 来源:DeepTech深科技
  • 日期:2026-02-27
  • 评分:70
  • 要点:谷歌悄然发布新一代图像生成模型Nano Banana 2,基于Gemini 3.1 Flash架构,旨在结合高速生成与高质量输出。模型继承了Pro版本的图像检索、文字生成、角色一致性等功能,并在4K分辨率下价格较Pro版本下降约37%,推理速度接近翻倍。官方定位其为综合性价比高的4K生图方案。

29. 对话九合王啸:90%具身智能公司没未来,市场名额只有三五家

  • 链接阅读原文
  • 来源:量子位
  • 日期:2026-03-01
  • 评分:70
  • 要点:对话九合创投王啸,深入探讨具身智能的泡沫、竞争格局及投资逻辑。

30. 支持远程操控和通用GUI操作,开源版桌面虚拟同事Open Cowork来了!

  • 链接阅读原文
  • 来源:机器之心
  • 日期:2026-03-01
  • 评分:70
  • 要点:开源项目Open Cowork发布,集成了远程控制、GUI操作和文档生成能力,旨在打造桌面端的虚拟AI同事。

31. 马斯克深夜点赞!内容的下一站是:玩!

  • 链接阅读原文
  • 来源:AGI Hunt
  • 日期:2026-02-10
  • 评分:69
  • 要点:文章探讨了AI时代下一种新的内容形态——互动内容,并以产品Loopit为例,说明AI如何降低互动内容的创作门槛。

32. AI一分钟生成「塞尔达」,游戏巨头市值「雪崩」,任天堂却笑了

  • 链接阅读原文
  • 来源:APPSO
  • 日期:2026-02-07
  • 评分:67
  • 要点:文章认为,尽管 Genie 3 等 AI 模型能快速生成可交互的 3D 场景,但因其缺乏长期一致性、确定性的物理逻辑和复杂的事件因果链,目前无法替代传统游戏开发中构建鲜活、深度游戏世界的工作。

33. MiniMax交卷,闫俊杰瞄准三大战场

  • 链接阅读原文
  • 来源:腾讯科技
  • 日期:2026-03-03
  • 评分:67
  • 要点:MiniMax发布上市后首份年报,2025年总收入7904万美元,同比增长158.9%,海外收入占比提升至73%。创始人闫俊杰强调技术迭代速度(108天完成M2系列三代迭代)和增长势头(ARR已超1.5亿美元)。公司构建了全模态能力,并指出视频生成是巨大市场机会。财报显示销售费用大幅下降,而收入高速增长,表明增长由产品驱动。

34. 3D领域的NanoBanana也来了,万物皆可用嘴操控。

  • 链接阅读原文
  • 来源:数字生命卡兹克
  • 日期:2026-01-26
  • 评分:66
  • 要点:文章介绍了名为hyper3D的AI工具及其Rodin Gen-2功能,该工具允许用户通过自然语言提示直接编辑任意上传的3D模型,实现了“用嘴改模型”。

35. 从Pi0.5,再到LingBot-VLA:一条具身智能的路正在成型

  • 链接阅读原文
  • 来源:十字路口Crossing
  • 日期:2026-01-28
  • 评分:66
  • 要点:蚂蚁灵波开源了其具身智能通用大模型LingBot-VLA,旨在通过一个通用的视觉-语言-动作(VLA)基础模型,解决机器人领域因场景切换而需重复训练、导致发展碎片化的问题。此举被视为在Physical Intelligence开源Pi0.5模型后,对“VLA+开源”路线的进一步验证和推进。

36. 深度|从 Genie 3 到 Yoroll,AI 视频原生游戏正在真正落地

  • 链接阅读原文
  • 来源:Z Potentials
  • 日期:2026-02-25
  • 评分:65
  • 要点:AI视频原生游戏正在落地,其核心变化是从“需用游戏引擎”变为“会用故事就能创作”。以Yoroll平台为例,它整合了AI视频生成与游戏逻辑系统,让创作者通过定义世界观和关键节点,即可生成可交互、有剧情的游戏。这降低了游戏制作门槛,可能吸引大量视频创作者进入,并冲击传统游戏引擎与制作公司的商业模式。

37. 晚点独家丨小鹏自动驾驶、智能座舱中心合并,新成立通用智能中心

  • 链接阅读原文
  • 来源:晚点LatePost
  • 日期:2026-02-03
  • 评分:63
  • 要点:小鹏汽车将自动驾驶中心与智能座舱中心合并为“通用智能中心”,以统一的AI技术中台支撑智驾、座舱及机器人等业务。

38. 从"看得见"到"能干活",机器人的下一步是拥有触觉 | 对话戴盟机器人段江哗

  • 链接阅读原文
  • 来源:DeepTech深科技
  • 日期:2026-03-01
  • 评分:63
  • 要点:深度对话戴盟机器人,探讨视触觉传感器在具身智能从视觉迈向精细操作中的关键作用。

39. 周亚辉为什么把时间花在“写歌”上?| 实测Mureka V8

  • 链接阅读原文
  • 来源:十字路口Crossing
  • 日期:2026-01-29
  • 评分:61
  • 要点:昆仑万维发布的AI音乐模型Mureka V8引入了音乐思维链机制,旨在让AI在生成前先理解歌曲的整体结构,以生成更完整、可用的音乐。

40. “会长大”的机器人来了!南科大颠覆人形机器人设计,柔性骨骼身高可缩放

  • 链接阅读原文
  • 来源:DeepTech深科技
  • 日期:2026-02-02
  • 评分:61
  • 要点:南方科技大学团队受人类骨骼启发,研发出柔性可伸缩的人形机器人 GrowHR,其身高可在 0.49 米至 1.36 米间自由变化。

41. Seedance2.0又新出了9种神级商用玩法,变身骑士已经落后N个版本了

  • 链接阅读原文
  • 来源:卡尔的AI沃茨
  • 日期:2026-02-26
  • 评分:60
  • 要点:【主张】文章总结了Seedance 2.0视频生成模型的9种新兴商业用途,展示了其在追热点、广告制作、电商展示等场景下的强大能力。 【论据】具体案例包括:1) 通过截取关键帧模仿热门电影转场;2) 根据指定产品自动生成包含分镜、配乐、Slogan的完整广告;3) 根据服装图片生成换装卡点视频;4) 为产品生成包含口播、近景展示的直播带货视频,甚至能自动识别产品成分生成对应文案。 【启示】Se...

42. 曝OpenAI 首款硬件定名「Dime」,坏消息:成本太高,9月首发只有「阉割版」

  • 链接阅读原文
  • 来源:APPSO
  • 日期:2026-02-08
  • 评分:58
  • 要点:爆料称OpenAI首款消费级硬件AI耳机定名“Dime”,但因成本问题,首发版本可能仅为功能简化的音频设备。

43. 刚刚,Nano Banana 2 发布!便宜又大碗还更懂中文,体验后我发现这些细节

  • 链接阅读原文
  • 来源:APPSO
  • 日期:2026-02-27
  • 评分:58
  • 要点:文章实测了谷歌新发布的Nano Banana 2图像生成模型,重点评估了其基于真实世界知识库和搜索能力带来的理解力提升。模型在空间比例、复杂UI场景、中文文字渲染(如诗歌、漫画对白)以及信息图表生成方面表现出色,能更准确地理解并执行复杂、嵌套的提示词,生图结果更具实用性和“常识感”。

44. 百度端侧大模型安全建设实践:在算力与保障之间找到平衡

  • 链接阅读原文
  • 来源:InfoQ
  • 日期:2026-02-03
  • 评分:56
  • 要点:百度分享了在端侧大模型安全建设中的实践,重点是如何在低算力限制下满足内容审核效果,并支持多模态安全审核。

45. 实测可灵3.0,普通人的导演梦成真了

  • 链接阅读原文
  • 来源:卡尔的AI沃茨
  • 日期:2026-02-08
  • 评分:55
  • 要点:可灵3.0视频生成模型在分镜设计、多角色对话和画面一致性上取得显著进步,让普通人能更便捷地制作具有电影感的视频。

46. 复刻、长语音、对话、指令、音效全覆盖!模思智能推出MOSS-TTS Family!

  • 链接阅读原文
  • 来源:机器之心
  • 日期:2026-02-11
  • 评分:55
  • 要点:模思智能推出并开源MOSS-TTS Family语音生成模型家族,包含五个专门模型,覆盖高保真复刻、对话合成、角色设计、音效生成和实时交互等全场景语音生产需求。

47. 一副手套,干翻硅谷炫技派!中国队杀入战场,狂卷100万小时数据

  • 链接阅读原文
  • 来源:新智元
  • 日期:2026-02-13
  • 评分:55
  • 要点:灵初智能通过数据手套采集“人类原生数据”,以解决具身智能领域的数据荒问题,其方案区别于主流的“机器人中心”数据采集模式。

48. Seedance2.0炸场后,又一中国黑马登顶AA榜单!AI味没了

  • 链接阅读原文
  • 来源:新智元
  • 日期:2026-02-27
  • 评分:55
  • 要点:昆仑万维 SkyReels-V4 视频模型发布,在多模态控制和音画同步上表现优异并登顶榜单。

49. 烧光几个亿,奥特曼押注的AI记忆巨头为何突然退场?专家:记住一切,不等于创造价值

  • 链接阅读原文
  • 来源:DeepTech深科技
  • 日期:2026-02-23
  • 评分:53
  • 要点:① 主张:曾获奥特曼投资、试图记录用户一生的AI记忆公司Limitless(原Rewind)被Meta收购并关闭服务,案例引发对AI记忆产品市场可行性的反思。② 论据:Limitless的产品能录制并转录用户屏幕和对话,但最终未能走向大众化成功。专家指出,“记住一切”不等于“创造价值”,用户可能不愿为被动记录付费,且存在隐私、数据归属等复杂问题。③ 启示:AI记忆赛道虽受关注,但仅提供“全记...

50. 告别“哑剧”时代!Vidu Q3横空出世:16秒声画同出,硬刚Sora!

  • 链接阅读原文
  • 来源:AI产品黄叔
  • 评分:50
  • 要点:Vidu Q3视频生成模型实现了16秒声画同步直出,标志着AI视频生成从“哑剧”进入实用阶段。