信阳异型材设备复盘2024 AI生成：从Sora的惊艳到落地的艰难，万字报告里的真实现状

关于我们 | 2025-12-24 00:14

2024 年被称为“AI 生成元年”，技术不断变迁，产品形态进化，商业化呈现多种打法，巨头也纷纷布局。本文基于报告为您深度剖析 AI 生成产业的现状与未来信阳异型材设备，揭示其中的机遇与挑战。

2024年，被科技圈公认为“AI生成元年”。

年初OpenAI发布的Sora，像一颗深水炸弹，瞬间炸穿了人们对“生成”的想象天花板。长达60秒的连贯镜头、复杂的物理世界模拟，让原本还停留在“PPT动画”水平的行业一夜惊醒。然而，半年过去了，Sora至今未对公众开放，但战场却早已硝烟弥漫。

从Runway Gen-3到快手可灵，从Luma到生数科技的Vidu，国内外玩家疯狂卷技术、卷应用。对于产品经理和从业者来说，现在焦虑的问题不再是“AI能不能生成”，而是：这东西到底能不能用？怎么赚钱？未来的护城河在哪里？

基于量子位智库发布的《AI生成研究报告》，我们抽丝剥茧，试图一个真实的AI生成产业全貌。

一、技术底座的变迁：为什么是现在？

在讨论产品之前，须先理解技术的代际跃迁。AI生成并非一夜冒出来的，它经历了一个从“甚至不能动”到“理解物理世界”的痛苦过程。

报告清晰地梳理了这一技术路线图：

早期（GANs时代）：如2016年前后，果差、生成内容不可控，基本不可用。中期（Transformer时代）：2017年开始，谷歌发布Video Vision Transformer，开始尝试理解序列，但算力昂贵，果有限。爆发期（Diffusion + Transformer）：这是当下的核心。

Sora的“暴力美学”与DiT架构

Sora之所以强，本质上验证了一条路：DiT（Diffusion Transformer）。简单来说，以前的扩散模型（如Stable Diffusion）用的是U-Net架构，这在处理图像时很棒，但在处理这种这就需要强“时空连贯”的数据时，U-Net有些力不从心。

DiT将Transformer的Scaling Law（缩放定律）引入了生成。这意味着，只要你喂给模型足够多的高质量数据（+文本对），再加上足够狂暴的算力（H100集群），模型就能涌现出对“物理世界”的理解能力。

产品视角解读：这也带来了当前行业的三大硬伤，也是产品经理在设计相关应用时须面对的客观物理限制：

算力成本高：训练一个Sora级别的模型，成本是千万美元起步。推理成本更是惊人，生成一分钟可能需要数十分钟的渲染和高昂的GPU费用。抽卡模式：目前的一致（Consistency）依然是痛点。人物换个镜头衣服变了、脸崩了是常态。用户需要反复“抽卡”才能得到可用素材。可控差：导演想让主角“向左转头并微笑”，AI可能生成“向右转头并大笑”。

二、产品形态的进化：从“玩具”到“工作流”

这是报告中值得产品人深思的部分。

早期AI产品（如Runway Gen-1）更多是“单点工具”，用户输入Prompt，生成一段几秒的。这种模式对于C端用户尝鲜尚可，但对于B端业用户（影视、广告、短剧）来说，不可控的随机生成不仅不是生产力，反而是干扰。

报告指出，2024年的产品趋势正在发生本质变化：从单点生成走向全流程工作流（Workflow）。

1. 控制权的回归

目前的头部产品（如Runway, Pika, 可灵）都在疯狂加更“控制功能”：

运镜控制：推拉摇移，模拟真实摄像机。运动笔刷：涂抹哪里，哪里动。尾帧控制：也就是Start-to-End，确保的开头和结尾符逻辑，这对于剪辑衔接至关重要。

2. “分镜”逻辑的引入

LTX Studio 与 MOKI报告中提及了LTX Studio和美图的MOKI，代表了下一代产品的形态。它们不再是简单的对话框，而是引入了“故事板（Storyboard）”和“分镜”的概念。

LTX Studio：用户先生成角一致设定，然后通过脚本生成分镜图，确认分镜没问题后，再将分镜图“化”。这符传统影视工业的作业流程，大地降低了废片率。美图MOKI：为AI短剧设计。它把流程拆解为：脚本生成 -> 角设计 -> 分镜图生成 -> 生成 -> 配音配乐。

洞察：未来的AI产品，竞争壁垒不在于底层的模型（因为大家都会趋同），而在于谁能更深地嵌入到行业工作流中。谁能帮用户解决“角一致”和“多镜头叙事”的痛点，谁就能拿下B端市场。

三、商业化的真相：谁在赚钱？怎么赚钱？

AI生成的商业化，目前主要分为三类玩家，他们的打法截然不同。

1. 卖铲子的：底层模型厂商（Model as a Service）

代表玩家：OpenAI (Sora), Runway, 生数科技 (Vidu), 爱诗科技 (PixVerse)。

模式：订阅制（SaaS）+ API调用。

现状：烧钱猛，壁垒高。报告显示，Runway的年营收已达500万美元级别，Midjourney更是凭借图像生成做到了2亿美元营收。这一层的竞争是“军备竞赛”，只有头部一两家能活下来。国内的生数科技、爱诗科技目前处于一梯队，融资额均过亿。

2. 做装修的：内容工具大厂

代表玩家：Adobe, Canva, 美图, 剪映（字节）。

模式：功能内嵌，增值服务。

优势：他们不一定非要自己从头训练一个Sora，他们可以直接接入三方的模型，塑料挤出设备或者微调开源模型。

Adobe的策略老辣：它推出了Firefly Video Model，直接嵌在Premiere和After Effects里。对于业剪辑师来说，我不想要一个生成的网页，我只想要在剪辑时间线上，用AI帮我“擦除这个路人”或者“延长这3秒素材”。场景结是这类玩家的杀技。

3. 挖金矿的：垂直场景解决方案

代表玩家：FancyTech, Boolv（布尔向量）。这也是报告中非常亮眼的一类隐形冠军。

文安县建仓机械厂

痛点：电商卖家每天要做大量，请模特贵、拍摄慢。

FancyTech打法：注于电商商品化。通过AI学习商品详情页，自动生成脚本，结3D建模和生成，把静态商品图变成动态。

数据：FancyTech在23年就已经实现月入破千万。

Boolv打法：注于出海营销。帮跨境电商卖家一键生成TikTok营销短。

洞察：垂直类公司不追求做出一个“物理世界模拟器”，他们只追求“这个包包的光泽度对不对”、“这个模特的动作假不假”。

在细分域，数据质量和行业Know-how比通用模型更重要。

四、巨头的博弈：字节、腾讯与阿里的棋局

报告中详细分析了国内互联网大厂的布局，非常耐人寻味。与创业公司的“高举高打”不同，大厂显得其务实且谨慎。

里的汪小菲，一手摸着脸还不好意思地笑：“嘿，看来还是我脸皮薄哈，一晚上没刮胡子全长出来了！” [捂脸] 这话确实没说错，胡子拉碴的样子看着就挺沧桑，眼神里藏不住的疲惫，跟之前意气风发的样子比，多了不少生活的奔波感。

——想看人数多是《误杀》、《默杀》导演柯汶利的“三杀”《匿杀》。

字节跳动（即梦/剪映）：拥有强的基因（抖音/TikTok）。字节内部赛马机制严重，但成果显著。剪映是其大的落地场景，Story Diffusion等技术可以直接转化为剪映里的“一键成片”功能。字节的策略是：不仅要有模型，更要有生态。快手（可灵）：2024年的黑马。快手发布的可灵模型，果直接对标Sora，且迅速向公众开放。快手的优势在于其拥有海量的短数据（这是训练模型核心的资产）。快手通过“可灵”不仅秀了肌肉，更是在构建一个AI创作者社区。腾讯（混元）：相对低调，侧重于混元大模型的多模态能力。腾讯拥有大的社交和游戏场景，未来的AI技术大概率会率先应用在游戏制作（如NPC动作生成）和广告投放上。阿里巴巴：侧重于电商赋能。阿里妈妈发布的AtomoVideo等技术，核心是服务淘宝天猫商家的，帮商家降低制作成本。

结论：大厂不会轻易下场做纯粹的“生成工具”去和Runway抢生意，他们更倾向于将能力内化，赋能现有的核心业务（广告、电商、游戏）。

五、未来推演：产品经理需要关注的三个变量

基于报告的分析，未来1-3年，AI生成域有三个关键变量值得关注：

1. 成本的摩尔定律

报告中提到，目前推理成本高（H100每小时约3美元）。但随着Flash Attention等优化技术的发展，以及用推理芯片的出现，推理成本有望在一年内下降90%（参考LLM的降价路径）。机会点：一旦成本下降到临界点，实时互动（AI Video Game）和个化定制短剧将爆发。想象一下，你玩的游戏，剧情和画面是AI实时生成的，每一局都不一样。

2. “多模态统一”是终局

现在的生成，其实是“静音”的，或者是“画面+立配音”。Google Gemini和OpenAI GPT-4o展示了未来的方向：原生多模态（Native Multimodal）。模型天生就理解声音、画面和文字。未来的产品，不再是“文生”，而是“与AI导演对话”。你对它说“风声大一点”，画面中的树叶摇动会变剧烈，同时风声音也会变大。音画同步的细腻度将是体验的分水岭。

3. 从“生成”到“编辑”

目前的AI大多是“一锤子买卖”，生成了就不能改。未来的方向是可编辑（Editability）。类似于在Photoshop里修图，用户应该能在里通过自然语言修改局部：“把这件红衣服换成蓝的，但人物动作不要变”。谁解决了的局部重绘（Inpainting）和控制，谁就掌握了通往业影视制作的门票。

结语

看完这份46页的报告，大的感受是：AI生成已经过了“看热闹”的阶段，进入了“拼刺刀”的深水区。

对于SaaS层面的创业者来说，窗口期正在关闭，因为巨头和头部模型厂商正在快速补齐能力。但对于应用层的产品经理来说，好戏才刚刚开始。

现在的AI，就像早期的移动互联网，基站建好了（模型有了），手机普及了（算力在增长），但真正的“微信”和“抖音”还没出现。

机会或许就藏在那些**“看起来不感，但能实实在在解决率问题”**的垂直工作流里。是在电商的详情页里，是在短剧的剧本会上，是在游戏美术的素材库里。

Sora还没来，但我们已经在路上了。

(本文基于量子位智库2024年7月发布的《AI生成研究报告》撰写)

本文由 @狸归四海原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Pixabay信阳异型材设备，基于CC0协议

上一篇：东营塑料管材设备价格山东出台养老服务改革发展意见，到2029年基本建成覆盖城乡的三级养老网络