
2024 年被称为“AI 生成元年”,技术不断变迁,产品形态进化,商业化呈现多种打法,巨头也纷纷布局。本文基于报告为您深度剖析 AI 生成产业的现状与未来信阳异型材设备,揭示其中的机遇与挑战。
2024年,被科技圈公认为“AI生成元年”。
年初OpenAI发布的Sora,像一颗深水炸弹,瞬间炸穿了人们对“生成”的想象天花板。长达60秒的连贯镜头、复杂的物理世界模拟,让原本还停留在“PPT动画”水平的行业一夜惊醒。然而,半年过去了,Sora至今未对公众开放,但战场却早已硝烟弥漫。
从Runway Gen-3到快手可灵,从Luma到生数科技的Vidu,国内外玩家疯狂卷技术、卷应用。对于产品经理和从业者来说,现在焦虑的问题不再是“AI能不能生成”,而是:这东西到底能不能用?怎么赚钱?未来的护城河在哪里?
基于量子位智库发布的《AI生成研究报告》,我们抽丝剥茧,试图一个真实的AI生成产业全貌。
一、 技术底座的变迁:为什么是现在?在讨论产品之前,须先理解技术的代际跃迁。AI生成并非一夜冒出来的,它经历了一个从“甚至不能动”到“理解物理世界”的痛苦过程。
报告清晰地梳理了这一技术路线图:
早期(GANs时代):如2016年前后,果差、生成内容不可控,基本不可用。中期(Transformer时代):2017年开始,谷歌发布Video Vision Transformer,开始尝试理解序列,但算力昂贵,果有限。爆发期(Diffusion + Transformer):这是当下的核心。Sora的“暴力美学”与DiT架构
Sora之所以强,本质上验证了一条路:DiT(Diffusion Transformer)。简单来说,以前的扩散模型(如Stable Diffusion)用的是U-Net架构,这在处理图像时很棒,但在处理这种这就需要强“时空连贯”的数据时,U-Net有些力不从心。
DiT将Transformer的Scaling Law(缩放定律)引入了生成。这意味着,只要你喂给模型足够多的高质量数据(+文本对),再加上足够狂暴的算力(H100集群),模型就能涌现出对“物理世界”的理解能力。
产品视角解读:这也带来了当前行业的三大硬伤,也是产品经理在设计相关应用时须面对的客观物理限制:
算力成本高:训练一个Sora级别的模型,成本是千万美元起步。推理成本更是惊人,生成一分钟可能需要数十分钟的渲染和高昂的GPU费用。抽卡模式:目前的一致(Consistency)依然是痛点。人物换个镜头衣服变了、脸崩了是常态。用户需要反复“抽卡”才能得到可用素材。可控差:导演想让主角“向左转头并微笑”,AI可能生成“向右转头并大笑”。二、 产品形态的进化:从“玩具”到“工作流”这是报告中值得产品人深思的部分。
早期AI产品(如Runway Gen-1)更多是“单点工具”,用户输入Prompt,生成一段几秒的。这种模式对于C端用户尝鲜尚可,但对于B端业用户(影视、广告、短剧)来说,不可控的随机生成不仅不是生产力,反而是干扰。
报告指出,2024年的产品趋势正在发生本质变化:从单点生成走向全流程工作流(Workflow)。
1. 控制权的回归
目前的头部产品(如Runway, Pika, 可灵)都在疯狂加更“控制功能”:
运镜控制:推拉摇移,模拟真实摄像机。运动笔刷:涂抹哪里,哪里动。尾帧控制:也就是Start-to-End,确保的开头和结尾符逻辑,这对于剪辑衔接至关重要。2. “分镜”逻辑的引入
LTX Studio 与 MOKI报告中提及了LTX Studio和美图的MOKI,代表了下一代产品的形态。它们不再是简单的对话框,而是引入了“故事板(Storyboard)”和“分镜”的概念。
LTX Studio:用户先生成角一致设定,然后通过脚本生成分镜图,确认分镜没问题后,再将分镜图“化”。这符传统影视工业的作业流程,大地降低了废片率。美图MOKI:为AI短剧设计。它把流程拆解为:脚本生成 -> 角设计 -> 分镜图生成 -> 生成 -> 配音配乐。洞察:未来的AI产品,竞争壁垒不在于底层的模型(因为大家都会趋同),而在于谁能更深地嵌入到行业工作流中。谁能帮用户解决“角一致”和“多镜头叙事”的痛点,谁就能拿下B端市场。
三、 商业化的真相:谁在赚钱?怎么赚钱?AI生成的商业化,目前主要分为三类玩家,他们的打法截然不同。
1. 卖铲子的:底层模型厂商(Model as a Service)代表玩家:OpenAI (Sora), Runway, 生数科技 (Vidu), 爱诗科技 (PixVerse)。
模式:订阅制(SaaS)+ API调用。
现状:烧钱猛,壁垒高。报告显示,Runway的年营收已达500万美元级别,Midjourney更是凭借图像生成做到了2亿美元营收。这一层的竞争是“军备竞赛”,只有头部一两家能活下来。国内的生数科技、爱诗科技目前处于一梯队,融资额均过亿。
2. 做装修的:内容工具大厂代表玩家:Adobe, Canva, 美图, 剪映(字节)。
模式:功能内嵌,增值服务。
优势:他们不一定非要自己从头训练一个Sora,他们可以直接接入三方的模型,塑料挤出设备或者微调开源模型。
Adobe的策略老辣:它推出了Firefly Video Model,直接嵌在Premiere和After Effects里。对于业剪辑师来说,我不想要一个生成的网页,我只想要在剪辑时间线上,用AI帮我“擦除这个路人”或者“延长这3秒素材”。场景结是这类玩家的杀技。
3. 挖金矿的:垂直场景解决方案代表玩家:FancyTech, Boolv(布尔向量)。这也是报告中非常亮眼的一类隐形冠军。
文安县建仓机械厂痛点:电商卖家每天要做大量,请模特贵、拍摄慢。
FancyTech打法:注于电商商品化。通过AI学习商品详情页,自动生成脚本,结3D建模和生成,把静态商品图变成动态。
数据:FancyTech在23年就已经实现月入破千万。
Boolv打法:注于出海营销。帮跨境电商卖家一键生成TikTok营销短。
洞察:垂直类公司不追求做出一个“物理世界模拟器”,他们只追求“这个包包的光泽度对不对”、“这个模特的动作假不假”。
在细分域,数据质量和行业Know-how比通用模型更重要。
四、 巨头的博弈:字节、腾讯与阿里的棋局报告中详细分析了国内互联网大厂的布局,非常耐人寻味。与创业公司的“高举高打”不同,大厂显得其务实且谨慎。
里的汪小菲,一手摸着脸还不好意思地笑:“嘿,看来还是我脸皮薄哈,一晚上没刮胡子全长出来了!” [捂脸] 这话确实没说错,胡子拉碴的样子看着就挺沧桑,眼神里藏不住的疲惫,跟之前意气风发的样子比,多了不少生活的奔波感。
——想看人数多是《误杀》、《默杀》导演柯汶利的“三杀”《匿杀》。

结论:大厂不会轻易下场做纯粹的“生成工具”去和Runway抢生意,他们更倾向于将能力内化,赋能现有的核心业务(广告、电商、游戏)。
五、 未来推演:产品经理需要关注的三个变量基于报告的分析,未来1-3年,AI生成域有三个关键变量值得关注:
1. 成本的摩尔定律
报告中提到,目前推理成本高(H100每小时约3美元)。但随着Flash Attention等优化技术的发展,以及用推理芯片的出现,推理成本有望在一年内下降90%(参考LLM的降价路径)。机会点:一旦成本下降到临界点,实时互动(AI Video Game)和个化定制短剧将爆发。想象一下,你玩的游戏,剧情和画面是AI实时生成的,每一局都不一样。
2. “多模态统一”是终局
现在的生成,其实是“静音”的,或者是“画面+立配音”。Google Gemini和OpenAI GPT-4o展示了未来的方向:原生多模态(Native Multimodal)。模型天生就理解声音、画面和文字。未来的产品,不再是“文生”,而是“与AI导演对话”。你对它说“风声大一点”,画面中的树叶摇动会变剧烈,同时风声音也会变大。音画同步的细腻度将是体验的分水岭。
3. 从“生成”到“编辑”
目前的AI大多是“一锤子买卖”,生成了就不能改。未来的方向是可编辑(Editability)。类似于在Photoshop里修图,用户应该能在里通过自然语言修改局部:“把这件红衣服换成蓝的,但人物动作不要变”。谁解决了的局部重绘(Inpainting)和控制,谁就掌握了通往业影视制作的门票。
结语看完这份46页的报告,大的感受是:AI生成已经过了“看热闹”的阶段,进入了“拼刺刀”的深水区。
对于SaaS层面的创业者来说,窗口期正在关闭,因为巨头和头部模型厂商正在快速补齐能力。但对于应用层的产品经理来说,好戏才刚刚开始。
现在的AI,就像早期的移动互联网,基站建好了(模型有了),手机普及了(算力在增长),但真正的“微信”和“抖音”还没出现。
机会或许就藏在那些**“看起来不感,但能实实在在解决率问题”**的垂直工作流里。是在电商的详情页里,是在短剧的剧本会上,是在游戏美术的素材库里。
Sora还没来,但我们已经在路上了。
(本文基于量子位智库2024年7月发布的《AI生成研究报告》撰写)
本文由 @狸归四海 原创发布于人人都是产品经理。未经作者许可,禁止转载
题图来自Pixabay信阳异型材设备,基于CC0协议
