将视频制作门槛降至新低。
作者|金光浩
编辑|靖宇
上周,我在测试第 17 个 AI 视频工具。
有点麻木了。
过去一年,我试过各种方案:
1、自己手动改:ChatGPT 写脚本,Nanobanana-pro 生成分镜图,即梦把图片变成视频,最后导入剪映配音配乐。一个 30 秒的短视频,折腾两三个小时。
2、AI 一键生成视频的 Agent:崩溃的是 Prompt 根本不知道怎么写,为了让 AI 理解我想要什么画面,我得像写论文一样描述每一个细节:镜头角度、光线方向、色调风格、人物表情……我从内容创作者,变成了提示词工程师。
直到上周,我在即刻看到「博主海辛」推荐了 Medeo,视频效果很丝滑。
于是,我找人要了一个邀请码注册,也想体验下。
当我第一次打开网页,看到界面非常简洁而克制,主界面就一个输入框,干净得像个搜索引擎。
medeo 首页|图片来源:medeo
我随手敲了一句:「一杯手冲咖啡的制作过程,温暖的木质桌面,阳光洒进来,治愈系风格,做一个 30 秒的慢生活短视频」。
点击 Generate。等了三分钟。屏幕上出现了一个完整的视频,配上轻缓的背景音乐,很治愈。
我愣了一下。不是一张图。不是没声音的片段。不用改。是一个完整的、可以直接发布的视频。
而我用了一年 AI 视频工具,从来没有这种体验:通常,「生成完的视频」还要我再改吧改吧。
有点上头。我决定用几个真实需求,测测它的底线在哪。
01
高光时刻:一句话做出商业级广告
我设计了三个不同难度的任务,来测试一下 Medeo 的能力边界。
第一个:简单创意视频
我输入一句话:「一只穿着迷你西装的柯基,在东京地铁里通勤上班,日系治愈风格,做一个模仿 vlog 的 30 秒视频。」
Medeo 的处理过程:先理解需求,自动写脚本,设计几个分镜(街道行走→刷卡进站→凝望窗外),调用生图模型生成画面,再用图生视频让画面动起来,最后配上 BGM。
给我的感受:简洁的界面,简单的交互,严格的指令遵循,一句话生成精美的画面。
medeo 生成柯基地铁的视频创作过程|图片来源:medeo
全程不到十分钟。成片效果出乎意料。
画面风格统一,柯基形象在不同镜头里保持一致,旁白语气温柔治愈,BGM 节奏卡得刚刚好。
用传统流程手工做这个视频?至少一个上午。
第二个:复杂工作流
我想测试它能不能处理更复杂的指令。输入:「我要做伊卡洛斯飞向太阳的希腊神话片段,先用图生图确保人物一致性生成分镜,最后用 sora2 图生视频,然后配英文的史诗感解说,做 30 秒视频」。
这个指令包含几个技术要求:人物一致性、指定模型(sora2)、指定语言和风格(英文史诗感)。
Medeo 没被难住。
它把整个任务拆分成几个子任务,然后逐个完成。
1、编写完整脚本:伊卡洛斯神话概念、分镜设计、英文解说词
2、生成伊卡洛斯角色参考图(蜡翼、希腊风格)
3、使用图生图生成所有分镜画面(确保人物一致性)
medeo 生成的英文史诗动画视频制作过程|图片来源:medeo
4、生成英文史诗风格解说配音
5、使用 Sora2 图生视频转换所有分镜
6、组装时间线:视频片段+配音+BGM
30 秒的悲剧神话,从输入到成片,五分钟。
它先生成伊卡洛斯的角色形象——年轻的少年、蜡制的翅膀,用图生图确保他在每个分镜里长得一样,接着用 sora-2 把静态图变成动态视频:振翅、飞升、靠近烈日、羽翼融化,最后配上浑厚的英文旁白。
第三个:专业级广告分镜
我用 Gemini 设计了一个高难度的广告脚本:高端机械腕表广告「时间的心跳」。
15 秒,要求极致微距、机械美学的 3D 特写效果。提示词如下:
「这个高端机械腕表广告「时间的心跳」,帮我生成 15s 的详细分镜,直接输出结果即可。
要求极致微距、机械美学的 3D 特写效果。
示例分镜描述:「纯黑背景。一枚精钢机芯悬浮在画面中央。齿轮缓缓咬合转动,红宝石轴承折射出冷冽的光。镜头穿过游丝摆轮,捕捉每一次精准的震颤。灯光勾勒出工业之美的极致质感」。」
gemini3 生成分镜的过程|图片来源:lmarena
我把完整分镜表贴到 Medeo,点击生成。
medeo 的提示词交互界面|图片来源:medeo
出来的效果让我有点惊讶。
齿轮的金属质感、轴承的光影流转、摆轮的精密震动,都达到了接近专业广告的水准。虽然和真正的 TVC 还有差距,但考虑到这是一个 AI 工具用几分钟做出来的,性价比已经很高了。
02
发现的几个小问题
用了一周,我发现了这个产品几个需要迭代的问题。
第一个问题:生成速度受限于底层模型调用
因为 Medeo 需要串联文生图、图生视频、TTS 等多个模型,如果依赖的下游模型卡了,整体等待时间会比较长。
有个流程设计的问题:语音可能会重复生成,原因是依赖的视频生成模型也可能生成语音,会和自己单独生成的语音重复。
medeo 生成的英文史诗动画视频制作过程|图片来源:medeo
还有一个问题,Sora2 出于版权,有些视频无法生成,导致多个分镜合并的时候有遗漏。
当然,这个问题也是有解的,根据我的经验,如果想彻底解决这个问题,同一个任务可能要测试不同家的模型 api,一家的慢了,马上切换到另一家,毕竟同时出问题的概率比较小。
我判断,Medeo 这个团队,技术功底很扎实。
因为当我给出反馈 Medeo 第二次生成时,已经用上了这个策略:当 Sora2 视频生成出现问题的时候,换用了标准的 12V 来重新生成视频,规避了审核问题。
同时,语音生成的问题,通过重新生成也得到解决。
medeo 生成的英文史诗动画视频制作过程|图片来源:medeo
第二个问题:精细编辑能力有限
如果你是专业剪辑师,习惯了 Premiere 或 Final Cut,Medeo 的编辑界面可能会让你觉得不够灵活。
它支持拖拉拽编辑,但功能相对基础。复杂转场、精细音频调整、多轨道叠加,目前还做不到专业剪辑软件的水平。
当然,这可能本来就不是它的目标:它想解决的是「从 0 到 80 分」,不是「从 80 分到 100 分」
对于这个群体,这些限制其实不是问题,用户真正的问题是:它到底能否快速落地我的创意。
而 Medeo 真的在用「一句话 vibe 视频」的方式,把这个问题落地解决。
第三个问题:价格不透明
目前还在内测阶段,靠激活码使用。正式定价还不清楚,但从背后的模型调用成本来看,应该不会便宜。
但也许这也是他们的策略,这类视频生成 agent,可能想在内测期间,通过用户的反馈,确定一个市场可以接受的价格。
总的来说,上面的问题都不是大问题,现在是最好的尝试这类产品的时机:等到产品正式发布,我们就可以第一时间用工具创造价值,进而拿到结果。
在深度体验后,我大概知道谁最适合用这款产品:
1、内容创作者做短视频:一条文案 5 分钟生成专业视频,特别适合小红书、抖音、B 站的日更博主。
2、企业营销做宣传片:产品介绍、活动预告、招聘海报,省下 80% 外包费。
3、教育培训做课程视频:知识可视化,把枯燥讲解变成生动动画。
4、文字创作者做视频内容:擅长写作但不会剪辑?Medeo 帮你把文字变成视频。
适合用 Medeo 的人群和场景|图片来源:smart draw
03
它改变了我的创作状态:
从怎么做到做什么
用 Medeo 一周后,我发现自己的创作状态变了。
以前,每次想做视频,第一反应是:「太麻烦了,算了」。
因为我知道后面有多少坑:写脚本、找素材、调 Prompt、生成图片、图生视频、剪辑、配音、配乐……每一步都可能出问题,每一步都要花时间学。
现在,第一反应变成了:「这个想法有意思,试试看」。
从想法到成片,只需要几分钟。
效果不满意?调整几轮也能搞定。试错成本大幅降低。
说白了,它让我不用再纠结「怎么做」,而是直接想「做什么」。
在社媒看到 Medeo 团队有个观点,我很认同:
「创作者,应该和想法较劲,而不是和工具较劲」。
过去一年,AI 视频工具进步很快,但大多数在解决「单点能力」的问题:更逼真的画面、更流畅的动作、更自然的语音。
Medeo 解决的是「全流程」问题:怎么把这些单点能力串起来,让普通人也能用。
这让我想到一个关于 Notion 的类比。
十年前,想做网站,你要学 HTML、CSS、JavaScript,还要懂服务器部署。现在,用 Notion 拖拖拽拽就能搞定。
AI 视频创作可能正在经历类似的变化。
Medeo 想做的,有点像视频领域的「Notion」:让创作门槛降到最低。
04
为什么做「AI 导演」
而不是「更好的生成器」?
Medeo 的上述设计理念很有趣,但我还想往深了想一层:
为什么 Medeo 要选择这样做?
我试着从以下三个角度拆解:
第一层逻辑:生成能力正在被快速商品化。
两年前,能生成连贯视频的 AI 只有 Runway。现在呢?
可灵、即梦、Pika、Sora2、Veo、Seko、Flova……
每隔几个月就有新玩家入场。
生成质量的差距在快速缩小,单纯比「谁生成得更好」,护城河会越来越浅。
据我的观察,AI 视频类产品,只有集成越来越多「独特」的「专业」的「know how」(如本次推荐的 Medeo),或者切中一个细分的领域(如上次 AI 上新里介绍的 OiiOii),产品才有核心壁垒。
第二层逻辑:用户的真正痛点不在生成,而在「完成」。
这是我自己的血泪教训。
我用 AI 生成了上百条视频片段,真正剪成作品发布的,不到十条。
中间缺失的环节「脚本、分镜、剪辑、配音、调色」,这些才是真正吃时间的地方。
用户要的是 10 分钟做一个 80 分的视频,而不是 80 分钟做一个 100 分的视频。
第三层逻辑:对话式交互是降低门槛的关键。
传统的视频制作工具,不管是 Premiere 还是达芬奇,学习曲线都很陡峭。
就连剪映这种「轻量级」工具,很多人也只会用最基础的功能。
但聊天,每个人都会。
一个明显的趋势是,越来越多的智能语音输入法,如智谱输入法、豆包输入法、以及最近爆火的闪电说,都在试图让语音替代打字,成为人机交互的新入口。
毕竟,无论是语音还是文字,其核心都是人与机器的直接「对话」。
当 Medeo 把所有复杂操作都隐藏在「对话」背后,用户只需描述「我想要什么」,而不用关心「我该怎么做」。这样的设计,正是将使用门槛真正归零。
05
你的故事,值得被看见
如果从用户视角看这个产品有什么价值,Medeo 正试图解决 AI 视频生成的「最后一公里」问题。
过去,AI 视频工具能力已经很强。Sora2 能生成惊艳画面,即梦能创造精美图像,各种 TTS 工具能合成自然语音。但把这些能力串起来,变成完整视频,仍然需要大量人工操作和专业知识。
Medeo 做的事情,是把这些能力整合成一个「AI 导演」:你告诉它想要什么,它帮你完成剩下的所有事情。
出于好奇,我顺藤摸瓜查了一下背后的团队:One2X。
他们对产品的愿景和我的感受很一致:当 AI 赋予我们几乎无限的生成能力时,工具的使命是让创作者更专注于创作本身,而不是被工具所限制。
One2X 团队 8 月份即刻招人动态|图片来源:即刻
Medeo 还不完美,但作为内测产品,完成度已经让我有点意外。
对于大多数想做视频但不会剪辑不懂 AI 的人,Medeo 可能是目前最接近「开箱即用」的方案。
说到底,它回答的是一个很实际的问题:
当做视频变得像发微信一样简单,
我们要跟这个世界分享什么故事?
*头图来源:medeo
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO