这个AI视频应用，让我不再满足只做「爆火短视频贩子」,ai+视频

将视频制作门槛降至新低。

作者｜金光浩

编辑｜靖宇

上周，我在测试第 17 个 AI 视频工具。

有点麻木了。

过去一年，我试过各种方案：

1、自己手动改：ChatGPT 写脚本，Nanobanana-pro 生成分镜图，即梦把图片变成视频，最后导入剪映配音配乐。一个 30 秒的短视频，折腾两三个小时。

2、AI 一键生成视频的 Agent：崩溃的是 Prompt 根本不知道怎么写，为了让 AI 理解我想要什么画面，我得像写论文一样描述每一个细节：镜头角度、光线方向、色调风格、人物表情……我从内容创作者，变成了提示词工程师。

直到上周，我在即刻看到「博主海辛」推荐了 Medeo，视频效果很丝滑。

于是，我找人要了一个邀请码注册，也想体验下。

当我第一次打开网页，看到界面非常简洁而克制，主界面就一个输入框，干净得像个搜索引擎。

medeo 首页｜图片来源：medeo

我随手敲了一句：「一杯手冲咖啡的制作过程，温暖的木质桌面，阳光洒进来，治愈系风格，做一个 30 秒的慢生活短视频」。

点击 Generate。等了三分钟。屏幕上出现了一个完整的视频，配上轻缓的背景音乐，很治愈。

我愣了一下。不是一张图。不是没声音的片段。不用改。是一个完整的、可以直接发布的视频。

而我用了一年 AI 视频工具，从来没有这种体验：通常，「生成完的视频」还要我再改吧改吧。

有点上头。我决定用几个真实需求，测测它的底线在哪。

高光时刻：一句话做出商业级广告

我设计了三个不同难度的任务，来测试一下 Medeo 的能力边界。

第一个：简单创意视频

我输入一句话：「一只穿着迷你西装的柯基，在东京地铁里通勤上班，日系治愈风格，做一个模仿 vlog 的 30 秒视频。」

Medeo 的处理过程：先理解需求，自动写脚本，设计几个分镜（街道行走→刷卡进站→凝望窗外），调用生图模型生成画面，再用图生视频让画面动起来，最后配上 BGM。

给我的感受：简洁的界面，简单的交互，严格的指令遵循，一句话生成精美的画面。

medeo 生成柯基地铁的视频创作过程｜图片来源：medeo

全程不到十分钟。成片效果出乎意料。

画面风格统一，柯基形象在不同镜头里保持一致，旁白语气温柔治愈，BGM 节奏卡得刚刚好。

用传统流程手工做这个视频？至少一个上午。

第二个：复杂工作流

我想测试它能不能处理更复杂的指令。输入：「我要做伊卡洛斯飞向太阳的希腊神话片段，先用图生图确保人物一致性生成分镜，最后用 sora2 图生视频，然后配英文的史诗感解说，做 30 秒视频」。

这个指令包含几个技术要求：人物一致性、指定模型（sora2）、指定语言和风格（英文史诗感）。

Medeo 没被难住。

它把整个任务拆分成几个子任务，然后逐个完成。

1、编写完整脚本：伊卡洛斯神话概念、分镜设计、英文解说词

2、生成伊卡洛斯角色参考图（蜡翼、希腊风格）

3、使用图生图生成所有分镜画面（确保人物一致性）

medeo 生成的英文史诗动画视频制作过程｜图片来源：medeo

4、生成英文史诗风格解说配音

5、使用 Sora2 图生视频转换所有分镜

6、组装时间线：视频片段+配音+BGM

30 秒的悲剧神话，从输入到成片，五分钟。

它先生成伊卡洛斯的角色形象——年轻的少年、蜡制的翅膀，用图生图确保他在每个分镜里长得一样，接着用 sora-2 把静态图变成动态视频：振翅、飞升、靠近烈日、羽翼融化，最后配上浑厚的英文旁白。

第三个：专业级广告分镜

我用 Gemini 设计了一个高难度的广告脚本：高端机械腕表广告「时间的心跳」。

15 秒，要求极致微距、机械美学的 3D 特写效果。提示词如下：

「这个高端机械腕表广告「时间的心跳」，帮我生成 15s 的详细分镜，直接输出结果即可。

要求极致微距、机械美学的 3D 特写效果。

示例分镜描述：「纯黑背景。一枚精钢机芯悬浮在画面中央。齿轮缓缓咬合转动，红宝石轴承折射出冷冽的光。镜头穿过游丝摆轮，捕捉每一次精准的震颤。灯光勾勒出工业之美的极致质感」。」

gemini3 生成分镜的过程｜图片来源：lmarena

我把完整分镜表贴到 Medeo，点击生成。

medeo 的提示词交互界面｜图片来源：medeo

出来的效果让我有点惊讶。

齿轮的金属质感、轴承的光影流转、摆轮的精密震动，都达到了接近专业广告的水准。虽然和真正的 TVC 还有差距，但考虑到这是一个 AI 工具用几分钟做出来的，性价比已经很高了。

发现的几个小问题

用了一周，我发现了这个产品几个需要迭代的问题。

第一个问题：生成速度受限于底层模型调用

因为 Medeo 需要串联文生图、图生视频、TTS 等多个模型，如果依赖的下游模型卡了，整体等待时间会比较长。

有个流程设计的问题：语音可能会重复生成，原因是依赖的视频生成模型也可能生成语音，会和自己单独生成的语音重复。

medeo 生成的英文史诗动画视频制作过程｜图片来源：medeo

还有一个问题，Sora2 出于版权，有些视频无法生成，导致多个分镜合并的时候有遗漏。

当然，这个问题也是有解的，根据我的经验，如果想彻底解决这个问题，同一个任务可能要测试不同家的模型 api，一家的慢了，马上切换到另一家，毕竟同时出问题的概率比较小。

我判断，Medeo 这个团队，技术功底很扎实。

因为当我给出反馈 Medeo 第二次生成时，已经用上了这个策略：当 Sora2 视频生成出现问题的时候，换用了标准的 12V 来重新生成视频，规避了审核问题。

同时，语音生成的问题，通过重新生成也得到解决。

medeo 生成的英文史诗动画视频制作过程｜图片来源：medeo

第二个问题：精细编辑能力有限

如果你是专业剪辑师，习惯了 Premiere 或 Final Cut，Medeo 的编辑界面可能会让你觉得不够灵活。

它支持拖拉拽编辑，但功能相对基础。复杂转场、精细音频调整、多轨道叠加，目前还做不到专业剪辑软件的水平。

当然，这可能本来就不是它的目标：它想解决的是「从 0 到 80 分」，不是「从 80 分到 100 分」

对于这个群体，这些限制其实不是问题，用户真正的问题是：它到底能否快速落地我的创意。

而 Medeo 真的在用「一句话 vibe 视频」的方式，把这个问题落地解决。

第三个问题：价格不透明

目前还在内测阶段，靠激活码使用。正式定价还不清楚，但从背后的模型调用成本来看，应该不会便宜。

但也许这也是他们的策略，这类视频生成 agent，可能想在内测期间，通过用户的反馈，确定一个市场可以接受的价格。

总的来说，上面的问题都不是大问题，现在是最好的尝试这类产品的时机：等到产品正式发布，我们就可以第一时间用工具创造价值，进而拿到结果。

在深度体验后，我大概知道谁最适合用这款产品：

1、内容创作者做短视频：一条文案 5 分钟生成专业视频，特别适合小红书、抖音、B 站的日更博主。

2、企业营销做宣传片：产品介绍、活动预告、招聘海报，省下 80% 外包费。

3、教育培训做课程视频：知识可视化，把枯燥讲解变成生动动画。

4、文字创作者做视频内容：擅长写作但不会剪辑？Medeo 帮你把文字变成视频。

适合用 Medeo 的人群和场景｜图片来源：smart draw

它改变了我的创作状态：

从怎么做到做什么

用 Medeo 一周后，我发现自己的创作状态变了。

以前，每次想做视频，第一反应是：「太麻烦了，算了」。

因为我知道后面有多少坑：写脚本、找素材、调 Prompt、生成图片、图生视频、剪辑、配音、配乐……每一步都可能出问题，每一步都要花时间学。

现在，第一反应变成了：「这个想法有意思，试试看」。

从想法到成片，只需要几分钟。

效果不满意？调整几轮也能搞定。试错成本大幅降低。

说白了，它让我不用再纠结「怎么做」，而是直接想「做什么」。

在社媒看到 Medeo 团队有个观点，我很认同：

「创作者，应该和想法较劲，而不是和工具较劲」。

过去一年，AI 视频工具进步很快，但大多数在解决「单点能力」的问题：更逼真的画面、更流畅的动作、更自然的语音。

Medeo 解决的是「全流程」问题：怎么把这些单点能力串起来，让普通人也能用。

这让我想到一个关于 Notion 的类比。

十年前，想做网站，你要学 HTML、CSS、JavaScript，还要懂服务器部署。现在，用 Notion 拖拖拽拽就能搞定。

AI 视频创作可能正在经历类似的变化。

Medeo 想做的，有点像视频领域的「Notion」：让创作门槛降到最低。

为什么做「AI 导演」

而不是「更好的生成器」？

Medeo 的上述设计理念很有趣，但我还想往深了想一层：

为什么 Medeo 要选择这样做？

我试着从以下三个角度拆解：

第一层逻辑：生成能力正在被快速商品化。

两年前，能生成连贯视频的 AI 只有 Runway。现在呢？

可灵、即梦、Pika、Sora2、Veo、Seko、Flova……

每隔几个月就有新玩家入场。

生成质量的差距在快速缩小，单纯比「谁生成得更好」，护城河会越来越浅。

据我的观察，AI 视频类产品，只有集成越来越多「独特」的「专业」的「know how」（如本次推荐的 Medeo），或者切中一个细分的领域（如上次 AI 上新里介绍的 OiiOii），产品才有核心壁垒。

第二层逻辑：用户的真正痛点不在生成，而在「完成」。

这是我自己的血泪教训。

我用 AI 生成了上百条视频片段，真正剪成作品发布的，不到十条。

中间缺失的环节「脚本、分镜、剪辑、配音、调色」，这些才是真正吃时间的地方。

用户要的是 10 分钟做一个 80 分的视频，而不是 80 分钟做一个 100 分的视频。

第三层逻辑：对话式交互是降低门槛的关键。

传统的视频制作工具，不管是 Premiere 还是达芬奇，学习曲线都很陡峭。

就连剪映这种「轻量级」工具，很多人也只会用最基础的功能。

但聊天，每个人都会。

一个明显的趋势是，越来越多的智能语音输入法，如智谱输入法、豆包输入法、以及最近爆火的闪电说，都在试图让语音替代打字，成为人机交互的新入口。

毕竟，无论是语音还是文字，其核心都是人与机器的直接「对话」。

当 Medeo 把所有复杂操作都隐藏在「对话」背后，用户只需描述「我想要什么」，而不用关心「我该怎么做」。这样的设计，正是将使用门槛真正归零。

你的故事，值得被看见

如果从用户视角看这个产品有什么价值，Medeo 正试图解决 AI 视频生成的「最后一公里」问题。

过去，AI 视频工具能力已经很强。Sora2 能生成惊艳画面，即梦能创造精美图像，各种 TTS 工具能合成自然语音。但把这些能力串起来，变成完整视频，仍然需要大量人工操作和专业知识。

Medeo 做的事情，是把这些能力整合成一个「AI 导演」：你告诉它想要什么，它帮你完成剩下的所有事情。

出于好奇，我顺藤摸瓜查了一下背后的团队：One2X。

他们对产品的愿景和我的感受很一致：当 AI 赋予我们几乎无限的生成能力时，工具的使命是让创作者更专注于创作本身，而不是被工具所限制。

One2X 团队 8 月份即刻招人动态｜图片来源：即刻

Medeo 还不完美，但作为内测产品，完成度已经让我有点意外。

对于大多数想做视频但不会剪辑不懂 AI 的人，Medeo 可能是目前最接近「开箱即用」的方案。

说到底，它回答的是一个很实际的问题：

当做视频变得像发微信一样简单，

我们要跟这个世界分享什么故事？

*头图来源：medeo

本文为极客公园原创文章，转载请联系极客君微信 geekparkGO