我用 Codex 跑视频字幕的大致流程

核心链路：音频 -> SRT -> 修字幕 -> ASS -> 烧录到视频 -> 抽帧检查

安装前提

依赖两样：FFmpeg + whisper.cpp（本地语音识别，不传云端）

bash

whisper-cli -m ./ggml-small.bin -f speech.mp3 -l zh -ng -osrt -of speech

SRT 只解决"听出来什么"和"什么时候显示"，不负责样式。

大模型只做三件事：

白字半透明黑底，底部居中，按视频真实分辨率设置字号和边距。

bash

ffmpeg -i input.mp4 -vf "ass=subtitle.ass" output.mp4

烧完抽一帧检查效果：

bash

ffmpeg -y -ss 00:00:03 -i output.mp4 -frames:v 1 subtitle_check.jpg

从字幕提取关键词，大模型生成封面文案：

Codex 自动加字幕
语音识别、ASS 样式、FFmpeg 烧录

封面图转视频，拼接到正文开头。

Codex 不是剪辑软件，而是把本地工具串起来的工程助手：

优势：可重复、可检查、可替换。后续可整理成 Codex skill。