关于 WithVideo

看视频的终点不是笔记，是真实运行的结果

WithVideo 是专为工程师设计的 AI 视频学习与执行引擎。它先读懂讲师在说什么，只有字幕搞不定时才分析画面，把教程视频里的每一个具体步骤提炼成可预览、可审批的执行计划——并在你本地的 shell、编辑器或 IDE 里直接跑出来。

为什么做这个工具

语义优先，不是逐帧看图

别的视频 AI 工具把视频当一堆帧处理。WithVideo 先读懂讲师说的话，只有字幕搞不定——比如代码截图、UI 操作——时才分析画面。一次 LLM 调用完成全量分类，50–70% 的字幕块直接跳过视觉分析。

大部分「视频总结」工具的终点是一份 Markdown 笔记。WithVideo 的终点是 git status 里的真实改动。每一步都是可预览的 diff，你明确 accept 之后才真正执行——不会悄悄改你的环境。

设计时就假设你不想把教程视频送到别人的服务器。默认全链路本地处理：Apple Silicon 上用 mlx-whisper 转录，OCR 用本地 ONNX 模型，LLM 也可以换成 Ollama 等本地模型。

工作原理

实测数据

~78x

OCR 视觉后端加速比

对比旧视觉链路

7m49s

10 分钟视频端到端

Apple Silicon 实测

8m28s

20 分钟视频语义阶段

4 worker 并行后

~5s

全量字幕块语义分类

一次 LLM 调用

适用场景