WithVideo
关于 WithVideo

看视频的终点不是笔记,是真实运行的结果

WithVideo 是专为工程师设计的 AI 视频学习与执行引擎。它先读懂讲师在说什么,只有字幕搞不定时才分析画面,把教程视频里的每一个具体步骤提炼成可预览、可审批的执行计划——并在你本地的 shell、编辑器或 IDE 里直接跑出来。

为什么做这个工具

语义优先,不是逐帧看图

别的视频 AI 工具把视频当一堆帧处理。WithVideo 先读懂讲师说的话,只有字幕搞不定——比如代码截图、UI 操作——时才分析画面。一次 LLM 调用完成全量分类,50–70% 的字幕块直接跳过视觉分析。

不是笔记,是可执行的 diff

大部分「视频总结」工具的终点是一份 Markdown 笔记。WithVideo 的终点是 git status 里的真实改动。每一步都是可预览的 diff,你明确 accept 之后才真正执行——不会悄悄改你的环境。

本地优先,视频不离机

设计时就假设你不想把教程视频送到别人的服务器。默认全链路本地处理:Apple Silicon 上用 mlx-whisper 转录,OCR 用本地 ONNX 模型,LLM 也可以换成 Ollama 等本地模型。

工作原理

五阶段流水线

  1. 1

    视频采集

    YouTube / B 站 / 本地 mp4·mov·mkv

  2. 2

    字幕转录

    Whisper 语音识别或平台自带字幕

  3. 3

    语义判断

    一次 LLM 调用给全量字幕块分类(约 5 秒)

  4. 4

    视觉分析

    仅在字幕搞不定时运行,50–70% 的块直接跳过

  5. 5

    指南生成

    guide.md + semantic.json + code/,三件可执行产物

实测数据

不是估计,是测出来的

~78x
OCR 视觉后端加速比
对比旧视觉链路
7m49s
10 分钟视频端到端
Apple Silicon 实测
8m28s
20 分钟视频语义阶段
4 worker 并行后
~5s
全量字幕块语义分类
一次 LLM 调用
适用场景

效果最好

  • CLI 工具操作教程
  • 框架初始化(Next.js / FastAPI / Rails...)
  • 部署流程(Docker / Vercel / K8s)
  • vibe coding 类项目复现

不太适合

  • 纯讲概念的理论视频(没有可执行步骤)
  • 无字幕且语音识别质量差的视频