卡卡字幕助手VideoCaptioner v1.3.3：AI字幕生成工具

VideoCaptioner（卡卡字幕助手）是基于 LLM 的智能字幕工具，支持AI 字幕生成、语音识别、断句校正、字幕翻译全流程处理，无需高配置，支持在线与本地离线模式，高效输出专业字幕，适配各类视频创作需求。

一、本地 Whisper 模型使用指南

2.1 模型下载

本地识别需先安装模型底包（CPU 版或 GPU+CPU 版），再选择适配的识别模型。模型体积与识别精度正相关，同时对设备性能要求逐步提升，各模型参数如下：

模型名称	大小	核心特点
Tiny	76.0 MB	体积最小，识别速度快，适合低配设备
Base	145.0 MB	平衡速度与精度，日常轻度使用首选
Small	484.0 MB	精度提升明显，中等性能设备适配
Medium	1536.0 MB	高精度识别，兼顾速度与效果
Large-v1/v2/v3	3072.0 MB	顶级识别精度，适合专业场景，需高性能设备

2.2 参数配置

打开软件 “Whisper 设置”，选择已下载的模型；
配置运行设备（CPU/GPU）与音频源语言（如中文）；
调整 VAD 相关参数，优化语音识别断点准确性。

2.3 开始识别

将需要处理的视频或音频文件直接拖拽至软件界面，点击 “开始” 即可自动转录。识别速度取决于设备性能，核显或低配设备建议选择 Small 及以下轻量化模型。

二、LLM API 在线识别使用指南

3.1 接口配置

进入 “LLM 配置” 页面，输入 API Key、兼容 OpenAI 格式的 Base URL（需包含 /v1 后缀）；
填写模型名称后点击 “检查连接”，成功后将自动填充可用模型列表（支持 gpt-3.5-turbo 等主流模型）；
设置批处理大小（建议为 10 的倍数）与线程数，最大化利用云端算力。

3.2 核心优势

依托云端强大计算能力，LLM API 识别速度远超本地模型（高性能 GPU 设备除外）；同时支持外文视频字幕翻译，通过 AI 优化让译文更地道专业，轻松解决 “生肉” 观影的语言障碍。

3.3 操作流程

在首页将转录模型切换为 “B 接口”，后续拖拽文件、字幕优化、导出等操作与本地 Whisper 模型完全一致，无需额外学习成本。

三、软件核心功能特点

双模式识别：支持本地 Whisper 模型与 LLM API 接入，满足不同设备性能与使用场景需求；
智能优化：基于 LLM 的智能断句与字幕校正，让字幕阅读更自然流畅，减少人工修改工作量；
高效批量处理：支持多文件同时字幕合成，批处理设计大幅提升创作效率；
多格式导出：可导出 SRT、ASS、VTT 等主流字幕格式，适配各类视频编辑软件与播放工具；
直观编辑：内置实时预览与快捷编辑界面，识别错误可手动修改，操作简单易上手；
低资源消耗：内置基础 LLM 模型，消耗 Token 少，核显设备也能稳定运行。

四、使用注意事项

使用本地 Whisper 模型前，需先安装对应版本底包（CPU 或 GPU+CPU），否则无法正常加载模型；
接入 LLM API 时，需确保 Base URL 格式正确（包含 /v1 后缀），API Key 有效，否则会连接失败；
模型下载后若无法识别，可尝试 “重新下载” 或检查模型文件夹路径是否正确；
批量处理时，建议按照软件提示设置批处理大小，避免因数量过多导致程序卡顿。

1 如果您喜欢本站点击这儿多帮忙宣传本站！
2 可能会帮助到你：下载帮助 | 报毒说明 | 进站必看 | 广告合作
3 本站素材资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责
4 本站所有素材资源来源于网络，仅供学习与参考，请于下载后24小时内删除
5 若作商业用途请联系原作者授权，若侵犯了您的权益请联系站长进行删除
6 如需要转载请注明文章出处，本文链接：

THE END