AudioTextify
在一个浏览器标签页里覆盖 99 种语言。点一下按钮,音频就变成可读、可摘要、可翻译、可再加工的文字。
行业: 生产力、多语言内容 | 技术栈: Chrome MV3、TypeScript、Speech API、Translation API、LLM 集成 | 状态: 已上架 Chrome Web Store | Chrome Web Store
AudioTextify 做什么#
AudioTextify 是一款 Chrome 扩展,能对音频和视频内容执行四种 AI 操作:转录、摘要、翻译和内容生成。打开一段法语视频讲座,点击扩展,您就能得到英文文字稿。从这里开始,您可以对其进行摘要、再翻译成第三种语言,或从中生成一篇博客文章。整条链路都在浏览器标签页内运行。
该扩展支持 99 种语言的转录和翻译,处理 MP3、WAV 和视频格式,并根据每月处理量分为免费版和高级版。高级版每月提供 10 小时处理额度。
多语言的挑战#
做一个转录工具是直接的事情。做一个能在 99 种语言上都站得住脚的转录工具则不是。
问题会迅速叠加。一个主要基于美式英语训练的语音识别模型,在印度、苏格兰或南非口音上就会磕磕绊绊。像普通话和越南语这样的声调语言,则需要完全不同的处理方式。再把下游工作加上:转录完成后,系统需要做摘要或翻译,而这些输出必须读起来像真实的语言,而不是机械的逐词替换。上下文、习语以及领域术语都需要妥当处理,朴素流水线在这些地方会出错。
客户是法国人,这意味着这不是一个抽象的多语言需求。他是在为每天真正跨语言工作的用户构建产品,而现有工具要么要求上传文件、要么要求切换环境,要么根本不支持他需要的语言组合。他给出的约束,即让用户留在浏览器里而不离开当前页面,塑造了此后的每一个决策。
Chrome 的 Manifest V3 并没有让这件事变得容易。Service worker 生命周期是被强制执行的。后台处理受到限制。持久化存储有上限。要在这些边界内运行四条串联的 AI 流水线(语音转文字、NLP 摘要、翻译、内容生成),需要精心编排 API 调用、跨 service worker 生命周期管理状态,以及在触发速率限制或网络条件变差时具备兜底行为。让用户按下按钮时感觉像即时响应,比 AI 集成本身花了更多工夫。
我们构建了什么#
核心是一个多阶段流水线,每一步的输出喂给下一步。用户可以在转录后停下,也可以继续进入摘要、翻译和生成,每一阶段都使用上一阶段的输出。
转录层在清晰音频上对 99 种语言实现了 90%+ 的准确率,并在用户未指定时自动检测源语言。
摘要层把原始文字稿浓缩成结构化输出:关键点、主要论点和要点总结。一段 45 分钟的讲座会产生数千字的文字稿;摘要层让它变得可用,用户不必再从头读一遍。
翻译远不止词语替换。技术术语、习语表达和领域语言都需要有上下文意识的处理。输出的目标是在目标语言里读起来自然,而不是像查了字典。
最后一个阶段会基于已处理的内容生成新的内容。一位从外语访谈出发工作的研究者,可以得到一篇英文文章初稿。正是这个场景打动了客户、让他决定推进项目。
在基础设施方面,该扩展运行在 Manifest V3 上,使用 service worker 脚本、用于音频检测和抽取的 content scripts、弹窗和 side panel UI、处理串行与并行调用的 API 编排层,并使用 Stripe 进行订阅管理。
核心能力#
- 一键转录: 在浏览器中直接转录音频和视频内容,无需把文件上传到单独的服务
- 99 语支持: 跨 99 种语言进行转录和翻译,自动检测源语言
- AI 摘要: 将长文字稿浓缩为结构化摘要,包含关键点和要点
- 跨语言内容生成: 从任意一种受支持语言的音频源,生成任意另一种受支持语言的新内容
- 免费和高级版: 免费版每月 30 分钟处理额度,高级版 $9.99/月,每月 10 小时
- 可编辑输出: 所有生成的文字稿、摘要和翻译在导出前均可完全编辑
成果#
扩展已发布到 Chrome Web Store 并持续维护。这位法国客户获得了一个覆盖他整套语言组合、满足「留在浏览器内」约束的工具,并支持从原始音频到可发布内容的四阶段工作流。整个交付从最初架构一直贯穿到商店上架。
正在构建多语言 AI 工具或 Chrome 扩展?了解我们的浏览器扩展开发服务,或预约免费的自动化审计。