去年非常高兴地荣升为准爸爸,老婆的工作分配得少了一些,有更多的时间休息。

我除了照顾好她的生活起居以外,也要更关心她的精神生活。赋闲下来的她开始看起了美剧俄剧,尤其她又喜欢看冷门剧集,很快字幕组制作的速度已经不能满足她看的速度了。刚好那段时间我正在研究各种AI工具,我也简单看了一下国内现有的音频转文字工具,包括了剪映、讯飞听见、网易有道等工具,发现效果都不尽如人意。直到我在鼓捣OpenAI的ChatGPT的时候看到了Whisper,打开了新世界的大门。

Whisper模型是目前最强大的语音转录模型之一,由OpenAI发布,是在68万小时标记音频数据的数据集上训练的,支持 99 种语言,其中包括11.7万小时96种不同语言的演讲和12.5万小时从“任意语言到英语的翻译数据。

以上这是官方给出来的介绍,安装也十分简单,稍微有点技术基础就可以用Whisper转录出来带有时间轴的文字,准确性也非常高,然后再把内容丢给GPT进行翻译,字幕文件和原视频放进剪映做简单的核对,最后导出视频,这样就翻译汉化好了一集电视剧。我实验的第一部剧就是俄剧《叶卡捷琳娜大帝》。

跟着看了几集确实不错

后来因为M1 Pro跑Whisper有点慢,而且我那段时间在玩Stable Diffusion出图,直接配置了台带4090的电脑,配置了几个脚本,下载、转文字、翻译一条龙,整个流程速度快了许多,每天只要下班回去之后找到生肉资源供老婆大人观赏就行了。

直到一天上班的时候老婆闲着无聊,想自己操作操作,但那不知道怎么怎么搞那几个脚本,于是和我说:
“你要不要做一个有界面的产品,不仅我可以用,别人也可以用。或许还能赚点奶粉钱呢”

我觉得有道理,反正那段时间AI产品如雨后春笋般冒出来,我也手痒痒想做一个,于是一个新的产品,就诞生了。

在产品形态上,还要做选择题。

在PC端和手机端之间——选择了PC端,字幕编辑、翻译这种内容,大多数都是长视频的需求,在PC端的编辑会更加符合大部分使用场景。

在客户端和网页端之间——选择了网页端,客户端不仅需要适配Win和Mac两个系统,还需要应对相同系统不同的版本,而且我也受够了Whisper的龟速和各种模型的限制,不如直接把运算都交给云端,让无论什么电脑配置的用户都可以顺利使用。

这个产品叫什么好呢?就叫快转字幕吧!

那这个产品有什么优势?

首先我们是站在巨人「OpenAI的Whisper模型」的肩膀上,它代表了非常强大的底层引擎,支持非常多的语言,而且准确率很高,特别在多语言混合的情况下。这就是我们跟大厂中厂竞争的底气。

但是这个引擎是不完美的,我们要把这个引擎发挥到它的百分之200的功力。我们做了下面这些事情:

纯净识别

Whisper不仅识别了人的语音,还有音视频里一些背景音,比如路人的声音、音乐、甚至鸣笛声、碰撞的声音都有可能会被识别,或者出现”幻觉“的情况,使用“纯净识别”可以去除掉噪音,并且把声音音量对齐之后,再送到Whisper去识别。

转录头文字D的片段,前面一大段英文全都是幻听

智能重排

许多的音视频转字幕应用都会有一个问题,在转录成文字的时候,把大段的文字放在了同一时间内,导致同屏出现的字幕过长,影响观看节奏。

正确和合理的句子分割才能给观众带来好的观看感受,所以我们请朋友们分析了中日英西法5种语言的基本逻辑,使用小模型做语义识别,兼顾了性能和效果,上线了AI高级重排功能,支持对这5种语言的智能分句,其他的语言上线了普通分句功能,无论什么语言都能获得还不错的分句效果。

带有上下文的AI翻译

现在很多翻译工具上都是简单的一句对一句进行翻译,但是经常很多词语都在不同的场景下有不同的意思,在大模型出来之前,翻译效果一直都不够好。

现在有了大模型,问题就变成怎么样调优和控制输出。

我们做了很多努力,包括使用特制的Prompt,以及增加重试、兜底等方案,能现在能保证有上下文,并且能出非常准确的翻译。

后面还增加了二次润色校对,推出这个AI Plus的翻译,最终出来这个效果甚至比真人翻译还要好。

普通的AI翻译
使用了我们调试过的Prompt后的AI翻译

接下来我也分析了其他的各种竞品,增加了各种功能

阅读视图

这个也是老婆提出来的,除了美剧以外,在散步和洗澡的时候她还会听播客,众多播客频道和动辄1个小时以上的时长也让她头疼应该听哪个,所以她提出来这个产品能不能把播客转为文字内容,而且不需要时间轴,换成阅读文章一样的视图。这样就可以先看看这个博客值不值得听了。

当然,各种会议记录、律师谈话等等都可以用上这种功能。

播客阅读视图

也由此增加了下面两个新的功能

链接解析

不是所有的音视频用户都能拿到源文件,贴上国内主流音视频平台的链接,小宇宙、抖音、小红书、微博等等都适配,解析完可以直接下载这段音视频或者在线进行转录。

链接解析识别

说话人识别

当有多个人发言时,可以分辨出每个不同的说话人发言的段落,再对说话人标题进行改名更加方便进行浏览。

标签管理

我们后面开始有专业的视频字幕公司在使用了。

翻译的项目越来越多,会出现有些已经校对完成,有些校对了一半,有些还没开始的情况,又或者是翻译的视频有英语日语法语等等多种语言,于是增加了标签以及切换列表视图功能,让用户可以更方便地管理自己的文件。

列表模式
平铺模式

粤语识别

作为一个在广州生活了近30年的人,对粤语有着特殊的感情,自然也把粤语元素加到了产品中。针对粤语的视频,不仅可以直接转录出粤语口语字幕,方便粤语的本土用户观看,也可以转录为粤语的书面语,方便非粤语区的观众观看,可以让粤语博主扩宽观众面,也可以方便非粤语区的观众看没有字幕的粤语内容。

粤语口语
粤语书面语

在线压制

有些用户因为不擅长使用复杂的编辑软件,会直接在我们网站上进行简单的编辑,所以我们也上线了在线压制视频功能,如果不需要加片头或者加视频特效,可以直接在我们的网站完成视频的输出。

最后

从老婆怀孕开始开发,到现在千金已经出生,用这个产品输出的内容确实陪了老婆很长一段时间,好的科技产品的确能够大大的改变我们的生活,而且项目上线后,确实解决了不少朋友的实际问题,提升了他们的生活、学习和工作效率。

高使用率的用户包括了提高工作效率的字幕组、用来学习外语视频学生、看日剧英剧美剧俄剧的爱好者、快速备份录音材料的律师,需要整理会议记录的工作党等等,期待更多的用户能够用上,解锁更多的使用场景。也欢迎各位前往网站体验,给我提供宝贵的意见!