梦璃
梦璃

实时翻译日本动作片语音

原创教程 planetarian - 9

在看动作片时,偶尔会遇到一些剧情丰富的片子,但是一般都没有字幕,如果是大片商出的,也许色花堂这种论坛会做字幕,但是对于Cosplay同人片来说,一般就都没有字幕了。如果能理解他们所说的话,实用性将更上一层楼。那么,能不能做到在播放器里,实时识别片内人物的说话,然后将之翻译成自己能看懂的语言,并直接显示在视频下方呢?

我刚开始认为这是很简单的事,因为我们平时在手机上使用语音输入已经很久了,感觉是一项很轻松、成熟的技术,结果查了查资料,其实做到这一点是比较困难的,NLP(自然语言处理)还没有那么完善,并且技术都在那些大公司手里(谷歌、IBM、亚马逊、微软、科大讯飞、阿里、腾讯、百度等),使用这些服务均需要收取费用。于是,我决定从调查市面上现有的解决方案入手,看看他们是怎么实现商业解决方案的。

讯飞听见服务
讯飞听见服务

调查

先看现有的技术,我们知道,Youtube上已经可以做到实时将视频内的原文或翻译后的字幕实时显示,这实际上是使用了GCP中的speech-to-text能力,上传视频到Youtube,GCP在后台自动识别视频使用的语言,然后根据语言将音频转换成文字,但这会花费一段时间处理,所以字幕要过一段时间才会产生。不过谷歌已经把实时转换功能集成在了Chrome内,可以直接识别浏览器播放的音频,但只支持英文,其它语言的加入可能还需要时间。顺带一提,B站也实现了和Youtube类似的能力,暂不清楚是自研还是用了其它云服务商的接口,并且貌似只支持中文。

Youtube自动字幕
Youtube自动字幕

研究

调查完毕,现在思路就很清晰了:将视频音频转换为原文,再使用翻译软件转换为译文。第一步最难,NLP只能从各大云服务商入手。秉持着越便宜越好的原则,我发现了Autosub这个项目,它的原理是将你的音频分割成多个60秒以下的音频文件,然后通过服务商的短语音识别 API 进行识别(类似于手机上使用语音输入,免费),然后将所获得结果整合,生成txt和srt文件。但是这个项目是个没有图形界面的项目,新手使用会很困难,于是有人开发了一款简易前端pyTranscriber,这样就便于使用了。软件内置中文,按提示操作即可(使用管理员模式)。不过需要注意,软件只支持谷歌语音转文字,所以需要连接到外网,并且pyTranscriber和QQ这类软件一样,是不走系统IE代理的,所以比如你是使用的Clash,则需要在代理设置里填入Clash的代理地址和端口(一般为127.0.0.1:7890),其它代理软件类似。设置完代理后,点击test进行测试,连通谷歌后即可开始使用。

外网连通测试
外网连通测试

经过转换后,我们得到了视频的原文以及对应时间轴的字幕文件,现在我们只需要将字幕实时翻译为译文并显示在视频播放器里就行了。这里我使用的播放器是Potplayer,因为它自带实时字幕翻译功能。它内置了4种翻译引擎,不过这里我们都不使用,因为实时翻译也需要云服务商接口支持,而各大云服务商里,百度翻译开放平台的API最合适,它每月有百万字符的免费配额,对于我们的使用场景来说是绰绰有余,几乎就是免费,并且申请简单,是最适合我们用来实时翻译的平台。我们按照PotPlayer_Subtitle_Translate_Baidu项目里的教程将百度翻译模块添加到Potplayer,然后将百度翻译开放平台的AppID和密钥填入即可(可以在百度后台设置达量提醒,防止超额)。

Potplayer实时字幕
Potplayer实时字幕
百度实时字幕
百度实时字幕

经过以上两步操作,我们终于实现了日语动作片实时翻译,并且成本为0。

那么,这个方案有缺点吗?自然是有的。比如因为分割音频,导致单词被切断,会导致识别效果不达预期,并且百度翻译也许不会翻译出敏感词汇。接下来将介绍一些备选方案,适当使用可以提高使用体验。

video-srt-windowsTranslate-Subtitle-File

这两个项目都是批处理的软件,我们在各大云服务商开通服务后,就可以在软件中填入我们的密钥,然后软件就会通过这些密钥调用对应的API进行处理了。换言之,我们可以自由选择谷歌、微软、阿里、腾讯等厂商的服务,并且可以整段识别,不需要像我们之前通过分割音频来曲线救国。不过,代价就是这些厂商的服务都不是免费的,具体的价格表可参考云服务商价格表或者直接查阅相关文档。各家云服务商的转换质量也有差异,擅长的语言可能也有所不同,一般认为谷歌大部分情况是最好的(也是最贵的),中文方面百度、讯飞会比较好。

Tern-Subtitle File Translator
Tern-Subtitle File Translator
价格表
价格表

讯飞听见

这里提到是因为现在开通讯飞88/年的那个会员可以免费进行小语种识别,看介绍上没提有关限额的事,富哥可以试试。

whisper

2022年9月21日,OpenAI开源了一个名为Whisper的神经网络,看上去语音识别能力很强,不过最近忙,没时间研究,暂且把它列出来备选。有实力的小伙伴可以自行尝试。

实测

我这里使用【コスプレ一本勝負】中的【ほろ酔い彼女と濃密×××_09_『わたし全然酔ってないからね!』】进行测试,因为该篇聊天较多,并且时长也足够,片源站内有,得出的字幕文件也会同时放出(设置1枚萌娘币)

由于第一次发帖,还没弄清楚文章的编辑相关功能,资源可以直接在文章最底部下载,无需支付萌娘币

那就直接开放下载吧,觉得本篇教程不错的可以花1萌娘币支持谢谢喵

ほろ酔い彼女と濃密××× 09
ほろ酔い彼女と濃密××× 09

首先是pyTranscriber的结果示例

然后是Translate-Subtitle-File中使用阿里云智能语音交互的结果示例

截取的都是翻译得比较好的句子,一般都会更差,只能通过词语判断大意。

个人使用下来,完整识别的阿里云甚至不如经切割后的谷歌识别结果,不知道是不是个例,主要感觉是阿里云并没有很好的识别断句,台词分割主要是靠中间停顿时间过长来进行,而谷歌感觉是通过语义来断句,对于本篇中的男女讲话中的思索停顿支持的较好。如果资金充裕,谷歌语音转文字+谷歌翻译,效果肯定是最好的。

 

萌娘币下载此资源下载价格为1萌娘币(VIP折扣、永久会员免费),请先
如果链接失效,请记得点击举报反馈

梦璃 Since 2019

友情链接与合作请戳我

让璃月来随时通知阁下更新吧~ 同意 不用了