实时翻译日本动作片语音

原创教程 1年前 planetarian - 9

在看动作片时，偶尔会遇到一些剧情丰富的片子，但是一般都没有字幕，如果是大片商出的，也许色花堂这种论坛会做字幕，但是对于Cosplay同人片来说，一般就都没有字幕了。如果能理解他们所说的话，实用性将更上一层楼。那么，能不能做到在播放器里，实时识别片内人物的说话，然后将之翻译成自己能看懂的语言，并直接显示在视频下方呢？

我刚开始认为这是很简单的事，因为我们平时在手机上使用语音输入已经很久了，感觉是一项很轻松、成熟的技术，结果查了查资料，其实做到这一点是比较困难的，NLP（自然语言处理）还没有那么完善，并且技术都在那些大公司手里（谷歌、IBM、亚马逊、微软、科大讯飞、阿里、腾讯、百度等），使用这些服务均需要收取费用。于是，我决定从调查市面上现有的解决方案入手，看看他们是怎么实现商业解决方案的。

调查

先看现有的技术，我们知道，Youtube上已经可以做到实时将视频内的原文或翻译后的字幕实时显示，这实际上是使用了GCP中的speech-to-text能力，上传视频到Youtube，GCP在后台自动识别视频使用的语言，然后根据语言将音频转换成文字，但这会花费一段时间处理，所以字幕要过一段时间才会产生。不过谷歌已经把实时转换功能集成在了Chrome内，可以直接识别浏览器播放的音频，但只支持英文，其它语言的加入可能还需要时间。顺带一提，B站也实现了和Youtube类似的能力，暂不清楚是自研还是用了其它云服务商的接口，并且貌似只支持中文。

研究

调查完毕，现在思路就很清晰了：将视频音频转换为原文，再使用翻译软件转换为译文。第一步最难，NLP只能从各大云服务商入手。秉持着越便宜越好的原则，我发现了Autosub这个项目，它的原理是将你的音频分割成多个60秒以下的音频文件，然后通过服务商的短语音识别 API 进行识别（类似于手机上使用语音输入，免费），然后将所获得结果整合，生成txt和srt文件。但是这个项目是个没有图形界面的项目，新手使用会很困难，于是有人开发了一款简易前端pyTranscriber，这样就便于使用了。软件内置中文，按提示操作即可（使用管理员模式）。不过需要注意，软件只支持谷歌语音转文字，所以需要连接到外网，并且pyTranscriber和QQ这类软件一样，是不走系统IE代理的，所以比如你是使用的Clash，则需要在代理设置里填入Clash的代理地址和端口（一般为127.0.0.1:7890），其它代理软件类似。设置完代理后，点击test进行测试，连通谷歌后即可开始使用。

经过转换后，我们得到了视频的原文以及对应时间轴的字幕文件，现在我们只需要将字幕实时翻译为译文并显示在视频播放器里就行了。这里我使用的播放器是Potplayer，因为它自带实时字幕翻译功能。它内置了4种翻译引擎，不过这里我们都不使用，因为实时翻译也需要云服务商接口支持，而各大云服务商里，百度翻译开放平台的API最合适，它每月有百万字符的免费配额，对于我们的使用场景来说是绰绰有余，几乎就是免费，并且申请简单，是最适合我们用来实时翻译的平台。我们按照PotPlayer_Subtitle_Translate_Baidu项目里的教程将百度翻译模块添加到Potplayer，然后将百度翻译开放平台的AppID和密钥填入即可（可以在百度后台设置达量提醒，防止超额）。

经过以上两步操作，我们终于实现了日语动作片实时翻译，并且成本为0。

那么，这个方案有缺点吗？自然是有的。比如因为分割音频，导致单词被切断，会导致识别效果不达预期，并且百度翻译也许不会翻译出敏感词汇。接下来将介绍一些备选方案，适当使用可以提高使用体验。

video-srt-windows和Translate-Subtitle-File

这两个项目都是批处理的软件，我们在各大云服务商开通服务后，就可以在软件中填入我们的密钥，然后软件就会通过这些密钥调用对应的API进行处理了。换言之，我们可以自由选择谷歌、微软、阿里、腾讯等厂商的服务，并且可以整段识别，不需要像我们之前通过分割音频来曲线救国。不过，代价就是这些厂商的服务都不是免费的，具体的价格表可参考云服务商价格表或者直接查阅相关文档。各家云服务商的转换质量也有差异，擅长的语言可能也有所不同，一般认为谷歌大部分情况是最好的（也是最贵的），中文方面百度、讯飞会比较好。