分享
AIHub视频音频转录翻译工具PolyTrans
输入“/”快速插入内容
AIHub视频音频转录翻译工具PolyTrans
飞书用户8303
2023年9月11日修改
痛点来源
•
用了一段时间阿里的“通义听悟”,因为整体功能还是很强大的,本来可能不准备做这个工具了,但是有几个痛点
◦
外文识别不准:
可能主要服务于国内会议场景,英文和其他语言识别准确率一般,经常有错误,特别是一些专有词汇,需要批量替换或者维护专有词汇表(不过也不是in-context,比如我看到有问题的时候可快速添加)
◦
目录管理不便:
虽然提供了默认的文件管理功能,但是不支持排序,对于批量导入的,好像就是按照我的转录时间排序的,也不能改,对于系列性质的视频,我需要小心控制导入的顺序
◦
不支持导出:
转录和翻译好的字幕可以在平台上看,但是不能把字幕内嵌导出成新的视频,因为自己会翻译一些外文的高质量视频和音频,之前要在多个工具之间切换,本来以为一站式了,但是卡在导不出来~
◦
额度限制:
虽然先导入云盘,再转录可以省一些空间,但是有点麻烦,默认的空间大小只有2G,明显不够,而且时长有限制,叠buff到100小时,但是也不太够,这些应该都是后面的收费点
•
顺便一说:作为
ASR
软件最重要就是识别精度,其他的反而是锦上添花的,不过
AI
总结还有配套的标记,提取要点问题等功能还是做的很棒的,实测“通义听悟”中文识别准确率很高的,倒是补足了whisper的短板,不过平台也在发展,但是后面两个痛点作为商业公司应该无解,才有了做这个工具的动力
目标用户
•
基础用户
◦
学习外文视频和音频材料,娱乐或者简单了解为主
◦
搬运外文视频和音频的自媒体“创作者”,比如我
•
进阶用户
◦
深入学习音视频材料并且希望融入到自己知识体系
◦
希望自己给原视频“配音”二创的创作者
核心功能
•
基础功能
◦
对齐功能:
对齐大部分“通义听悟”大部分基础功能,毕竟这次阿里的设计还是很用心的
◦
音视频转录:
支持本地和远程视频和音频导入,提取音频信息转录文字
◦
转录语种丰富精度高:
因为转录引擎使用的是whisper,理论支持的语种种类多,而且识别精度高
◦
转录内容调整:
支持转录文字的二次灵活编辑和调整
◦
自动生成翻译:
支持对于转录文字自动翻译,尽量提供多种翻译引擎支持
◦
视频字幕导出:
对于视频内容编辑后字幕方便内嵌在视频导出
◦
便捷目录管理:
支持按照目录导入,支持导入目录文件的智能排序以及二次排序调整,自己的大痛点!!!
◦
安全本地存储:
除了远程视频和音频导入或者上传笔记软件这种,所有功能可以本地不联网使用
•
进阶功能
◦
上下文结合笔记记录:
可以对于视频内容直接评论记笔记,方便后续学习总结
◦
笔记软件同步:
支持对于笔记内容生成学习卡片,方便导入flomo或者notion
◦
新
语音合成
:
通过
TTS
或者
RVC
能力对于调整后文本合成语音或者重配创作
股东
投票
单选
匿名
A
B
添加选项
定时截止
匿名投票
多选
竞品参考
我的这个开发已经完成70%了,但是最近发现也
有人在做了
,而且基础能力体验和完成度更高😂,不过暂时他们需要邀请码,自己也会多用用,看能不能找到一些差异性的价值点,不然我一个业余时间搞的小工具基本不可能赶上人家的迭代速度,所以自己先缓缓看,可能到
8
10月份不一定啥时候先放个demo给大家试试。
只能说变化太快了,而且很多创业者从想法到执行的行动力真的惊人,有这个想法,从whisper出来就有了,只是懒而且对于PC客户端开发没啥经验,一直拖着,结果人家就做好了~~🤦
大家有啥更好的想法,有缘看到这里,也可以给点建议哈