14

原标题:为盲胞读书:如何把千万人的语音汇聚成一本书?

The Voice Donor:为盲胞读书“是由微信市场发起的一个创意公益项目,通过众包模式让众多用户参与进来贡献自己的语音,最后汇聚成一本本的语音读物捐献给盲人同胞。这种新颖的公益方式需要强大的技术来完成,笔者采访了项目的技术支持负责人刘学梁,带你了解为盲胞读书背后的技术故事。
0

这个项目一开始由微信市场发起。早期,声音捐献数量不大,因而后台能够支撑,而随着越来越多的声音捐献者参与进来,原本的后台及人工审核的机制已经不能够支撑这个参与量级,因而找到北京的技术团队提供支持。“因为他们技术上遇到一些困难,而我们这边正好有语音技术,又是一个公益项目,所以我们都很热心的帮忙,”刘说。从图书切割、下发到语音收集和筛选,最终组装成一本语音读物,都由刘学梁领导的北京团队来完成。

如何筛选和切割一本书?

技术团队的工作之一是把电子书切割成80-120字的片段,存进数据库,并在用户请求时下发给他们。但在此之前还需要经过一个严格的图书筛选过程,选出适合做成有声读物的书籍,取得图书版权后才能进入制作流程。“我们对一本书的质量控制很严格,首先要选取一本合适的读物,还要专门的同事来检验这本书的质量,之间会有很多反馈,质量通关后才会往上放,整个过程比较漫长。”

14.2

图书切割也是一个需要技术和技巧的过程。刘学梁说:“我们之前采用全自动化切割,根据标点符号和段落来划分,尽量让每一段长度合理并把说语义关联的字句放在一起,这些都是通过算法来完成的。但采用这种方法遇到一个问题:从出版社得到的书是PDF格式的,PDF转TXT会导致排版上乱掉以及一些页面的缺失,于是我们后来又在自动切割的基础上加了一轮人工切割,对出版社、目录、注释等信息进行处理。切割的长度在80-120个字之间,切完片段会存到数据库,有用户请求时从数据库下发。如果下发了用户没读就会发给另一个人读。”0

如何进行语音筛选?

语音筛选是团队遇到的大技术难题,这里面需要用到语音技术,把好的语音和不好的语音区分开来,比如说有人念的不好或是不完整,噪音太多需要过滤等等。语音筛选是一个与文本对比的过程。

“通常一个语音过来,先经过特征提取,再经过解码器,取一个好的结果出来,这是一个类似语音识别过程。但是筛选是先有了语音和对应的文本,再要计算语音和文本之间匹配关系,这需要先用文本构建出一个搜索网络,然后在搜索网络里面计算出一个得分,再根据这个得分判断这段语音好还是不好,有没漏读或错读。如果读的比较平滑准确就是一段好语音,它会被筛选出来作为语音读物的材料。这与普通话等级考试有些类似,同样都要匹配文本,看你读的是否准确平滑。”

14.3

语音筛选有一个打分的过程,通过这个过程对语音的质量进行评估,实际结果显示,女性的语音质量通常要比男性高,“她们更加自信,读得也更加认真”。而项目的大部分(估计有90%左右)参与者都是女性,结果是一本书大部分都是女性的声音。0

总体上后台好的语音还是占大多数,差的语音也存在。哪些因素会导致语音质量不高?主要有三点:

  • 手机质量不好,采集的语音质量就会较差,这部分会放弃掉;

  •  之前有一个bug导致录入语音时文本被遮挡,这样读出来的语音不完整;

  • 很重的口音,或者有些人离话筒比较远,也会导致语音质量不高。

刘学梁说他们非常珍惜每一段语音,尽量不浪费。一个片段只会投放给一个人,只有当这个人没有读或是读的质量真的有问题,比如有缺损,才会筛除并让发给下一个读。

众包制作的有声书,质量能比得上专业的吗?

14.4

简单的回答是:不能,但已经接近了。但是,众包读书还有自己的优势和公益的性质。众包的有声书由成百上千人的语音构成,而且这些人都不是专业朗读者,如何提高质量呢?

“如果是专业朗读者去读这些书的话,质量自然会更高一些,但是为盲胞读书采用众包模式的优势是速度会快很多,一个人一天读不了一本书,但几万人一起读的话一天就能读好几本,长期下来就能积累很多书。对于每个人声音不同这方面,习惯了之后其实还好,把不同人的声音连接时我们也会做一些处理,使它们音量一样,让前后两个人的声音区分度不会太大,同时把语音的前后空白处剪切掉,听起来会更流畅。另外我们在进行文章切分时会尽量让一段话保持完整,由一个人来读,这样语音之间断层也是段落之间的区分。而且很多人会连续读好几段,我们也会优先考虑把同一个人读的段落放在一起。”

实际上,为盲胞读书的用户质量非常高。比如有一些片段包含德文、法文等小语种,多数人都不懂,会读得很差,但也有很多用户能把它流畅读出来。笔者在公众号后台亲身体验后发现,很多语音都读得非常专业。

结语

一本书总会有一些段落直到最后还是没有读完,这个时候团队成员会自己上马把它们读完,尽快集结成一本有声书。

不同的书读的速度也不一样,快的一两天就能读完(团队会同时下发好几本书),一般是名人领读较受欢迎。

似乎过程很麻烦,质量也未必比得上专业朗读者制作的,但这种方法制作出来的有声书已经不仅仅是一个商品,它包含了成千上万人的爱心在里面。为盲胞读书(公众号:voicedonate)已经拥有超过50万参与者,截止目前已制作出超过100本有声书,有越来越多的盲人同胞从中受益,希望你也能参与进来。

【 如无特殊说明,所有文章版权归雷锋网所有,转载请注明来源 】

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2017-12-08 11:32:17
大数据资讯 百度和高通宣布战略合作 终极目标:推人工智能语音和智能助手解决方案
据了解,双方将携手在高通骁龙移动平台、包括即将推出的骁龙845移动平台上,优化百度DuerOS在手机上的人工智能解决方案。合作利用两家公司在人工智能领域的积累和专长,利 <详情>
2015-04-20 15:56:02
智能硬件 Moto Hint智能语音耳机上手:性感外露
Moto 在9月4日的发布会上发布了4款产品,其中Moto Hint是一款具备语音操作的智能耳机,它非常的漂亮、性感、精致,充满浓厚的科技感。它的售价为150美元,约合人民币921元 <详情>
2015-01-28 11:09:55
互联网 百度发布车联网方案CarLife,百度语音或成杀手级应用
2015年1月27日,百度发布了其车联网解决方案CarLife.该方案与苹果的CarPlay及安卓的Android Auto类似,以系统平台将手机“迁移”至车机,实现娱乐系统与汽车中控系统的合一 <详情>
2014-12-26 14:02:30
互联网 消灭键盘:谷歌语音新设备两年内面世
与数字语音助手聊天产生的乐趣大概就像你努力与一个顽固的孩子讲道理一样。如果你曾经对着你的Xbox大吼,或者咒骂Siri,那说明你可能已经对语音识别失望了。 <详情>
2014-12-24 12:16:45
互联网 虚商蜗牛推“0系列”免卡 语音每分钟低至9分
此前一直高调营销的虚拟运营商蜗牛移动又推新品。据悉,继“9系列”免卡之后,蜗牛移动正式推出“0系列”免卡,首款产品“30免卡”24日起对外开售,该卡采用阶梯式资费,电 <详情>