声音类 AI 产品的创业探索-海峡晨报网

当前位置：首页 > 滚动

声音类 AI 产品的创业探索

来源：站长之家发布时间：2023-07-31 09:45:16

声明:本文来自于微信公众号 AI新智能（ID:alpAIworks），作者:Stars，授权站长之家转载发布。

机器与人类交互的最直接方式无非就三种，视觉、触觉和听觉。大语言模型满足了视觉上对文字的交互，而听觉就需要语音模型来补齐了。

【资料图】

1关闭当前

找到AI新赛道

随着大语言模型的技术日趋成熟，寻找新的增长点，探索未完全开发的AI市场成为了一个必然的趋势。

其中，人类与机器之间的交互无疑是一个重要的方向。

图1目前部分国产大语言模型列表

机器与人类交互的最直接方式无非就三种，视觉、触觉和听觉。

大语言模型满足了视觉上对文字的交互，而听觉就需要其它类型的AI来补齐了。

在听觉方面，声音创作类AI作为语音领域的一个细分方向，近年来发展迅速，不断有新的应用场景被开发出来。

声音AI的研究可以追溯到20世纪90年代，早期很多工作集中在语音识别和语音合成等基础技术上。

进入21世纪后，随着深度学习在语音识别和语音合成方面的广泛应用，声音AI的能力得到了极大提升。现在不仅可以做到非常准确的语音转文字和文字转语音，而且可以学习并模拟特定人物的声音特征。

这无疑大大拓宽了AI的应用范围。

一款声音类AI的创业探索

在语音创作工具领域，大饼AI变声是一个典型的在声音方面的AI探索案例。

2021年，毕业于卡内基梅隆大学的凌天格创立了上海格子互动信息技术有限公司（以下简称格子互动），并在同年就开发出第一款应用“ HALO 剧本杀”。顾名思义，这款应用是一个专注于线上剧本杀的应用。

格子互动通过将各类优秀剧本和DM（剧本杀主持人）资源整合起来，迅速收获了一批忠实用户。格子互动也获得源码资本种子业务“源码一粟”的种子轮投资。

图2“Halo有戏”官网截图

在拥有了一个稳定收入来源和声音数据源后，格子互动启了它的野心征途:“大饼AI变声”，正式走向了声音类 AI赛道。

通过前期剧本杀应用的长期积累，格子互动获得了大量的DM的优质干声（指仅有人声不含其它杂音的声音）。在拥有了数字资源后，格子互动就着手于将资源变换为实际可利用的 AI模型。将干声训练为了一个个可供使用的语音模型。

由此格子互动便推出了大饼AI变声，其主要功能就是一个多功能的语音转换工具。它能够实时地把输入的人声，转换成不同风格的语音输出，实现语音的变声效果。

这对于需要频繁配音的内容创作者来说，可以极大地提高内容产出效率。

目前来看，大饼AI变声未来可以通过定制化声音模型训练提供定制化的变声服务，将定制化模型变为商业化主要道路。同时降本增效，持续技术投入，将模型定制成本逐渐降低，以此快速实现商业化。

拓宽声音AI的应用视野

语音转换或者说变声仅仅只是声音AI的冰山一角。摆脱了“变声”这一单一方向后，语音内容生成语音生成类 AI会有更大的发展空间。

语音生成类 AI的发展，可以赋能大量与人声相关的行业，大幅提升效率，增加成果转化速度。

1.有声书

有声书类别中，人类配音目前最大的优势就是情感的丰富性和角色的多样性和音色的多变性。然而人工录制有声读物仍需要人工朗读与校对，各项成本都不会因为边际效应而降低。而 AI配音则可以快速产出内容，文字量甚至可以达到500万字/天。目前，喜马拉雅等传统听书软件已经纷纷下场开始了这项业务内容。

2.网络视频快速配音

在短视频快速发展的当下，有大量的AI配音视频的产生。如魔音工坊等平台更有完整的 AI配音方案辅助完成一期短视频。AI配音提升了视频的产出效率，作者只需要准备好合格的文案就可以快速产出内容。同时避免了观众对于某一个特定视频博主声音的依赖性，能够更长期的稳定运营一个频道。

3.虚拟主播

虚拟主播行业是近几年诞生的新兴直播种类。主播常以一种虚拟二次元形象出现。在视觉效果上，主播已不需要实际露脸，而是以自身的独特设定（例如萌化动物，某种独特性格）为基础完成每次直播。但是目前的直播中缺少了重要的声音因素，使得角色设定中缺少了一部分内容。而当下的 AI变声搭配 AI语音生成就可以很好的解决这一问题，加强了主播的娱乐性。

4.游戏内配音

与虚拟主播类似的就是游戏了。但是不同的是游戏行业不需要实时的语音变化，而是需要更精细的调节。不论是任何独特的角色设定和背景故事，都可以使用 AI提供专属的、唯一且稳定的音源。不仅提高了游戏的沉浸感，还能够大幅提升配音音源的稳定性。AI配音的出现极大降低了由于配音的不确定性带来的风险（如配音演员更替、演员受伤、声线变换等等），降低了运营风险。

图3由ElectricNoir创作的互动型小说，语音均由AI录制

总的来说，声音AI不再局限于单一的“变声”，而能够广泛应用于内容创作的各个方面，大幅提升效率并打开更多创作可能性。这将推动语音AI技术在各创意产业中的深入应用。

但是目前来看，AI语音生成仍然有情感缺失等不足。而且在面对汉语这类有多音字词的语言时，生成语调与换气等仍有较大的问题。

目前各类云已提供了基于云上的文本到语音（Text-to-Speech， TTS）系统，从微软的Azure到国内的阿里云腾讯云都有这方面的服务。

除此之外，语音生成技术都有开源的开源方案和完备的论文支撑。这意味着后入局的企业必须要双管齐下，努力扩大自身的技术护城河的同时，通过商业互补建立起数字资源围栏。

声音类AI的风险

在找到了语音生成类 AI的基础商业方向之后，风险控制就成了开发中的重要一环。目前语音生成 AI仍有很多风险敞口。

1.误导信息传播:因为语音生成AI可以创造极其逼真的人声，有可能被用于制造假新闻或深度伪造（Deepfakes），为了传播误导性信息或进行欺诈活动。

2.侵犯隐私:语音生成AI需要大量的语音数据进行训练。如果这些数据没有得到适当的处理和保护，可能会侵犯个人隐私。

3.冒名行骗:高级的语音生成AI可以模仿特定的人的声音，这可能被用于冒充他人进行欺诈。

4.就业影响:随着语音生成AI的应用越来越广泛，一些需要人类声音的行业（例如:广播、旁白、语音合成等）可能会受到影响，导致就业机会的减少。

5.伦理和道德问题:例如，使用某人的声音（尤其是未经其同意）进行语音合成可能涉及到伦理和道德问题。

6.安全问题:随着语音生成技术的发展，很可能会出现新的安全问题，例如语音驱动的身份验证系统可能会遭到攻击。

在国内需要着重控制风险，尤其是诈骗风险。应适时掌握法律动态发展，根据法律法规要求快速调整应用。应考虑与语音内容审核结合，对用户生成内容进行审查后，再提供发布服务。

文末总结

在走过了长期的“互联网+”生态后，“AI+”可能可以成为下一个业务的增长点。

企业可积极布局AI赋能业务，与时俱进把握发展机遇。

声音AI+游戏，AI+影视，AI+阅读，AI+直播，通过声音类AI还可以赋能多种业务，极大提升业务效率降低方案实施成本。

通过声音AI可以赋能大量产业，提升产业效能。

（举报）

标签：

外交部回应俄乌谈判中释放积极信号

美联储或加速加息对抗通胀引担忧

要闻

更多+

热点

更多+

声音类 AI 产品的创业探索

声音类 AI 产品的创业探索

严阵以待压实责任坚决打赢打好我省防范应对台风“杜苏芮”第一仗

金融街：7月28日融券卖出4.72万股，融资融券余额4.73亿元

李渡烟花闪耀成都大运会开幕式

人民日报：真正把“指尖”上的负担减下去

交投集团客运总站高温情相伴

ds7什么时候出混动四驱 ds7有四驱吗

文化产业政策持续激发市场供需潜能延续回升向好态势

杨惠妍捐出碧桂园服务20%股权支持公益事业

立案后发现报假案有怎样的后果

逆水寒手游降龙在手获取指南

泰国南部一烟花仓库爆炸已致11人死亡

欢瑞世纪：上半年净亏损4339.93万元

外媒：乌克兰向俄境内目标发射导弹

关于员工离职申请书合集

水利部将京津冀洪水防御应急响应提升至Ⅱ级

2023年上半年全国规模以上文化及相关产业企业营业收入增长7.3%

他从别人卡里取走4000元，民警赶到现场：表扬！

哪些地区的城市使用海水淡化技术（沿海城市喊渴专家呼吁扩大海水淡化规模）

“橙色铁军”守护西气东输能源“大动脉”

增进友谊促进交流（大运观澜）

内容正在升级改造，请稍后再试！

水利部安排部署台风强降雨及洪水防御工作

孟凡胜直播（孟凡）

泥猛的营养价值和作用（泥猛鱼的功效作用及禁忌）

台风后，厦门最美校园开放！

东方不败之笑傲江湖笑傲之陆猴儿

喜报！汉中新增1个“国字号”保护区

荣耀80如何调成4G网络

又惹争议！C罗赛后拒绝让摄影师拍摄疑似朝对方泼水

外交部回应俄乌谈判中释放积极信号

美联储或加速加息对抗通胀引担忧

技术为电影艺术拓展新空间（科技赋能艺术）

为观众奉献更多更好的精神食粮（坚持“两创” 书写史诗）

培育创新土壤滋养创新精神（在一线）

“有意义”还要“有意思”（师说）

心怀“国之大者” 培养一流人才（教育时评）

搭建平台，为每一个孩子的幸福人生奠基（教改一线·校长和学校的故事）

“提建议要像做科研那样严谨精细”（履职故事）

声音类 AI 产品的创业探索

声音类 AI 产品的创业探索

严阵以待 压实责任 坚决打赢打好我省防范应对台风“杜苏芮”第一仗

金 融 街：7月28日融券卖出4.72万股，融资融券余额4.73亿元

李渡烟花闪耀成都大运会开幕式

人民日报：真正把“指尖”上的负担减下去

交投集团客运总站 高温情相伴

ds7什么时候出混动四驱 ds7有四驱吗

文化产业政策持续激发市场供需潜能 延续回升向好态势

杨惠妍捐出碧桂园服务20%股权 支持公益事业

立案后发现报假案有怎样的后果

逆水寒手游降龙在手获取指南

泰国南部一烟花仓库爆炸 已致11人死亡

欢瑞世纪：上半年净亏损4339.93万元

外媒：乌克兰向俄境内目标发射导弹

关于员工离职申请书合集

水利部将京津冀洪水防御应急响应提升至Ⅱ级

2023年上半年全国规模以上文化及相关产业企业营业收入增长7.3%

他从别人卡里取走4000元，民警赶到现场：表扬！

哪些地区的城市使用海水淡化技术（沿海城市喊渴专家呼吁扩大海水淡化规模）

“橙色铁军”守护西气东输能源“大动脉”

增进友谊 促进交流（大运观澜）

内容正在升级改造，请稍后再试！

水利部安排部署台风强降雨及洪水防御工作

孟凡胜直播（孟凡）

泥猛的营养价值和作用（泥猛鱼的功效作用及禁忌）

台风后，厦门最美校园开放！

东方不败之笑傲江湖 笑傲之陆猴儿

喜报！汉中新增1个“国字号”保护区

荣耀80如何调成4G网络

又惹争议！C罗赛后拒绝让摄影师拍摄 疑似朝对方泼水

外交部回应俄乌谈判中释放积极信号

美联储或加速加息对抗通胀引担忧

技术为电影艺术拓展新空间（科技赋能艺术）

为观众奉献更多更好的精神食粮（坚持“两创” 书写史诗）

培育创新土壤 滋养创新精神（在一线）

“有意义”还要“有意思”（师说）

心怀“国之大者” 培养一流人才（教育时评）

搭建平台，为每一个孩子的幸福人生奠基（教改一线·校长和学校的故事）

“提建议要像做科研那样严谨精细”（履职故事）

严阵以待压实责任坚决打赢打好我省防范应对台风“杜苏芮”第一仗

金融街：7月28日融券卖出4.72万股，融资融券余额4.73亿元

交投集团客运总站高温情相伴

文化产业政策持续激发市场供需潜能延续回升向好态势

杨惠妍捐出碧桂园服务20%股权支持公益事业

泰国南部一烟花仓库爆炸已致11人死亡

增进友谊促进交流（大运观澜）

东方不败之笑傲江湖笑傲之陆猴儿

又惹争议！C罗赛后拒绝让摄影师拍摄疑似朝对方泼水

培育创新土壤滋养创新精神（在一线）