您现在的位置是:首页 > 科技前沿
AIGC时代有声书行业的机遇与挑战
智慧创新站
2024-11-24【科技前沿】35人已围观
简介在生成式人工智能时代,有声书行业的生产流程将重塑,生产力会有突破性提高。文/程辉上海家瑶网络科技有限公司创始人、董事长,长期致力于人工智能语音、融合出版、AI有声书领域的研究与实践。随着人工智能(artificialintelligence,AI)技术的不断发展,聊天生成式预训练模型(chatgen...
在生成式人工智能时代,有声书行业的生产流程将重塑,生产力会有突破性提高。
文/程辉
上海家瑶网络科技有限公司创始人、董事长,长期致力于人工智能语音、融合出版、AI有声书领域的研究与实践。
随着人工智能(artificialintelligence,AI)技术的不断发展,聊天生成式预训练模型(chatgenerativepre-trainedtransformers,ChatGPT)横空出世,我们迎来了生成式人工智能(artificialintelligencegeneratedcontent,AIGC)时代。
AI正加速渗透各行各业,以塑造产业新范式,一场新的生产力与创造力革命蓄势待发。AI语音技术是AIGC领域的重要分支之一,随着AI技术的发展,其角色功能、产品服务和行业生态等都发生了巨大的变化。
AIGC影响各行各业
AIGC兴起主要源于自然语言处理和扩散模型(diffusionmodel)的发展与开源。20世纪50年代,计算机科学家就开始尝试使用计算机生成语言模型。随着机器学习和深度学习等技术的不断突破,AIGC技术得到了快速的发展。
AIGC是一次新技术革命,具有极强的普适性,可以改造和升级人类生产、生活的方方面面。它的发展分为三个时期:酝酿萌芽阶段(20世纪50年代至90年代中期)、稳步推进阶段(20世纪90年代中期至21世纪10年代中期),以及迅猛发展阶段(21世纪10年代中期至今)。
艾瑞咨询2023年发布的《AIGC系列报告——中国AIGC产业全景报告》指出,内容生成与理解是大模型的核心能力,AIGC的产业价值主要体现在以此为核心的“变革内容生产方式”与“变革人机交互方式”两方面。大模型对内容理解和内容生成的双向能力使AIGC既能以极低门槛实现多模态内容生成,也可脱离内容生产核心场景泛化为一种人机对话的媒介。基于此种理解,AIGC将实现内容创作权的下放,借助针对各垂直领域衍生的大量AI生产工具,实现全行业内容生产效率的飞升。
AIGC会引发内容行业巨变。2023年9月21日,爱奇艺创始人、首席执行官龚宇在“2023爱奇艺iJOY悦享会”上分享了他对行业的最新思考。在他看来,AI在影视内容策划、开发、制作以及宣发等方面将有重要的应用空间。其实,不仅在影视行业,AIGC还会在许多其他内容行业如编辑出版、新闻、设计等的生产端、分发端、产业端重构生产模式。
AIGC可帮助教育行业突破传统教育模式及人工生产效率的限制,实施个性化教学、智能辅导、自动化评估,构建在线学习平台以及提供全面的管理。它的介入会提升教学效率和质量,实现个性化教育和精准教育,助力于教育行业的数字化转型和教学模式的变革。
AIGC与金融业的结合,也格外引人注目。目前,摩根士丹利、彭博、德意志银行等都已有初具雏形的应用落地。有学者指出,AIGC可以在金融行业中的客户服务、产品创新、智慧办公、研发管理、监管合规知识库建设和代码开发等方面发挥作用。有了AIGC的加持,金融行业将发生质的蜕变。
对网络视听行业而言,置身以内容分发平台为核心的内容消费赛道,连接供应端的创作者和需求端的大量用户,线上内容资源是最核心的生产力,创作者需要将内容质量保持在可持续吸引用户注意力的水平。AIGC主要影响的是内容创作与人机交互,线上化程度越高、内容占比越大的行业,变革越深刻和广泛。由此,它的入局对业态而言势必是一场深刻的颠覆与变革。
语音合成技术进入有声书行业
近年来,国内各大互联网巨头的发展轨迹都有一个“共性”:利用AI技术赋能传统行业。AI语音技术作为AIGC的重要分支之一,被应用于传统有声书出版业,为有声书行业重塑生产流程、提高生产力提供了可能性。
AI语音技术包括语音识别(automaticspeechrecognition,ASR)、自然语言处理和语音合成(texttospeech,TTS)三大技术。其中,语音合成技术在有声书行业的生产端已显现出强大的生产力。
语音合成是将计算机自己产生的或外部输入的文字信息转变为口语输出的技术。它涉及声学、语言学、数字信号处理、计算机科学等多个学科,主攻如何将文字信息转化为可听的声音信息,让机器像人一样开口说话。不同于录音机式的声音回放设备,语音合成是将任意文本转换成具有高自然度的语音。
语音合成流水线包含文本前端(textfront)、声学模型(acousticmodel)和声码器(vocoder)3个主要模块。语音合成的流程是:通过文本前端模块将原始文本转换为字符/音素;通过声学模型将字符/音素转换为声学特征,如线性频谱图、mel频谱图、LPC特征等;通过声码器将声学特征转换为波形,最终合成语音。
随着AI的进步,神经网络、深度学习等技术出现。“TTS+AI”的组合使得电子合成语音愈发自然和准确。针对情感起伏大、音色个性化、声线多元、贴合人声等更精细化的需求,目前已有AI语音厂商提供“情感TTS”定制,旨在通过调整音色的语调、音高、语速,甚至模拟人类的生气、伤心、高兴等语气,让电子合成语音符合语境或场景,具有“情感”。
得益于互联网技术发展与移动终端的普及,近年来,人们更青睐于“内化”的居家生活方式,有声读物市场呈爆发式增长。智研咨询认为,2023年中国有声读物市场规模有望突破100亿元。
2015-2023年中国有声读物行业市场规模
有声书行业的传统制作流程由人工手动操作。审听音频、拼接多名主播的人声、制作后期垫乐等依靠纯人工完成,仅20万字的读物需要耗费近一个月的时间才能完成制作。此外,有声书行业存在大量重复劳动的工作,准入门槛低,从业人员多由利用闲散时间发展副业的兼职人员组成,内容裂变虽然增长迅速,优质精品却是凤毛麟角,目前尚未形成行之有效、监管有力的行业规范。现存有声书普遍存在制作流程周期长、成本高、质量不稳定、水平良莠不齐的问题,传统低效的制作方式很难满足井喷式增长的有声书市场需求。AI入局,其内容创作方式与人机交互模式会充分发挥技术优势,为有声书行业的转型提供参考路径。
首先,AI音色具有高拟人度、高流畅度的特色。语音合成平台能提供多样化、个性化的音色,可模拟人在不同场景下的语气、状态与情感,在一定程度上媲美真人。其提供的大量音色素材,为有声书创作奠定了技术基础。
其次,有声读物的制作周期缩短。TTS技术在短时间内将海量文本生成语音,极大地缩短了录制时间。例如,在ReflectAudio推出的有声读物制作平台上,AI主播的制作速度超过500万字/天。
最后,制作成本降低。用AI代替真人,音色可从语音合成平台提供的丰富音色中选择,实实在在地省去了高昂的录制费用,低廉的成本即可获得一级主播的优质声音,实现高品质的创作。
“AI+有声”新模式
在大量AI生产工具的应用陆续落地的背景下,各类企业数字化语音厂商都在围绕大模型寻找自身的优势空间与定位。在有声书行业这一垂直领域内,涌现一大批在AI语音发力的企业,或能实现AI语音生产的实际落地。
国内一家首创AI+真人混合录制形式的企业——上海家瑶网络科技有限公司的业务模式与成长路径,或能为“AI+有声”的应用层落地提供注脚。除利用“情感TTS”音色批量录制有声读物之外,针对有声书行业存在的核心痛点问题,该公司独立研发的AI自动对轨、AI辅助审听的应用级产品“爱对轨”,借助行业领先的语音识别模型,实现了AI全流程参与制作,由AI自动完成繁复低效的操作,并辅助对音频内容进行审校,“以看代听”,极大地缩短了制作周期,提高了内容准确率。
AIGC在内容消费领域引起了生产力变革,从技术到商业模式的路径已全线打通,各类企业借助技术背景发挥自身优势,带来的海量下游应用优化将进一步释放行业创作活力与创新力。“AI+有声”模式作为其中一个缩影,也将拓展有声书行业市场规模,助力形成更加蓬勃发展的有声书市场。
扫二维码购买杂志
很赞哦!(16)