华为云计算云知识灵云全智能能力平台(HCS版)-

灵云全智能能力平台(HCS版)-

时间: 2022-04-15 02:44:36

猜你想看：

华为云产品区块链服务BCS 云安全产品非关系型云数据库关系型云数据库云服务器活动

适用于：Linux

商品简介：灵云全智能能力平台（AICP）是捷通华声完全自主知识产权的基础能力平台产品，提供一站式的语音合成、语音识别、图像识别、信息识别、自然语言处理、机器翻译、文本分析和大模型等能力服务。平台已全面对接DeepSeek、通义千问、百川、智谱等大模型

商品亮点：语音识别、语义理解、文本分析、机器翻译、图像识别，准确率高、速度快,语音合成音频流畅自然，音色丰富,支持多种接口及对接模式，适应不同场景需求,提供一站式语音、语义、视觉、大模型等各类人工智能算法数据管理、模型训练、模型推理的开发与服务,AI 智能体，基于大模型实现任务的自主规划和执行，可帮助企业快速落地大模型应用。

商品说明

版本: V10	交付方式: License
适用于: Linux	上架日期: 2022-04-15 02:44:36

1. 系统概述

灵云全智能能力平台采用捷通华声推出的企业级人工智能私有云基础架构，能为客户提供多种定制化组合人工智能服务。灵云全智能能力平台构建一个统一的基础平台，为全方位的人工智能核心技术提供服务和支撑，凭借开放的架构设计，实现语音合成、语音识别、自然语言理解、信息识别、自然语言理解、光写字符识别等多种人工智能引擎的灵活组合与挂接，具有良好的使用性和可扩充性，帮助客户搭建属于自己的人工智能平台，构建企业AI生态。

灵云全智能能力平台具有良好的开放性和兼容性，支持标准的协议和接口类型，可以部署在符合软硬件配置要求的任何平台上，全面支持IBM、HP、DELL等主流硬件平台和Linux、Unix等主流操作系统。平台具有良好的扩展性及与其它系统的互通性，在增加新业务时不需要更改系统的软件结构和网络结构。同时，还能够提供针对业务特点的个性化的定制接口，满足业务多样化的要求，为用户提供最适合用户特点的可定制的人工智能能力服务。系统良好的支持多线程和多进程，便于进行性能优化。

2. 总体设计

本产品挂接捷通语音识别引擎、语音合成引擎、图像识别引擎、自然语言理解引擎等，为平台提供一站式服务，通过提供MRCP、HTTP、websocket、http_trans等接口对接项目采购方等各渠道端业务系统，满足不同部门和渠道的应用需求。灵云全智能能力平台可以提供实时短音频文件转文本、实时语音流转文本、离线长音频文件转文本等语音识别服务，还支持标准男女声、阳光的男声、甜美的女声可爱的童声等风格多样化的中文普通话合成音色，支持中英文混合及多语种语言的合成；支持图像转文字，可以进行文档识别、证照识别及制定模板识别，并输出制定条目，支持多种常见的图片格式jpg、png、tiff等，以及其他人工智能各项能力。灵云全智能能力平台还自带管理平台，提供建设具有动态调整资源池分配、应用管理、监控管理、日志管理的系统管理服务。

3. 能力服务
3.1 语音识别

ASR（Automatic Speech Recognition，自动语音识别）能力服务，主要提供了将用户输入的音频转换为识别文本以及其他结构化信息的功能。灵云语音识别能力基于捷通华声公司最新一代的识别算法、解码器核心、先进的声学模型和语言模型训练方法，在核心的声学模型、语言模型、解码器上都有创新和突破，在识别率、实时率上都达到了国际领先水平。

灵云语音识别还为不同的领域制作了专门的领域语言模型，针对特定领域的专业词汇、说法等进行了相应的优化，因而对于领域内的音频具有更好的识别效果。语音识别支持多种音频格式的识别，包括并不限于pcm、wav、mp3、v3、vox、speex、opus、 G.711（alaw-A率, ulaw-μ率）语音编码等格式。无论何种编码格式，在平台中都会解码为 pcm 16bit 数据送入核心算法进行识别。语音识别具备降噪功能，能够识别一定程度的噪音或背景音下的语音。灵云语音识别系统通过对实际业务系统收集到的不同类型背景噪声的语音数据、以及通过仿真获得的模拟噪音数据进行海量的音频数据训练，具有很高的噪声适应能力和识别鲁棒性。灵云语音识别系统具有统一的文本后处理模块，此后处理模块对于ASR的识别结果将进行一系列的后处理，以便得到用户体验更好的结果文本。

灵云语音识别系统可以输出正常的识别结果，在实时连续转写模式下还可以输出 “语音开始” 和 “结束” 的 VAD 事件。灵云语音识别系统可以在识别过程中，实时输出当前解码的结果（也称为“中间临时结果”），而不是等到一句话都说完再返回最终结果。这主要是为了满足实时上屏的需求。由于在一句话的识别过程中，随着后续声音的馈入，解码的最优路径会发生变化，因此同一句话的中间临时结果会不断发生变化。

3.2 语音合成

TTS （Text To Speech，语音合成）能力服务，主要提供了将文本转换为语音的功能，简单都说就是 “让机器开口说话”。灵云语音合成服务，采用最新的端到端技术深度神经网络算法，合成效果得到了很大提升，具有合成音色优美、音质清晰、自然度高、韵律感强的特点。同时，也在工程化方面做了大量工作，使得能满足实际落地的性能需求。

灵云语音合成服务现在已被广泛应用在客服中心、叫号、终端APP等场景，但核心技术仍在不断发展。平台挂接的最新的端到端神经网络算法引擎只支持多个语种，女声、男声、童声等不同风格的语音合成音库。所有中文都支持中英文混读。

语音合成支持音量调节、语速调节、基频调节，支持强制设置数字读法、英文读法、标点读法。支持多种音频格式输出，包括pcm, alaw, ulaw, wav, mp3, opus, speex 等，也支持指定输出的音频采样率。在语音合成过程中，有可能出现读音错误、停顿或韵律错误、或者需要控制某些局部文本读法的情况， AICP 的语音合成能力服务提供了一些优化方式可以解决这些问题。在文本中可以定义一些简单的标记，来控制停顿、读法。支持SSML（Speech Synthesis Markup language）和 S3ML（SinoVoice SSML）语音合成标记语言，可以对多种特性进行灵活标注与控制。

3.3 自然语言理解

AICP 10 平台所提供的 NLU 能力服务，实际上是一个广义 NLU的概念，更准确的说是提供了 ChatBot（对话机器人）的能力，也即提供的是和一个机器人进行问答交互的能力，其中包括了如下技术：

NLU（Natural Language Understanding，自然语言理解）：根据用户输入（用户主动发问或者应答），获得用户的对话意图以及所传递的信息。
DM（Dialogue Management，对话管理）：根据NLU的结果、上下文（历史信息）执行对话状态的更新和追踪，并根据一定策略选择相应的候选动作。
NLG（Natural Language Generation, 自然语言生成）：根据所选取的动作，生成对用户的回复。

3.4 文本分析

灵云文本分析技术采用了业内领先的基于深度神经网络的文本处理和分析算法。捷通华声将学术界先进的语言模型研究应用于实际生产环境中，将其融合在情感分析、命名实体识别、文本分类等有监督任务中，并对于模型进行合理的剪裁，以适应实际生产环境下的性能需求。通过使用实际项目中标注的数据进行模型训练，并制定有全方位的评测指标，保证在实际项目中使用的效果。提供如下11个功能：

l 词法分析

l 命名实体识别

l 文本相似度

l 文本分类

l 情感分析

l 文本摘要

l 关键词提取

l 用户特征提取

l 标准话术检查

l 规则质检

l 事件抽取

3.5 图像识别

OCR （Optical Character Recognition，光学字符识别）能力服务，主要提供了对文档以及各种类型证照进行识别的服务。灵云 OCR 技术基于最新的深度学习模型，相比于传统的OCR识别服务，识别率大幅领先，对于模糊、污损、粘连等情况适应性更好。目前模版识别引擎采用了半固定模板区域搜索的模式，对于版式不固定的目标具有更强的鲁棒性，对于遮挡、反光、阴影的容忍度更强，极大降低了因各种外界因素导致识别失败的可能性。支持对各类票据、证件、合同、表单等识别对象进行模板的定制开发，可以实现指定条目文字内容的结构化输出，也可以实现指定条目的各种盖章及手写签字、日期的结构化识别。

灵云OCR服务支持多语种的识别：

中文：包括简繁体汉字
少数民族语言：维吾尔文，藏文，彝文，朝文，蒙文
英文，哈萨克文