检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
视频鉴黄评分 对视频的涉黄程度进行评分,分数越高越危险。评分范围(0, 100),评分≥50分的视频可视为涉黄视频。 视频暴恐评分 对视频的暴恐程度进行评分,分数越高越危险。评分范围(0, 100),评分≥50分的视频可视为暴恐视频。 视频涉政评分 对视频的涉政程度进行评分,分数越高越危险。评分范围(0
应用提示词实现智能客服系统的意图匹配 应用场景说明:智能客服系统中,大模型将客户问题匹配至语义相同的FAQ问题标题,并返回标题内容,系统根据匹配标题调出该FAQ问答对,来解答客户疑问。 父主题: 提示词应用示例
量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类清洗算子能力清单 算子分类 算子名称 算子描述 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化JSON数据。 父主题: 数据集清洗算子介绍
合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通文本类数据集。 创建文本类数据集配比任务 创建文本类数据集配比任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 视频类数据集当前仅支持发布为“默认格式”。 创建视频类数据集流通任务 创建视频类数据集流通任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
直到达到所需的标注粒度。如图2,首先标注视频中的“大类别”(如“动物”),然后根据该大类别进一步细分为多个子类。这种方式可以更精细地表示视频中涉及的不同对象或情境。 图2 多层级分类示例-声音分类 文本描述:如图3,文本描述允许标注者以文字的形式为视频片段提供更详细的说明或描述。
其中,各参数介绍如下: 变量取值:输入参数的各个变量取值。取值可以是数据集中的字段变量,也可以自定义变量值。 保存至任务输出参数(可选):该参数为输出的结果。由于输出结果为问答对形式,因此生成的问题必须选择context参数,回答必须选择target参数。 模型选择:选择平台预置的大模型,用于指令合成。
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据标注”,单击页面右上角“创建标注任务”。 在“创建标注任务”页面选择需要标注的文本类数据集,并选择标注项。 选择标注项时,不同类型的数据文件对应的标注项有所差异,可基于页面提示进行选择。
致性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建图片类数据集评估任务。 创建图片类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
过滤文本长度不在“文本长度范围”内的图文对。一个中文汉字或一个英文字母,文本长度均计数为1。 图文文本语言过滤 通过语种识别模型得到图文对的文本语种类型,“待保留语种”之外的图文对数据将被过滤。 图文去重 基于结构化图片去重 判断相同文本对应不同的图片数据是否超过阈值,如果超过则去重。
训练智能客服系统大模型需考虑哪些方面 根据智能客服场景,建议从以下方面考虑: 根据企业实际服务的场景和积累的数据量,评估是否需要构建行业模型,如电商、金融等。 根据每个客户的金牌客服话术,可以对对话模型进行有监督微调,进一步优化其性能。 根据每个客户的实际对话知识,如帮助文档、案
模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。 当前支持默认格式、盘古格式: 默认格式:数据工程功能支持的原始格式。 盘古格式:使用盘古大模型训练时所需要使用的数据格式。 如果使用该数据集训练盘古大模型,请将发布格式配置为盘古格式。 填写数据集名称
图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据清洗任务时,可直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。
选择标注项为“图片Caption”且开启AI预标注功能时,可设置以下两种方式的“标注要求”: 选择“全部标注”:要求标注人员需要对全部的数据进行人工标注后才可提交标注结果。 选择“可部分标注”:允许标注人员在确认AI预标注满足要求后,直接使用AI预标注功能完成数据集的标注并提交标注结果。 标注审核 是否审核 否,标注后不进行审核操作。
合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
与其他服务的关系 与对象存储服务的关系 盘古大模型使用对象存储服务(Object Storage Service,简称OBS)存储数据和模型,实现安全、高可靠和低成本的存储需求。 与ModelArts服务的关系 盘古大模型使用ModelArts服务进行算法训练部署,帮助用户快速创建和部署模型。
Key(AK)和Secret Access Key(SK)。下载的访问密钥为credentials.csv文件,包含AK/SK信息。 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全。 使用推理SDK章节示例代码均以ak和sk保存在环境变量中来实现身份验证。
常见问题 使用java sdk出现第三方库冲突 当出现第三方库冲突的时,如Jackson,okhttp3版本冲突等。可以引入如下bundle包(3.0.40-rc版本后),该包包含所有支持的服务和重定向了SDK依赖的第三方软件,避免和业务自身依赖的库产生冲突: <dependency>
包周期计费模式属于预付费模式,即先付费再使用。按需计费模式属于后付费模式,即费用根据服务实际消耗量计费,系统将每小时自动扣费。 盘古大模型的计费模式见表1。 表1 计费模式表 计费类别 计费项 计费模式 计费量纲 付费方式 计费周期 模型服务 模型订阅服务 包周期计费 套 预付费,按照订单的购买周期结算 1个月~1年
包年/包月和按需计费模式的区别如下: 包年/包月计费模式:包年/包月的计费模式是一种预付费方式,按订单的购买周期计费,适用于可预估资源使用周期的场景。 按需计费模式:按需付费是后付费方式,可以随时开通/关闭对应资源,支持秒级计费,系统会根据云服务器的实际使用情况每小时出账单,并从账户余额里扣款。