检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。 具体格式要求详见表1。
如果您需要为企业员工设置不同的访问权限,以实现功能使用权限和资产的权限隔离,可以为不同员工配置相应的角色,以确保资产的安全和管理的高效性。 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户(子用户)进行权限管理,您可以跳过本章节,不影响您使用盘古的其他功能。 您可以使用统一身份认证服务(IAM)并结合ModelArts
图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据清洗任务时,可直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。
token解析失败,请检查获取token的方法,请求体信息是否填写正确,token是否正确;检查获取token的环境与调用的环境是否一致。 token超时(token expires) ,请重新获取token,使用不过期的token。 请检查AK/SK是否正确(AK对应的SK错误,不匹配;AK/SK中多填了空格)。
视频鉴黄评分 对视频的涉黄程度进行评分,分数越高越危险。评分范围(0, 100),评分≥50分的视频可视为涉黄视频。 视频暴恐评分 对视频的暴恐程度进行评分,分数越高越危险。评分范围(0, 100),评分≥50分的视频可视为暴恐视频。 视频涉政评分 对视频的涉政程度进行评分,分数越高越危险。评分范围(0
图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据清洗任务时,可直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。
直到达到所需的标注粒度。如图2,首先标注视频中的“大类别”(如“动物”),然后根据该大类别进一步细分为多个子类。这种方式可以更精细地表示视频中涉及的不同对象或情境。 图2 多层级分类示例-声音分类 文本描述:如图3,文本描述允许标注者以文字的形式为视频片段提供更详细的说明或描述。
模型,为了使这些数据集能够被这些大模型正常训练,平台支持发布不同格式的数据集。 当前支持默认格式、盘古格式: 默认格式:数据工程功能支持的原始格式。 盘古格式:使用盘古大模型训练时所需要使用的数据格式。 如果使用该数据集训练盘古大模型,请将选择格式配置为盘古格式。 填写数据集名称
图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据清洗任务时,可直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。
量数据中提取出有用信息,并进行深度加工,以生成高质量的训练数据。 平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类清洗算子能力清单 算子分类 算子名称 算子描述 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化JSON数据。 父主题: 数据集清洗算子介绍
合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通文本类数据集。 创建文本类数据集配比任务 创建文本类数据集配比任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。
数据流通是将单个数据集发布为特定格式的“发布数据集”的过程,用于后续模型训练等操作。 视频类数据集当前仅支持发布为“默认格式”。 创建视频类数据集流通任务 创建视频类数据集流通任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
据如下特征过滤: 待保留的词个数。 待保留的平均词长度。 段落结尾不完整句子过滤 按照句子的过滤粒度,自动识别段落结尾处的内容是否完整,如果不完整,则过滤。 广告数据过滤 按照句子的过滤粒度,删除文本中包含广告数据的句子。 QA对过滤 过滤包含以下情况的QA对: 问题不是string格式。
致性等多个质量维度,用户可以直接使用该标准或在该标准的基础上创建评估标准。 若您希望使用平台预置的评估标准,可跳过此章节至创建图片类数据集评估任务。 创建图片类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程
Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据加工 > 数据标注”,单击页面右上角“创建标注任务”。 在“创建标注任务”页面选择需要标注的文本类数据集,并选择标注项。 选择标注项时,不同类型的数据文件对应的标注项有所差异,可基于页面提示进行选择。
其中,各参数介绍如下: 变量取值:输入参数的各个变量取值。取值可以是数据集中的字段变量,也可以自定义变量值。 保存至任务输出参数(可选):该参数为输出的结果。由于输出结果为问答对形式,因此生成的问题必须选择context参数,回答必须选择target参数。 模型选择:选择平台预置的大模型,用于指令合成。
用户可以通过调用REST网络的API来访问盘古大模型服务,有以下两种调用方式: Token认证:通过Token认证调用请求。 AK/SK认证:通过AK(Access Key ID)/SK(Secret Access Key)加密调用请求。经过认证的请求总是需要包含一个签名值,该签名值以请求者的访问密钥
选择标注项为“图片Caption”且开启AI预标注功能时,可设置以下两种方式的“标注要求”: 选择“全部标注”:要求标注人员需要对全部的数据进行人工标注后才可提交标注结果。 选择“可部分标注”:允许标注人员在确认AI预标注满足要求后,直接使用AI预标注功能完成数据集的标注并提交标注结果。 标注审核 是否审核 否,标注后不进行审核操作。
图1 算子编排 在编排过程中,可单击右上角“保存为新模板”将当前编排流程保存为模板。后续创建新的数据清洗任务时,可直接单击“选择加工模板”进行使用。 若选择使用加工模板,将删除当前已编排的清洗步骤。 图2 选择加工模板 清洗步骤编排完成后,单击右下角“启动清洗”,将启动清洗任务。
合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。