检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
训练时的代表性和均衡性,从而避免数据分布不均导致的训练问题。 多种数据格式支持:对于文本类、图片类数据集,平台支持多种数据发布格式,包括“默认格式”、“盘古格式”和“自定义格式”,以满足不同训练任务的需求。通过这些格式的转换,用户可以确保数据与特定模型(如盘古大模型)兼容,并优化训练效果。
起报时间间隔小时数,默认6。取值范围:[1, 24]。 forecast_lead_hours 否 Long 预报未来小时数,默认168。如需预报未来30天,可将此参数设置成720。 draw_figures 否 String 是否输出结果图片,取值true/false,默认true。 forecast_features
创建数据集发布任务 创建数据集发布任务,并进行正式的数据集发布操作,可用于后续的训练任务。 平台支持发布的数据集格式为默认格式、盘古格式,可按需进行数据集格式转换。 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要进行数据集格式转换。当前仅文本类、图片类数据集支持转换为盘古格式。
否 Long 起报时间间隔小时数,默认6。取值范围:[1, 24]。 forecast_lead_hours 否 Long 预报未来小时数,默认168。 draw_figures 否 String 是否输出结果图片,取值true/false,默认true。 forecast_features
“OBS”表示从OBS中读取数据。 作业输出方式 选择 “OBS”表示将输出结果存储在OBS中。 作业配置参数 设置模型部署参数信息,平台已给出默认值。 架构类型 算法所支持的结构类型,模型选择完成后,会自动适配架构类型。 资源配置 实例数 设置部署模型是所需的实例数,单次部署服务时,
数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的视频类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集 单击“下一步”进入“算子编排”
数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的文本类数据集,并设置数据集的名称和描述。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集 单击“下一步”进入“算子编排”
够帮助用户检验数据的准确性、完整性和一致性,确保数据在进入模型训练前的高质量标准。 数据发布:平台支持将处理后的数据集发布为多种格式,包括默认格式和盘古格式。尤其对于文本类和图片类数据集,平台支持将其转换为专门用于训练盘古大模型的盘古格式,为后续模型训练提供高效的数据支持。 通过
通过把图片结构化处理后,过滤重复的图片/图文对数据。 数据打标 图片鉴黄评分 对图片的涉黄程度进行评分,分数越高越危险。评分范围(0,100),默认评分超过50分的视频可视为涉黄视频。 父主题: 数据集加工算子介绍
数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的气象类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集 单击“下一步”进入“算子编排”
选择“可部分审核”:审核人员确认部分数据达到标注要求后,可以一键通过所有的标注。 选择“全部审核”:审核员在审核一部分数据后,发现标注质量均很高,则可以一键提交剩余待审核数据,默认审核通过,即可完成审核任务。 图4 设置标注人员、标注信息示例 在“标注管理”页面,单击操作列“上线”,可执行后续标注操作。对于未上线的标注任务,可执行编辑和删除操作。
数据加工”,单击界面右上角“创建加工数据集”。 图2 数据加工 在“创建加工数据集”页面,选择需要加工的图片类数据集,并设置数据集的名称和描述信息。 选择数据集时,默认选择当前空间的数据集。如果用户具备其他空间的访问权限,可以选择来自其他空间的数据集。 图3 创建加工数据集 单击“下一步”进入“算子编排”
选择“可部分审核”:审核人员确认部分数据达到标注要求后,可以一键通过所有的标注。 选择“全部审核”:审核员在审核一部分数据后,发现标注质量均很高,则可以一键提交剩余待审核数据,默认审核通过,即可完成审核任务。 图4 设置标注人员、标注信息示例 在“标注管理”页面,单击操作列“上线”,可执行后续标注操作。对于未上线的标注任务,可执行编辑和删除操作。
登录ModelArts Studio大模型开发平台,进入所需空间。 单击左侧“能力调测”,进入“文本对话”页签,选择服务与系统人设,参数设置为默认参数,在输入框输入问题,单击“生成”,模型将基于问题进行回答。 图1 使用预置服务进行文本对话 可以尝试修改参数并查看模型效果。以修改“核
获取文本类数据集评估报告 发布数据集 创建文本类数据集发布任务 创建发布数据集,并进行正式的发布操作,用于后续的训练任务。 平台支持发布的数据集格式为默认格式、盘古格式。 训练盘古NLP大模型需选择发布格式为盘古格式。 发布文本类数据集 父主题: 开发盘古NLP大模型
选择“可部分审核”:审核人员确认部分数据达到标注要求后,可以一键通过所有的标注。 选择“全部审核”:审核员在审核一部分数据后,发现标注质量均很高,则可以一键提交剩余待审核数据,默认审核通过,即可完成审核任务。 图4 设置标注人员、标注信息示例 在“标注管理”页面,单击操作列“上线”,可执行后续标注操作。对于未上线的标注任务,可执行编辑和删除操作。
们拥有训练模型或者访问训练数据的权限,那么您可以先创建一个IAM用户,并设置该用户在盘古平台中的角色,控制对资源的使用范围。 IAM权限 默认情况下,管理员创建的IAM用户(子用户)没有任何权限,需要将其加入用户组,并对用户组授权,才能使得用户组中的用户获得对应的权限。授权后,用
不审核,默认为true。 answer_moderation boolean 是否开启对推理结果进行内容审核,true:审核,false:不审核,默认为true。 show_result boolean 是否返回内容审核不通过原因,true:审核,false:不审核,默认为false。
头“Content-Type”,请求鉴权信息等。 以下公共消息头需要添加到请求中。 Content-Type:消息体的类型(格式),必选,默认取值为“application/json”。 X-Auth-Token:用户Token,可选,当使用Token方式认证时,必须填充该字段。
如何对盘古大模型的安全性展开评估和防护 盘古大模型的安全性主要从以下方面考虑: 数据安全和隐私保护:大模型涉及大量训练数据,这些数据是重要资产。为确保数据安全,需在数据和模型训练的全生命周期内,包括数据提取、加工、传输、训练、推理和删除的各个环节,提供防篡改、数据隐私保护、加密、