检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
llama2-70B)等sft训练完成后多线程退出时报“torch.distributed.DistStoreError: Socket Timeout”时请参考问题4:Error waiting on exit barrier错误 4、需要开启profiling功能进行性能数据采集和解析请参考录制
确认智能标注作业的数据难例 在数据量很大的标注任务中,标注初期由于已标注图片不足,智能标注的结果无法直接用于训练。如果对所有的未标注数据一一进行调整确认仍然需要较大的人力和时间成本。为了更快地完成标注任务,在对未标注数据进行智能标注的任务中,ModelArts嵌入了自动难例发现功能
获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面,查看“IAM用户名”和“IAM用户ID”。 图1 获取用户名和ID 父主题: 公共参数
步骤一:准备工作 注册华为账号并开通华为云、实名认证 注册华为账号并开通华为云 进行实名认证 配置委托访问授权 ModelArts使用过程中涉及到OBS等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。
说明: 日志文件中的迭代次数、LOSS和吞吐数据必须按照“迭代次数|loss|吞吐”格式存放,否则AI Gallery会数据解析失败,导致“吞吐”和“训练LOSS”曲线异常。
模型注册:将训练后的结果注册到模型管理中。 服务部署:将生成的模型部署为在线服务。 快速查找创建好的项目 在自动学习总览页,您可以通过搜索框,根据自动学习的属性类型(项目名称)快速搜索过滤到相应的工作流,可节省您的时间。
模型注册:将训练后的结果注册到模型管理中。 服务部署:将生成的模型部署为在线服务。 快速查找创建好的项目 在自动学习总览页,您可以通过搜索框,根据自动学习的属性类型(项目名称)快速搜索过滤到相应的工作流,可节省您的时间。
有如下两种获取方式: 从控制台获取项目ID和名称 调用API获取项目ID 从控制台获取项目ID和名称 从控制台获取项目ID(project_id)和名称(project name)的步骤如下: 注册并登录管理ModelArts控制台。
操作步骤如下: 注册镜像。登录ModelArts控制台,在左侧导航栏选择“镜像管理”,进入镜像管理页面。单击“注册镜像”,镜像源即为推送到SWR中的镜像。请将完整的SWR地址复制到这里即可,或单击可直接从SWR选择自有镜像进行注册,类型加上“GPU”,如图1所示。
创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图1 选择自定义镜像 资源类型推荐使用专属资源池,规格选到Ascend snt9b,显存规格建议选择64G以上的规格,磁盘规格建议选择500GB及以上。
图1 创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图2 选择自定义镜像 资源类型推荐使用专属资源池,规格选到Ascend snt9b,显存规格建议选择64G以上的规格,磁盘规格建议选择500GB及以上。
图1 创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图2 选择自定义镜像 资源类型推荐使用专属资源池,规格选到Ascend snt9b,显存规格建议选择64G以上的规格,磁盘规格建议选择500GB及以上。
图1 创建Notebook 创建Notebook时,选择自定义镜像,并选择Step8 注册镜像章中注册的镜像。 图2 选择自定义镜像 资源类型推荐使用专属资源池,规格选到Ascend snt9b,显存规格建议选择64G以上的规格,磁盘规格建议选择500GB及以上。
获取训练作业支持的公共规格 功能介绍 获取训练作业支持的公共规格。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-job-flavors
创建Notebook实例 注册镜像。登录ModelArts控制台,在左侧导航栏选择“镜像管理”,进入镜像管理页面。单击“注册镜像”,镜像源即为推送到SWR中的镜像。请将完整的SWR地址复制到这里即可,或单击可直接从SWR选择自有镜像进行注册,类型加上“GPU”,如图1所示。
获取训练作业支持的AI预置框架 功能介绍 获取训练作业支持的AI预置框架。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/training-job-engines
附录:rank_table_file.json文件 rank_table_file.json文件样例如下,需要根据实际修改device_ip,server_id,container_ip参数,4台机器上的rank_table_file.json文件内容一致。在步骤四:创建rank_table_file.json
例如:需要根据训练节点输出的精度信息来决定是重新训练还是进行模型的注册操作时可以使用该节点来实现流程的控制。
图6 成功上传镜像 Step8 注册镜像 镜像上传至SWR成功后,在ModelArts控制台注册镜像。 登录ModelArts管理控制台,在左侧导航栏选择“资产管理 > 镜像管理”,然后在“镜像管理”页面右上角单击“注册镜像”。
obs_url String 训练作业需要的数据集OBS路径URL,ModelArts会通过数据集ID和数据集版本ID自动解析生成。如:“/usr/data/”。 表19 obs 参数 参数类型 描述 obs_url String 训练作业需要的数据集OBS路径URL。