检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用自定义镜像创建Notebook后打开没有kernel 用户自定义镜像自建的conda环境会查到一些额外的包,影响用户程序,如何解决? 用户使用ma-cli制作自定义镜像失败,报错文件不存在(not found) 用户使用torch报错Unexpected error from cudaGetDeviceCount
支持给创建出来的节点加taints来设置反亲和性,非特权池不能指定。 labels Map<String,String> k8s标签,格式为key/value键值对。 tags Array of UserTag objects 资源标签,非特权池不能指定。 network NodeNetwork
per-channel Step1 模型量化 可以在Huggingface开源社区获取AWQ量化后的模型权重;或者获取FP16/BF16的模型权重之后,通过autoAWQ工具进行量化。 方式一:从开源社区下载发布的AWQ量化模型。 https://huggingface.co/models?s
异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状
异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状
异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状
per-channel Step1 模型量化 可以在Huggingface开源社区获取AWQ量化后的模型权重;或者获取FP16/BF16的模型权重之后,通过autoAWQ工具进行量化。 方式一:从开源社区下载发布的AWQ量化模型。 https://huggingface.co/models?s
显示最近三天的数据。在“资源占用情况”窗口打开时,会定期向后台获取最新的资源使用率数据并刷新。 操作一:如果训练作业使用多个计算节点,可以通过实例名称的下拉框切换节点。 操作二:单击图例“cpuUsage”、“gpuMemUsage”、“gpuUtil”、“memUsage”“n
包含gallery的算法,则自动将依赖的算法资产发布新版本,版本号也自动增加。 Workflow资产白名单设置: 在资产第一次发布时,可以通过release_to_gallery方法的visibility+group_users字段进行设置,后续需要对指定资产进行用户白名单添加或删除操作时,可执行如下命令:
请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述 description 否 String 标注成员描述,长度为0-256位,不能包含^!<>=&"'特殊字符。 role 否 Integer 角色。可选值如下: 0:打标者 1:审核者 2:团队管理者 3:数据集拥有者
异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图3 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状
异常或隔离节点,并重启训练作业,提高训练成功率。为了避免丢失训练进度、浪费算力。此功能已适配断点续训练。 图2 开启故障重启 断点续训练是通过checkpoint机制实现。checkpoint机制是在模型训练的过程中,不断地保存训练结果(包括但不限于EPOCH、模型权重、优化器状
训练作业唯一标识。 “作业状态” 训练作业状态。 说明: 如果昇腾以及MindSpore框架的训练作业运行失败,您可以在作业状态的提示信息中,单击昇腾论坛进行发帖提问或者搜索问题。 非昇腾规格的作业运行失败后,您可以在作业状态的提示信息中,单击ModelArts开发者论坛进行发帖或者搜索已有问题。
String 标注团队名称,名称不能包含!<>=&"',长度为0-1024位。 表5 Worker 参数 是否必选 参数类型 描述 create_time 否 Long 创建时间。 description 否 String 标注成员描述,长度为0-256位,不能包含^!<>=&"'特殊字符。
/v2/{project_id}/metrics/runtime/pools 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 无 响应参数 状态码: 200 表2 响应Body参数 参数 参数类型 描述 apiVersion
表名称:根据选择的数据库展现此数据库中的所有表。请在下拉框中选择您所需的表。 DLI的default队列只用作体验,不同账号间可能会出现抢占的情况,需进行资源排队,不能保证每次都可以得到资源执行相关操作。 DLI支持schema映射的功能,即导入的表的schema的字段名称可以不和数据集相同,但类型要保持一致。
instance_id String 实例ID。 status String 节点的状态。枚举值如下: init:初始化 wait_inputs:等待输入 pending:等待 creating:创建中 created:创建成功 create_failed:创建失败 running:运行中 stopping:停止中
大的值可能会影响性能,设置为18相对平衡。 NCCL_IB_RETRY_CNT 15 IB通信重试次数。建议设置为最大值15,减少IB通信失败的概率。 父主题: 创建训练作业
成功响应示例 { "instance_id": "6fa459ea-ee8a-3ca4-894e-db77e160355e" } 失败响应示例 { "error_message": "The instance does not exist.", "error_code":
d}/versions/{version_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 task_id 是 String 数据处理任务ID。 version_id 是 String