正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
of integers 资源规格支持的计费模式。可选值如下: 0:按需计费 1:包周期计费 billingCode String 资源规格编码。用来对应运营平台的上架的商品。 jobFlavors Array of strings 资源规格支持的作业类型列表。 表9 gpu 参数 参数类型
企业对权限最小化的安全管控要求。 策略授权:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。 角色与策略相关介绍请参考权限基本概念。 “新增委托 > 权限配置 > 普通用户”
在使用keras时,升级版本>=2.3.0之后,之前跑通的代码出现如下报错: TypeError: Unexpected keyword argument passed to optimizer: learning_rate 原因分析 出现该问题的可能原因是“learning_rate”的参数名称写错了。kera
在ECS中创建ma-user和ma-group 在ModelArts训练平台使用的自定义镜像时,默认用户为ma-user、默认用户组为ma-group。如果在训练时调用ECS中的文件,需要修改文件权限改为ma-user可读,否则会出现Permission denied错误,因此需要在ECS中提前创建好ma-user和ma-group。
原因分析 出现该问题的可能原因如下: 用户的自定义镜像中无ascend_check工具,导致启动预检失败。 用户的自定义镜像中的ascend相关工具不可用,导致预检失败。 处理方法 通过给训练作业加环境变量“MA_DETECT_TRAIN_INJECT_CODE”并将对应的值设置成0,就
error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 job_id Long 可视化作业的ID。 job_name String 可视化作业的名称 status Integer
create_at Long 镜像创建的时间,UTC毫秒。 description String 该镜像所对应的描述信息,长度限制512个字符。 dev_services Array of strings 镜像支持的服务。枚举值如下: NOTEBOOK:镜像支持通过https协议访问Notebook。
中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。 训练日志包括普通训练日志和Ascend相关日志。 普通日志说明:当使用Ascend之外的资源训
Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下: Active:SFS连通状态正常 Abnormal:SFS连通状态异常 ipAddr String SFS Turbo的访问地址。
企业项目id,指定此参数会只返回该企业项目id下的工作空间。默认显示所有工作空间。 name 否 String 工作空间名称查询参数,指定此参数会模糊查询该名称的工作空间。默认显示所有工作空间。 filter_accessible 否 Boolean 该参数用于筛选可访问的工作空间。指定该参数为tru
需要检查两个地方:自定义镜像中的代码开放的端口和创建AI应用界面上配置的端口。确认两处端口保持一致。AI应用创建界面如果不填端口信息,则ModelArts会默认监听8080端口,即镜像代码中启用的端口必须是8080。 图2 自定义镜像中的代码开放的端口 图3 创建AI应用界面上配置的端口 健康检查配置有问题
历史汇总后的统计信息。 表4 CheckTaskStats 参数 参数类型 描述 accepted_sample_count Integer 通过的样本数目。 checked_sample_count Integer 已验收的样本数目。 pass_rate Double 样本的通过率。
String ModelArts错误码 error_msg String 具体错误信息 状态码: 403 表8 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码 error_msg String 具体错误信息 状态码: 404 表9
服务状态一直处于“部署中”,查看AI应用日志未发现服务有明显错误。 原因分析 一般情况都是AI应用的端口配置有问题。建议您首先检查创建AI应用的端口是否正确。 处理方法 AI应用的端口没有配置,默认为8080,如您在自定义镜像配置文件中修改了端口号,需要在部署AI应用时,配置对应的端口号,使新的AI应用重新部署服务。
return code: 137 原因分析 日志显示训练进程的退出码为137。训练进程表示用户的代码启动后的进程,所以这里的退出码是用户的训练作业代码返回的。常见的错误码还包括247、139等。 退出码137或者247 可能是内存溢出造成的。请减少数据量、减少batch_size,优化代码,合理聚合、复制数据。
gpu_type 容器使用的GPU的型号。 node级别指标 cluster_id 该node所属CCE集群的ID。 node_ip 节点的IP。 host_name 节点的主机名。 pool_id 物理专属池对应的资源池ID。 project_id 物理专属池的用户的project id。
deleted_sample_count Integer 已删除的样本数目。 rejected_sample_count Integer owner验收不通过的样本数目。 sampled_sample_count Integer 待owner验收且被抽样的样本数目。 total_sample_count
用系统默认里面自带的。 如果必须指定卡ID,需要注意1/2/4规格下,指定的卡ID与实际分配的卡ID不匹配的情况。 如果上述方法还出现了错误,可以去notebook里面调试打印CUDA_VISIBLE_DEVICES变量,或者用以下代码测试,查看结果是否返回的是True。 import
响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 查询资源池的节点列表。 GET https://{endpoint}/v2/{project_id}/pools/{pool_name}/nodes
${work_dir}:${container_work_dir} 代表需要在容器中挂载宿主机的目录。宿主机和容器使用不同的文件系统,work_dir为宿主机中工作目录,目录下存放着训练所需代码、数据等文件。container_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 shm-size:共享内存大小。