检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
对应python包使用错误,该python包确实没有对应的变量或者方法 第三方pip源中的python包版本更新,导致在训练作业中安装的python包的版本可能也会发生变化。如训练作业之前无此问题,后面一直有此问题,则考虑是此原因。 处理方法 通过Notebook调试。 安装时指定版本。如:pip
由于ModelArts的使用权限依赖OBS服务的授权,需要为用户授予OBS的系统权限。子用户的IAM权限是由其主用户设置的,如果主用户没有赋予OBS的putObjectAcl权限即会导致创建模型构建失败。 处理方法 了解ModelArts依赖的OBS权限自定义策略,请参见ModelArts依赖的OBS权限自定义策略样例。
登录AOM控制台。 在左侧导航栏选择“告警管理 > 告警规则”,单击“创建”,创建告警规则。 设置告警规则(以NPU掉卡为例)。 规则类型:选择“指标告警规则”。 配置方式:选择“PromQL”。 设置告警规则详情。 默认规则:选择“自定义”。 命令行输入框(排除值为2的为无效数据):
文件已添加指定的用户和用户组,您直接使用即可。 用户只需要设置uid为1000的用户ma-user和gid为100的用户组ma-group,并使ma-user有对应目录的读写执行权限,其他如启动cmd不需要关心,无需设置或更改。 vim一个Dockerfile文件,添加第三方镜像
ing-project}/。 如果报错路径为训练数据路径,需要在以下两个地方完成适配,具体适配方法请参考自定义算法适配章节的输入输出配置部分: 在创建算法时,您需要在输入路径配置中设置代码路径参数,默认为“data_url”。 您需要在训练代码中添加超参,默认为“data_url
订阅算法不支持另存为算法。 重建训练作业 当对创建的训练作业不满意时,您可以单击操作列的重建,重新创建训练作业。在重创训练作业页面,会自动填入上一次训练作业设置的参数,您仅需在原来的基础上进行修改即可重新创建训练作业。 停止训练作业 在训练作业列表中,针对“创建中”、“等待中”、“运行中”的训练作
基于release()方法,提供了release_and_run()方法,支持用户在开发态发布并运行工作流,节省了前往console配置执行的操作。 使用该方法时需要注意以下几个事项: Workflow中所有出现占位符相关的配置对象时,均需要设置默认值,或者直接使用固定的数据对象 方法的执行依
配置。 表1 部署模型服务 参数 说明 服务设置 服务名称 自定义部署模型服务的名称。 支持1~64位,以中文、大小写字母开头,只包含中文、大小写字母、数字、中划线、下划线的名称。 描述 部署模型服务的简介。支持256字符。 模型设置 部署模型 单击“选择模型”,选择“模型广场”或“我的模型”下面的模型。
代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 AscendSpeed是用于模型并行计算的框架,其中包含了许多模型的输入处理方法。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911版本。 说明: 如果上述软件获取路径打开后未显示相应
可能是密钥文件或放置密钥的文件夹权限问题,密钥不正确等,请按以下步骤排查。 解决方案 排查/home/ma-user权限,建议将该目录权限设置为755或750,权限不能过于宽松,以保证用户隔离和安全。修改方法如下。 chomd 755 /home/ma-user chomd 750 /home/ma-user 排查密钥是否是和实例绑定的一致。
method 是 String 请求方法,可选“post”、“get”。 max 否 Number 参数的最大值。当param_type为int或float时可选填,默认为空。 param_desc 否 String 参数描述,建议长度设置不超过100个字符,默认为空。 param_name
发布数据集(ModelArts) 表1 参数说明(ModelArts) 参数 说明 资产标题 在AI Gallery显示的资产名称,建议按照您的目的设置。 来源 选择“ModelArts”。 单个数据集最多支持20000个文件,总大小不超过30G。 ModelArts区域 选择数据集所在的区域,以控制台实际可选值为准。
参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workspace_id 是 String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。
e_id} 参数说明如表1所示 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 instance_id 是 String 实例ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2
动的NPU卡数保持一致,默认为1。 --block-size:kv-cache的block大小,推荐设置为128。 --num-scheduler-steps: 默认为1,推荐设置为8。用于multi-step调度。每次调度生成多个token,可以降低时延。开启投机推理后无需配置该参数,否则会导致投机推理启动报错。
_id} 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 instance_id 是 String 实例ID。 请求消息 请求参数如表2所示 表2 请求参数 参数 是否必选
参考从0-1制作自定义镜像并创建AI应用中的本地验证镜像方法。 创建模型界面上配置的健康检查地址与实际配置的是否一致 如果使用的是ModelArts提供的基础镜像创建模型,健康检查URL默认必须为/health。 图4 设置健康检查URL 模型推理代码customize_service
Gallery中订阅的算法不支持另存为新算法。 训练作业卡死检测目前仅支持资源类型为GPU的训练作业。 仅使用新版专属资源池训练时才支持设置训练作业优先级。公共资源池和旧版专属资源池均不支持设置训练作业优先级。 仅支持PyTorch和MindSpore框架的分布式训练和调测,如果MindSpore要进行多
id}/tags/create 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 resource_id 是 String 资源ID,也就是服务ID。 请求参数 表2 请求Header参数 参数
参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 请求参数 表2 请求Body参数 参数 是否必选 参数类型 描述