检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
受限,需要解决内网的问题。 其他问题现象的可能原因如下: 无OBS访问授权。 无OBS桶或文件的访问权限。 OBS桶被删除。 解决方案 检查委托授权 请前往权限管理,查看是否具有OBS访问授权。如果没有,请参考配置访问授权(全局配置)。 请确认是否有OBS桶的访问权限 进入OBS
指定每一页展示作业参数的总量,默认为10,“per_page”可选的范围为[1,1000]。 page 否 Integer 指定要查询页的索引,默认为1。 sortBy 否 String 指定查询的排序方式,默认是作业参数名称“config_name”,目前支持的排序还有作业参数描述
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
问Openstack的管理地址(169.254.169.254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 购买共享存储硬盘资源(多机训练场景) 用户若购买开通多个节点机器资源,并使用多机进行分布式训练时,则需要用户购买可挂载的存储硬盘资源,以实现多
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表2。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表2。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
准备环境 本文档中的模型运行环境是ModelArts Lite的DevServer。请参考本文档要求准备资源环境。 资源规格要求 计算规格:不同模型训练推荐的NPU卡数请参见表1。 硬盘空间:至少200GB。 Ascend资源规格: Ascend: 1*ascend-snt9b表示Ascend单卡。
单击“编辑”,查看高级配置的“plugins”参数下是否有“{"name":"cabinet"}”,如图2所示。 图2 Volcano调度器的高级配置 是,则执行2。 否,则在高级配置的“plugins”参数下添加“{"name":"cabinet"}”,单击下方的“安装”使Volcano调度器更新配置,完成滚动重启。
训练数据列数一致,总数据量不少于100条不同数据(有一个特征取值不同,即视为不同数据)。 训练数据列内容不能有时间戳格式(如:yy-mm-dd、yyyy-mm-dd等)的数据。 如果某一列的取值只有一种,会被视为无效列。请确保标签列的取值至少有两个且无数据缺失。 标签列指的是在训练
有错误,提供的失败可能原因仅供参考。针对分布式作业,只会显示当前节点的一个分析结果,作业的失败需要综合各个节点的失败原因做一个综合判断。 常见训练问题定位思路如下: 根据日志界面提示中提供的分析建议解决。 参考案例解决:会提供当前故障对应的指导文档链接,请参照文档中的解决方案修复问题。
用户制作的自定义镜像,在本地执行docker run启动,无法正常运行; 用户自行安装了Jupyterlab服务导致冲突的,需要用户本地使用Jupyterlab命令罗列出相关的静态文件路径,删除并且卸载镜像中的Jupyterlab服务; 用户自己业务占用了开发环境官方的8888、
Tensorflow和Caffe框架的模型格式转换为MindSpore的模型格式,即模型后缀为.om,使之能在昇腾硬件中进行推理。由于产品演进规划,后续昇腾硬件推理时主要使用后缀为.mindir的模型格式,因此ModelArts下线.om格式的模型转换能力,在ModelArts中逐步增加
参数错误 请检查填写的参数。 400 ModelArts.0107 The values of the request parameters ({0},{1}) are invalid. 请求的参数值 ({0},{1})是无效的. 检查提示的参数值是否是有效的。 400 ModelArts
中出现的问题提供详细信息。用户代码中的标准输出、标准错误信息会在训练日志中呈现。在ModelArts中训练作业遇到问题时,可首先查看日志,多数场景下的问题可以通过日志报错信息直接定位。 训练日志包括普通训练日志和Ascend相关日志。 普通日志说明:当使用Ascend之外的资源训
callbacks suppressed"。 原因分析 根据SFS客户端日志分析出现问题的时间点发现,SFS盘连接的客户端个数较多,在问题的时间点并发读取数据,I/O超高;当前SFS服务端的机制是:当SFS盘的性能到上限时,就会IO排队。IO排队造成处理时间超过 1 分钟时,客户端内核会打
界面目前显示的节点规格是ModelArts根据用户的AI应用和资源池的节点规格计算得到,用户可以选择ModelArts提供的规格,也可以使用自定义规格(公共资源池不支持)。 计算节点规格主要是根据用户AI应用实际需要的资源进行选择,如AI应用正常运行需要3U10G的资源,那么需要
String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。调用成功时无此字段。 log_file_list String 训练作业的日志文件名。单机作业日志仅有一个文件,分布式作业日志有多个文件。 请求示例
练过程的输入输出数据,比对NPU环境和标杆环境的所有输入输出的差异来发现异常信息。更多介绍请参考Msprobe工具溢出检测和精度比对介绍。 API精度预检是通过提取模型中所有的API前反向信息,通过工具构造相应的API单元测试,将NPU输出与标杆比对,从而检测出精度有差异的API