检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
有该参数。 “代码目录” 训练作业代码目录所在的OBS路径。 您可以单击代码目录后的“编辑代码”,在“OBS在线编辑”对话框中实时编辑训练脚本代码。当训练作业状态为“等待中”、“创建中”和“运行中”时,不支持“OBS在线编辑”功能。 说明: 当您使用订阅算法创建训练作业时,不支持该参数。
请根据构建日志报错信息,定位服务预测失败原因,修改模型推理代码后,重新导入模型进行预测。 经典案例:在线服务预测报错MR.0105 出现其他情况,优先检查客户端和外部网络是否有问题。 以上方法均未解决问题,请联系系统管理员。 父主题: 服务预测
ock dim、operator no bound相关AOE配置以及调优建议。 支持对昇腾训练、推理环境进行预检,完成相关依赖配置项的提前检查,并在检测出问题时给出相关修复建议。 自动诊断工具可以有效减少人工分析profiling的耗时,降低性能调优的门槛,帮助客户快速识别性能瓶
requirements are installed’ 原因分析 出现该问题的可能原因如下: 用户/训练系统,将CUDA_VISIBLE_DEVICES传错了,检查CUDA_VISIBLE_DEVICES变量是否正常。 用户选择了1/2/4卡这些规格的作业,然后设置了CUDA_VISIBLE_DEVI
2.2.8.0aa484aa”以安装最新moxing framework版本,其他参数填写请参见创建训练作业。 配置完成后,可以在训练作业脚本中使用“moxing.file.copy_parallel”接口加速数据下载。 需要时可以通过在训练作业的“环境变量”中设置“MOX_C_
网络规划。 账号冻结导致创建失败? 查看资源池失败报错信息,存在"frozen deposit fail",表示账号冻结导致资源创建失败。检查账号状态和资源欠费情况,账号解冻后重新购买资源。 订单取消导致资源创建失败? 查看资源池失败报错信息,存在"the operation is
nnect to Host in New Window按钮。 图5 打开开发环境 在新打开的选择Notebook运行环境页面中,选择“Linux”。 图6 选择Notebook运行环境 图7 开发环境远程连接成功 Step3 安装云端Python插件 在新打开的VS Code界面
对精细化授权的要求,无法完全达到企业对权限最小化的安全管控要求。 策略授权:IAM最新提供的一种细粒度授权的能力,可以精确到具体服务的操作、资源以及请求条件等。基于策略的授权是一种更加灵活的授权方式,能够满足企业对权限最小化的安全管控要求。 角色与策略相关介绍请参考权限基本概念。
获取API接口调用公网地址 如果信息正确,右下角连接状态处会显示:CONNECTED; 如果无法建立连接,如果是401状态码,检查认证信息; 如果显示WRONG_VERSION_NUMBER等关键字,检查自定义镜像的端口和ws跟wss的配置是否正确。 连接成功后结果如下: 图3 连接成功 优先验证自定义镜
配置Cluster资源,确保可以通过公网访问Cluster机器,具体配置请参见配置Lite Cluster网络。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态
取宿主机元数据。 检查环境。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。
/home/ma-user/coco # 进入到对应目录 # cd /home/ma-user/work/${YOLOX在SFS上的路径} # 安装环境并执行脚本 # /home/ma-user/anaconda3/envs/pytorch/bin/pip install -r requirements
13中编译生成的so包,在cuda版本为9.0训练环境中tf-1.12训练会报该错。 编译环境和训练环境的cuda版本不一致时,可参考如下处理方法: 在业务执行前加如下命令,检查是否能找到so文件。如果已经找到so文件,执行2;如果没有找到,执行3。 import os; os.system(find /usr -name
文件删除后不可恢复) rm {文件路径} 如果删除的文件夹或者文件中带有空格,需要给文件夹或文件加上单引号。如图示例: 执行如下命令,再次检查虚拟机所使用的存储空间。 cd /home/ma-user/work du -h --max-depth 0 如果Notebook实例的存
者增删标签。 如果增加了图片,您需要对增加的图片进行重新标注。如果您增删标签,建议对所有的图片进行排查和重新标注。对已标注的数据, 也需要检查是否需要增加新的标签。 在图片都标注完成后,单击右上角“开始训练”,在“训练设置”中,在“增量训练版本”中选择之前已完成的训练版本,在此版
务,典型的就是训练过程中,需要访问OBS读取用户的训练数据。在这个过程中,就出现了ModelArts“代表”用户去访问其他云服务的情形。从安全角度出发,ModelArts代表用户访问任何云服务之前,均需要先获得用户的授权,而这个动作就是一个“委托”的过程。用户授权ModelArt
ion" ) func main() { // 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放,使用时解密,确保安全; // 本示例以ak和sk保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量
NPU其他错误。 检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 A050149 NPU 链路 hccn tool网口闪断检查。 NPU网络不稳定,存在闪断情况。通过“hccn_tool-i ${device_id} -link_stat -g”查看24小时内闪断5次以上。
隔离的、可以独享的网络资源。 否 str security_group_id 安全组,默认为空,当配置了vpc_id则此参数必填。安全组起着虚拟防火墙的作用,为服务实例提供安全的网络访问控制策略。安全组须包含至少一条入方向规则,对协议为TCP、源地址为0.0.0.0/0、端口为8080的请求放行。
新版训练中,用户配置输入输出数据,无需书写下载数据的代码,在代码中把arg.data_url和arg.train_url当做本地路径即可,详情参考开发自定义脚本。 #解析命令行参数 import argparse parser = argparse.ArgumentParser(description='MindSpore