检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
URI POST /v2/{project_id}/training-jobs/{training_job_id}/tasks/{task_id}/save-image-job 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。
URI GET /v2/{project_id}/training-jobs/{training_job_id}/tasks/{task_id}/logs/preview 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。
如果是NPU上全新开发的网络,请参考PyTorch迁移精度调优排查溢出和精度问题。 理解GPU和NPU的构造以及运行的差别,有助于在迁移过程中分析问题并发挥NPU的优势。
在安装了kubectl工具的机器上执行如下命令,显示集群节点即为成功。 kubectl get node 父主题: Lite Cluster资源配置
原因分析 查看yum命令历史,发现执行了“yum update -y”,“yum update -y”命令是用于在Linux操作系统上更新软件包的命令。其中,选项-y表示在更新时自动确认所有提示信息,而不需要手动输入“y”确认。
如下图所示: 方法二:单击上侧菜单栏中的Run > Open configurations按钮 步骤二:选择语言 如果需要对Python语言进行设置,在弹出的Select a debug configuration中选择Python File,其他语言操作类似。
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数,用来确认对应卡数已经挂载 npu-smi info -t
需要注意训练引入随机性的目的是为了增加结果的鲁棒性,理论上不会对训练模型的收敛与否造成影响。 此处做随机性固定主要的目的是为了训练结果可完全复现,从而实现NPU和标杆的精度对齐。 父主题: 精度对齐
npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU
云上训练磁盘空间一般指如下两个目录的磁盘空间: “/”根目录,是docker中配置项“base size”,默认是10G,云上统一改为50G。 “/cache”目录满了,一般是3.5T存储空间满了,具体规格的空间大小可参见训练环境中不同规格资源“/cache”目录的大小。
ModelArts Standard Notebook云上云下,无缝协同 代码开发与调测。
URI GET /v2/{project_id}/training-jobs/{training_job_id}/tasks/{task_id}/save-image-job 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。
训练作业运行失败,返回错误码139,如下图所示: [Modelarts Service Log]Training end with reeturn code: 139 INFO:root:Using MoXing-v1.17.2-c806a92f INFO;root:Using OBS-Python-SDK
-obs, --obs-bucket TEXT OBS bucket for upload local file.
HostName: 云上开发环境的访问地址,即在开发环境实例页面远程访问模块获取的访问地址。例如:dev-modelarts-cnnorth4.huaweicloud.com Port: 云上开发环境的端口,即在开发环境实例页面远程访问模块获取的端口号。
原因分析 如果使用的是OBS导入或者训练导入,则是基础镜像、模型文件、代码、数据文件和下载安装软件包的大小总和超过了限制。 如果使用的是自定义镜像导入,则是解压后镜像和镜像下载文件的大小总和超过了限制。 处理方法 精简模型或镜像后,重新导入。 父主题: 模型管理
请求示例 GET https://endpoint/v2/{project_id}/training-jobs/{training_job_id}/events?
VS Code ToolKit连接Notebook 该方式是指用户在VS Code上使用ModelArts VS Code Toolkit插件提供的登录和连接按钮,连接云上实例。
图3 运行示例 复制数据到OBS 在Notebook的在JupyterLab的服务界面,将文件yolov8_train_ascend.zip,复制到已有的OBS桶中,示例代码如下。
创建ModelArts委托 功能介绍 创建包含OBS、SWR、IEF等依赖服务的ModelArts委托。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。