检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
致磁盘空间不足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,一般接近存储容量,请排查回收站占用内存。 cd /home/ma-user/work
*,查看该目录下的空间占用情况。 sh-4.3$cd /tmp sh-4.3$du -sh * 4.0K core-js-banners 0 npm-19-41ed4c62 6.7M v8-compile-cache-1000 请删除不用的大文件。 删除示例文件“test
由于ECC错误,导致作业运行失败。 处理方法 当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。 父主题: 业务代码问题
自定义镜像的python环境没有注册。 解决方案 在Terminal里执行命令排查实例存在几个Conda环境。 conda env list 执行如下命令分别切换到对应环境查看是否有ipykernel包。 conda activate base # base替换为实际使用的python环境
Token接口获取(响应消息头中X-Subject-Token的值)。 表3 请求Body参数 参数 是否必选 参数类型 描述 tags 是 Array of TmsTagForDelete objects 要删除的标签列表。 表4 TmsTagForDelete 参数 是否必选
动态卸载OBS 功能介绍 卸载后,OBS存储中的对象保持不变,Notebook容器中无法再操作OBS对象。 接口约束 暂无约束 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
描述 max_quota Integer 配额允许设置的最大值。 update_time Integer 最后修改时间,UTC。如用户未修改过该资源配额,则该值默认为该工作空间的创建时间。 resource String 资源的唯一标识。 quota Integer 当前配额值。配额值为-1代表不限制配额。
launch命令启动训练作业。 创建训练作业的关键参数如表2所示。 表2 创建训练作业(自定义镜像+torch.distributed.launch命令) 参数名称 说明 创建方式 选择“自定义算法”。 启动方式 选择“自定义”。 镜像 选择用于训练的PyTorch镜像。 代码目录 选择
Code下载方式: 下载地址: https://code.visualstudio.com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求: 建议用户使用VS Code 1.85.2版本进行远程连接。 VS Code安装指导如下: 图2 Windows系统下VS
在安装ma-cli时会默认同时安装所需的依赖包。当显示“Successfully installed”时,表示ma-cli安装完成。 如果在安装过程中报错提示缺少相应的依赖包,请根据报错提示执行如下命令进行依赖包安装。 pip install xxxx 其中,xxxx为依赖包的名称。 父主题: ModelArts
查询资源实时利用率 功能介绍 查询当前项目下所有资源池的实时利用率。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v2/{project_id}/metrics/runtime/pools
批量重启节点 功能介绍 批量重启指定资源池中的节点 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_id}/pools/{pool
工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表4 Apps 参数 是否必选 参数类型 描述 app_id 否 String APP的编号,可通过查询APP列表获取。 响应参数 状态码:200 表5 响应Header参数
strings 订阅的主题。 entity String 订阅的主体。 events Array of strings 订阅的事件。 请求示例 创建消息订阅。设置订阅的主题为“fengbin26”,订阅的主题为“238947895793875835893490”,订阅的事件为“[ "*:failed
用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 end_time 是 Long 监控信息的截止时间。 start_time 是 Long 监控信息的起始时间。 workforce_task_id 否 String 团队标注任务ID。 请求参数 无 响应参数 状态码:
ken的值)。 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 model_version String 模型版本。 source_job_version String 来源训练作业的版本。 source_location String 模型所在的OBS路径或SWR镜像的模板地址。
String 自定义镜像训练作业的自定义镜像的容器的启动命令。例如python train.py。 parameters Array of Parameter objects 训练作业的运行参数。 policies policies object 作业支持的策略。 inputs Array
ssh文件夹,选择“属性”。然后单击“安全”页签。 单击“高级”,在弹出的高级安全设置界面单击“禁用继承”, 在弹出的“阻止继承”窗口单击“从此对象中删除所有继承的权限”。此时所有用户都将被删除。 添加所有者:在同一窗口中,单击“添加”,在弹出的新窗口中,单击“主体”后面的“选择主体”,弹出“选择用
用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id 是 String 工作流的ID。 execution_id 是 String 工作流执行ID。 step_execution_id 是 String 工作流的一次执行中一个节点的执行ID。 请求参数 无 响应参数 状态码:200 表2 响应Body参数
订阅ID,唯一性标识。创建订阅时,后台自动生成。 topic_urns Array of strings 订阅的主题。 entity String 订阅的主体。 events Array of strings 订阅的事件。 请求示例 查询订阅信息 GET https://{endpoint}/v2/{p