检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
镜像构建及调试与单机单卡相同。 上传镜像,参考单机单卡训练的上传镜像章节操作。 准备数据 登录coco数据集下载官网地址:https://cocodataset.org/#download 下载coco2017数据集的Train(18GB)、Val images(1GB)、Train/Val
受限,需要解决内网的问题。 其他问题现象的可能原因如下: 无OBS访问授权。 无OBS桶或文件的访问权限。 OBS桶被删除。 解决方案 检查委托授权 请前往权限管理,查看是否具有OBS访问授权。如果没有,请参考配置访问授权(全局配置)。 请确认是否有OBS桶的访问权限 进入OBS
NodePoolSpec object 更新节点池的请求体。 表4 NodePoolSpec 参数 是否必选 参数类型 描述 resources 是 PoolResource object 节点池中的资源信息列表,包括资源规格和相应规格的资源数量,自定义配置等。 表5 PoolResource
NPU 掉卡 NPU卡丢失。 节点规格的NPU卡数和k8sNode中可调度卡数不一致。 可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。 NT_NPU_OTHER NPU 其他 NPU其他错误。 检测到的其他NPU错误,通常为不可自纠正的异常,请联系技术人员支持。 发起维修流程。
Tensorflow多节点作业下载数据到/cache显示No space left 日志文件的大小达到限制 日志提示"write line error" 日志提示“No space left on device” OOM导致训练作业失败 常见的磁盘空间不足的问题和解决办法 父主题: 训练作业
upload后,数据将上传到哪里? 如何下载Notebook中的文件到本地? 如何将开发环境Notebook A的数据复制到Notebook B中? 在Notebook中上传文件失败,如何解决? 动态挂载OBS并行文件系统成功,但是在Notebook的JupyterLab中无法看到本地挂载点 父主题:
创建Notebook实例后无法打开页面,如何处理? 使用pip install时出现“没有空间”的错误 使用pip install提示Read timed out 出现“save error”错误,可以运行代码,但是无法保存 单击Notebook的打开按钮时报“请求超时”错误? 使用CodeLab时报错kernel
参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse objects 批量删除标注团队成员的结果。 success Boolean 操作是否执行成功。可选值如下:
重置AppSecret 获取用户绑定APP的api列表 注册API并授权给APP 删除API 授权API至APP 更新API授权 解除API对APP的授权 获取API授权关系列表 创建API 查询API 查询API和APP 查询APP的API认证信息 查询APP是否存在
String 服务器所属的超节点资源id。 表9 Endpoints 参数 参数类型 描述 allowed_access_ips Array of strings 允许通过SSH协议访问Notebook的公网IP地址白名单列表,默认都可以访问。当配置指定IP后,则仅允许IP所在的客户端实现对Notebook的访问。
参数类型 描述 create_time Long 标注团队的创建时间。 description String 标注团队的描述。 update_time Long 标注团队的更新时间。 worker_count Integer 标注团队的成员总数。 workforce_id String 标注团队ID。
令 ma-cli configure鉴权命令 ma-cli image镜像构建支持的命令 ma-cli ma-job训练作业支持的命令 ma-cli dli-job提交DLI Spark作业支持的命令 使用ma-cli obs-copy命令复制OBS数据 父主题: 使用Notebook进行AI开发调试
deleted_sample_count Integer 已删除的样本数目。 rejected_sample_count Integer owner验收不通过的样本数目。 sampled_sample_count Integer 待owner验收且被抽样的样本数目。 total_sample_count
of integers 资源规格支持的计费模式。可选值如下: 0:按需计费 1:包周期计费 billingCode String 资源规格编码。用来对应运营平台的上架的商品。 jobFlavors Array of strings 资源规格支持的作业类型列表。 表9 gpu 参数 参数类型
可以基于保存的镜像创建训练作业。 message String 镜像创建的时间,UTC毫秒。 create_time Long 镜像保存操作过程中,展示构建信息。 请求示例 如下以创建uuid为2cd88daa-31a4-40a8-a58f-d186b0e93e4f的训练作业对应worker-0镜像保存任务为例。
@modelarts:color String 内置属性:标签展示的颜色,为色彩的16进制代码,默认为空。例如:“#FFFFF0”。 @modelarts:default_shape String 内置属性:物体检测标签的默认形状(物体检测标签专用属性),默认为空。可选值如下: bndbox:矩形。
在创建并使用的工作空间,以实际取值为准。 search_type 否 String 过滤方式。可选值如下: equal表示精确匹配。 contain表示模糊匹配。 具体过滤的字段,由各个接口额外定义参数。例如Workflow支持按照名称(name)进行过滤,则相应的过滤字段为na
job_id 是 Long 训练作业的ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code
线。同时'default'为系统预留的默认工作空间名称,用户无法自己创建名为'default'的工作空间。 description String 工作空间描述,默认为空。长度限制为0-256字符。 id String 工作空间ID,系统生成的32位UUID,不带橫线。 status
job_id 是 String 可视化作业的ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2 响应参数 参数 类型 说明 is_success Boolean 请求是否成功。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。