检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
rt_rcv_data) res=$(($y-$x)) echo $res 上述获取的值*4/300 ,即为当前网卡的接收速率,单位Byte/s。 方法2:使用ib_write_bw测试RDMA的读写处理确定带宽 服务器A:服务端从mlx4_0网卡接收数据 ib_write_bw
方法。 专属池驱动版本如何升级? 当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力,具体操作请参见资源池驱动升级。 父主题: FAQ
TmsTagForDelete objects 要删除的标签列表。 表3 TmsTagForDelete 参数 是否必选 参数类型 描述 key 是 String TMS标签的key。 value 否 String TMS标签的value,非必填。 响应参数 状态码: 204 表4
创建训练作业 创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 训练环境中不同规格资源“/cache”目录的大小 训练作业的“/cache”目录是否安全? 训练作业一直在等待中(排队)? 创建训练作业时,超参目录为什么有的是/work有的是/ma-user? 在Mod
第三方推理框架迁移到ModelArts Standard推理自定义引擎 ModelArts Standard推理服务支持VPC直连的高速访问通道配置 ModelArts Standard的WebSocket在线服务全流程开发 从0-1制作自定义镜像并创建AI应用 使用AppCode认证鉴权方式进行在线预测
请求是否成功。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 请求示例 如下以删除作业ID为10的可视化作业为例。 DELETE https://en
分布式模型训练 分布式训练功能介绍 创建单机多卡的分布式训练(DataParallel) 创建多机多卡的分布式训练(DistributedDataParallel) 示例:创建DDP分布式训练(PyTorch+GPU) 示例:创建DDP分布式训练(PyTorch+NPU) 父主题:
存储路径设为本地路径,如cache/tensorboard,不要使用OBS路径。 问题现象4 使用pytorch中的dataloader读数据时,作业卡在读数据过程中,日志停在训练的过程中并不再更新日志。 解决方案4 用dataloader读数据时,适当减小num_worker。 父主题:
如下则网络异常,请切换代理或使用其他网络。 操作完成后再次执行搜索,若显示如下则网络正常,请回到ModelArts控制台界面再次单击界面上的“VS Code接入”按钮。 方法二:出现如下图报错,是由于VS Code版本过低,建议升级VS Code版本为1.57.1或者最新版。 原因分析二
Array of DataVolumesRes objects 数据。 pages Integer 总的页数。 size Integer 每一页的数量。 total Long 总的记录数量。 表3 DataVolumesRes 参数 参数类型 描述 category String 存储类型。可选值为OBS。
Code插件后,再执行2。 图2 远端已上传 关闭VS Code所有窗口,回到ModelArts控制台Notebook实例界面,再次单击实例“操作”列的上的“更多>VS Code接入”按钮。 父主题: VS Code连接开发环境失败常见问题
描述 auto_sync_dataset 否 Boolean 团队标注任务的标注结果是否自动同步至数据集。可选值如下: true:团队标注任务的标注结果自动同步至数据集(默认值) false:团队标注任务的标注结果不自动同步至数据集 data_sync_type 否 Integer
WorkflowSchedulePolicies 参数 是否必选 参数类型 描述 on_failure 否 String 定时调度策略中的标记,失败时触发。 on_running 否 String 定时调度策略中的标记,running时触发。 响应参数 状态码: 201 表4 响应Body参数 参数 参数类型 描述
of TmsTag objects TMS的标签结构体。 表3 TmsTag 参数 参数类型 描述 key String TMS标签的key。长度不能超过128个字符,首尾不能有空格,不能以_sys_开头。 value String TMS标签的value。长度不能超过255个字符。
Ctrl+Shift+P,macOS:Cmd+Shift+P),搜索“Kill VS Code Server on Host”,选择出问题的实例进行自动清除,然后重新进行连接。 图1 清除异常的实例 父主题: VS Code连接开发环境失败常见问题
标注任务管理 创建标注任务 查询数据集的标注任务列表 查询标注任务详情 父主题: 数据管理
训练? 自动学习项目中,如何进行增量训练? 自动学习训练后的模型是否可以下载? 自动学习为什么训练失败? 自动学习模型训练图片异常? 自动学习使用子账号单击开始训练出现错误Modelarts.0010 自动学习中偏好设置的各参数训练速度大概是多少 自动学习声音分类预测报错ERROR:input
Ascend相关问题 Cann软件与Ascend驱动版本不匹配 训练作业的日志出现detect failed(昇腾预检失败) 父主题: 训练作业
-Token的值)。 表3 请求Body参数 参数 是否必选 参数类型 描述 workspace_id 否 String 工作空间id。 support_app_code 否 Boolean 是否支持APP CODE。 auth_type 否 String API的认证方式。 枚举值如下:
Standard资源监控概述 在ModelArts控制台查看监控指标 在AOM控制台查看ModelArts所有监控指标 使用Grafana查看AOM中的监控指标