检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
直接使用模型。 发布后,资产会处于“审核中”,审核中的资产仅资产所有者可见。 审核完成后,资产会变成“已发布”状态,并在模型列表可见。 父主题: 发布和管理AI Gallery模型
auto complation. [ OK ] eval (env _MA_CLI_COMPLETE=fish_source ma-cli) 父主题: ModelArts CLI命令参考
训练作业一般需要运行一段时间,根据您的训练业务逻辑和选择的资源不同,训练时长将持续几十分钟到几小时不等。训练作业执行成功后,日志信息如下所示。 父主题: 单机多卡
验证infiniband驱动是否安装成功。 在训练代码中执行以下命令,如果无报错则infiniband驱动安装成功: os.system("ofed_info") 父主题: FAQ
然后将remote.SSH.path属性添加到settings.json中,例如:"remote.SSH.path": "本地OpenSSH的安装路径" 父主题: VS Code连接开发环境失败常见问题
hardening_ssh_config Ascend镜像中存在hcc编译器,具体说明请参见昇腾社区提供的HCC编译器说明文档。 父主题: 一般性问题
"CREATING", "update_at" : 1699348285077 } 状态码 状态码 描述 200 OK 错误码 请参见错误码。 父主题: DevServer管理
ModelArts后台暂不支持下载开源安装包,建议用户在自定义镜像中安装训练所需的依赖包。 自定义镜像需上传至容器镜像服务(SWR)才能在ModelArts上用于训练。 父主题: 制作自定义镜像用于训练模型
查看无业务节点 滚动驱动升级时,驱动异常的节点对升级无影响,会和驱动正常的节点一起升级。 图2 驱动升级 选择完成后,单击“确定”开始驱动升级。 父主题: 管理Standard专属资源池
签策略,则需按照标签策略规则为资源添加标签。标签如果不符合标签策略的规则,则可能会导致资源创建失败,请联系组织管理员了解标签策略详情。 父主题: 管理Standard专属资源池
target-pipeline-parallel-size :任务不同调整参数target-pipeline-parallel-size。默认为1 父主题: Baichuan2-13B模型基于DevServer适配PyTorch NPU训练指导(6.3.904)
抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能,不需要此json文件,此时scale系数默认为1,但是可能会造成精度下降。 父主题: 推理模型量化
vscode-server-linux-arm64.tar.gz mv vscode-server-linux-arm64/* ${commitID} 重新远程连接。 父主题: VS Code连接开发环境失败故障处理
gpu.memoryTotal)) 注:用户在使用pytorch/tensorflow等深度学习框架时也可以使用框架自带的api进行查询。 父主题: 更多功能咨询
以在ModelArts创建自己独立的工作空间,但是无法使用跟企业项目相关的功能。 工作空间为白名单功能,使用该功能需要提工单申请开通。 父主题: 基于ModelArts Standard运行GPU训练任务
--nproc_per_node 2 examples/sd_inference_example.py --dynamo --parallel 父主题: AIGC模型训练推理
error_code String 调用失败时的错误码。调用成功时无此字段。 error_msg String 调用失败时的错误信息。调用成功时无此字段。 父主题: OBS管理
释放Lite Cluster资源:针对不再使用的Lite Cluster资源,您可以释放资源。 图1 Lite Cluster资源管理介绍 父主题: Lite Cluster资源管理
盘空间不足,请联系系统管理员,更换合适的规格。 如果是大模型导入的AI应用部署服务,请确保专属资源池磁盘空间大于1T(1000GB)。 父主题: 服务部署
oud/”目录下的所有信息,请参考清理临时文件步骤对文件进行清理,然后再制作镜像。CCE重新纳管服务器A时, 使用最新制作的镜像即可。 父主题: Lite Server