检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
自动学习训练作业失败 自动学习训练作业创建失败,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请联系华为云技术支持。 自动学习训练作业创建成功,但是在运行过程中,由于一些故障导致作业运行失败,排查方式如下: 首次出现请检查您的账户是
修复Standard专属资源池故障节点 Standard专属资源池支持对故障节点进行修复操作,目前提供了替换节点、高可用冗余节点、重置节点和重启节点等方式。华为云技术支持在故障定位和性能诊断时,部分运维操作需要用户授权才可进行,本章节同时也介绍了如何进行授权操作。 故障节点处理方式
日志提示"No CUDA-capable device is detected" 问题现象 在程序运行过程中,出现如下类似错误。 1.‘failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected’
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象 在使用pytorch启动多进程的时候,出现如下报错: RuntimeError: Cannot re-initialize CUDA in
Lite Server高危操作一览表 ModelArts Lite Server在日常操作与维护过程中涉及的高危操作,需要严格按照操作指导进行,否则可能会影响业务的正常运行。 高危操作风险等级说明: 高:对于可能直接导致业务失败、数据丢失、系统不能维护、系统资源耗尽的高危操作。
推理部署使用场景 AI模型开发完成后,在ModelArts服务中可以将AI模型创建为模型,将模型快速部署为推理服务,您可以通过调用API的方式把AI推理能力集成到自己的IT平台,或者批量生成推理结果。 图1 推理简介 准备推理资源:根据实际情况选择部署服务所需要的资源类型。Mod
Notebook中构建新镜像 ModelArts中注册镜像 通过ECS获取和上传基础镜像将基础镜像上传后,可在SWR中查看已上传的镜像。但在ModelArts中还需要完成镜像注册后,才能在后续的Notebook中使用。镜像注册的操作步骤如下: 登录ModelArts管理控制台,在左侧导航栏单击“镜像管理”。
ModelArts入门实践 本章节列举了一些常用的实践案例,方便您快速了解并使用ModelArts完成AI开发。 表1 常用最佳实践 分类 实践案例 描述 适用人群 ModelArts Standard模型训练 基于ModelArts Standard上运行GPU训练任务 本案例介绍了如何使用ModelArts
如果使用DevServer资源,请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.2
so that it # does not perform destructive actions on their host or network. For more # information on how OpenAI sandboxes its code, see the
产品优势 ModelArts服务具有以下产品优势。 稳定安全的算力底座,极快至简的模型训练 支持万节点计算集群管理。 大规模分布式训练能力,加速大模型研发。 提供高性价比国产算力。 多年软硬件经验沉淀,AI场景极致优化。 加速套件,训练、推理、数据访问多维度加速。 一站式端到端生产工具链,一致性开发体验
基于MaaS DeepSeek API和Cherry Studio快速构建个人AI智能助手 本文介绍如何使用Cherry Studio调用部署在ModelArts Studio上的DeepSeek模型,构建个人AI助手。 背景介绍 Cherry Studio是一款开源的多模型桌面
按需计费 按需计费是一种先使用再付费的计费模式,适用于无需任何预付款或长期承诺的用户。本文将介绍按需计费资源的计费规则。 适用场景 按需计费适用于资源需求波动的场景,例如面向ToC业务的AIGC推理场景,客户业务量会随时间有规律的波动,按需计费模式能大幅降低客户的业务成本。可在运
日志提示“No space left on device” 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未
使用JupyterLab在线开发和调试代码 JupyterLab是一个交互式的开发环境,可以使用它编写Notebook、操作终端、编辑MarkDown文本、打开交互模式、查看csv文件及图片等功能。可以说,JupyterLab是开发者们下一阶段更主流的开发环境。 ModelArt
下载或读取文件报错,提示超时、无剩余空间 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下。 磁盘空间不足。 分布式作业时,有些节点的docker base size配置未生效,容器内“/”根目录空间未达到50GB,只有默认的10GB,导致作业训练失败。
OBS复制过程中提示“BrokenPipeError: Broken pipe” 问题现象 训练作业在使用MoXing复制数据时,日志中出现报错“BrokenPipeError: [Errno xx] Broken pipe”。 原因分析 出现该问题的可能原因如下: 在大规模分布
ModelArts Standard使用流程 本章节旨在帮助您了解ModelArts Standard的基本使用方法,帮助您快速上手ModelArts服务。 面向熟悉代码编写和调测,熟悉常见AI引擎的开发者,ModelArts不仅提供了在线代码开发环境,还提供了从数据准备、模型训
# jobstart_hccl.json is provided by the volcano controller of Cloud-Container-Engine(CCE) HCCL_JSON_FILE_NAME = 'jobstart_hccl.json'
续费概述 续费简介 包年/包月专属资源池到期后会影响ModelArts正常使用。如果您想继续使用,需要在指定的时间内为资源池续费,否则资源会自动释放,数据丢失且不可恢复。 续费操作仅适用于包年/包月专属资源池,按需计费专属资源池不需要续费,只需要保证账户余额充足即可。 专属资源池