检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果未安装则需要安装,安装方法参考装机指导。 如果已安装则进入下一检测项。 查看该软件是否已经加载至内核。 lsmod | grep peer 如果没有则需要重新加载至内核,执行如下命令进行加载: /etc/init.d/nv_peer_mem start 如果执行失败,可能是未加载nv_peer_mem
待授权的服务 适用场景 ModelArts 授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限,只有使用权限。推荐给子用户配置此权限。 如果需要给子用户开通专属资源池的创建、更新、删除权限,此处要勾选ModelArts
= 512 执行权重量化: python deepseek_moe_w8a8_int8.py 1、执行权重量化过程中,请保证使用的GPU卡上没有其他进程,否则可能出现OOM; 2、若量化Deepseek-v2-236b模型,大致需要10+小时。 使用量化模型 使用量化模型需要在NPU的机器上运行。
= 512 执行权重量化: python deepseek_moe_w8a8_int8.py 1、执行权重量化过程中,请保证使用的GPU卡上没有其他进程,否则可能出现OOM; 2、如果量化Deepseek-v2-236b模型,大致需要10+小时。 使用量化模型 使用量化模型需要在NPU的机器上运行。
= 512 执行权重量化: python deepseek_moe_w8a8_int8.py 1、执行权重量化过程中,请保证使用的GPU卡上没有其他进程,否则可能出现OOM; 2、若量化Deepseek-v2-236b模型,大致需要10+小时。 使用量化模型 使用量化模型需要在NPU的机器上运行。
测周期内,作业所有进程IO都没有变化,则进入资源利用率检测阶段。 资源利用率:在作业进程IO没有变化的情况下,采集一定时间段内的GPU利用率或NPU利用率,并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化,则判定作业卡死。 系统预
在遇到资源不足的情况时,ModelArts会进行三次重试,在服务重试期间,如果有资源释放出来,则服务可以正常部署成功。 如果三次重试后依然没有足够的资源,则本次服务部署失败。参考以下方式解决: 如果是在公共资源池部署服务,可等待其他用户释放资源后,再进行服务部署。 如果是在专属资
等动作。 本章节介绍如何使用VS Code插件创建训练作业并调试。 使用VS Code插件创建训练作业并调试功能目前是白名单,需要提交工单申请开通。 准备工作 创建OBS桶,桶名称示例:“xxx-project”,在OBS桶里创建“data”文件夹。(建议下载OBS Browser+进行相关操作)。
签查看资源池上创建的训练作业、部署的推理服务、创建的Notebook实例。 图1 删除资源池 释放游离节点 如果您的资源中存在游离节点(即没有被纳管到资源池中的节点),您可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。 针对游离节点,可以通过以下方式释放节点资源:
er-0","worker-1",依次类推。 表3 返回参数 参数 参数类型 描述 content String 日志内容。 如果日志大小没有超过上限(n兆),则返回全部内容; 如果日志超过了上限(n兆),则返回最新的n兆的日志。 current_size Integer 当前返
文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表2 基础容器镜像地址
kubectl是Kubernetes集群的命令行工具,配置kubectl后,您可通过kubectl命令操作Kubernetes集群。 3 配置Lite Cluster存储 如果没有挂载任何外部存储,此时可用存储空间根据dockerBaseSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存
IAM权限设置 是否必选 ModelArts 授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限,只有使用权限。推荐给子用户配置此权限。 ModelArts CommonOperations 必选
内置属性:图像尺寸(图像的宽度、高度、深度),类型为List<Integer>。列表中的第一个数字为宽度(像素),第二个数字为高度(像素),第三个数字为深度(深度可以没有,默认为3),如[100,200,3]和[100,200]均合法。 说明:只有当样本的标签列表包含物体检测标签时,此字段必选。 请求示例 分页查询团队标注任务下的样本列表
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.912代码包中AscendClo
包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.909中的AscendCloud-LLM-xxx
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.911中的AscendCloud-LLM-xxx
distributed.launch --nproc_per_node=1 --master_addr localhost --master_port=$MASTER_PORT main.py --data-path $IMAGE_DATA_PATH --cfg ./configs/swin/swi
一个账号最多可添加10个团队。一个团队最多支持添加100个成员,当超过100时,建议分为多个团队进行管理。 如果数据集需要启用团队标注功能,当前账号至少拥有一个团队。如果没有,请执行添加团队操作添加。 添加团队 在ModelArts管理控制台左侧导航栏中,选择“数据准备>标注团队”,进入“标注团队”管理页面。
获取路径:Support-E,在此路径中查找下载ModelArts 6.3.911 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.911中的AscendCloud-LLM-xxx