检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
待授权的服务 适用场景 ModelArts 授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限,只有使用权限。推荐给子用户配置此权限。 如果需要给子用户开通专属资源池的创建、更新、删除权限,此处要勾选ModelArts
= 512 执行权重量化: python deepseek_moe_w8a8_int8.py 1、执行权重量化过程中,请保证使用的GPU卡上没有其他进程,否则可能出现OOM; 2、若量化Deepseek-v2-236b模型,大致需要10+小时。 使用量化模型 使用量化模型需要在NPU的机器上运行。
row/entry/p/br {""}) (br]。列表中的第一个数字为宽度(像素),第二个数字为高度(像素),第三个数字为深度(深度可以没有,默认为3),如[100,200,3]和[100,200]均合法。 说明:只有当样本的标签列表包含物体检测标签时,此字段必选。 请求示例 查询团队标注的样本信息
测周期内,作业所有进程IO都没有变化,则进入资源利用率检测阶段。 资源利用率:在作业进程IO没有变化的情况下,采集一定时间段内的GPU利用率或NPU利用率,并根据这段时间内的GPU利用率或NPU利用率的方差和中位数来判断资源使用率是否有变化。如果没有变化,则判定作业卡死。 系统预
在遇到资源不足的情况时,ModelArts会进行三次重试,在服务重试期间,如果有资源释放出来,则服务可以正常部署成功。 如果三次重试后依然没有足够的资源,则本次服务部署失败。参考以下方式解决: 如果是在公共资源池部署服务,可等待其他用户释放资源后,再进行服务部署。 如果是在专属资
等动作。 本章节介绍如何使用VS Code插件创建训练作业并调试。 使用VS Code插件创建训练作业并调试功能目前是白名单,需要提交工单申请开通。 准备工作 创建OBS桶,桶名称示例:“xxx-project”,在OBS桶里创建“data”文件夹。(建议下载OBS Browser+进行相关操作)。
表格数据集,HDFS路径。例如/datasets/demo。 ip 否 String 用户GaussDB(DWS)集群的IP地址。 port 否 String 用户GaussDB(DWS)集群的端口。 queue_name 否 String 表格数据集,DLI队列名。 subnet_id 否 String
py”。仅支持shell脚本和python脚本。如果是SWR容器内的地址,则填写绝对路径;如果是AI Gallery仓库内的地址,则填写相对路径。 Infer_port 选填,推理服务提供的端口,缺省值为8080。只支持部署HTTP服务。 自定义镜像可以通过是否上传自定义推理参数文件“gallery_inference/inference_params
module_file.py 训练作业导入模块时日志出现“ImportError: No module named xxx”的报错,可以判断是环境中没有包含用户依赖的python包。 处理方法 训练作业导入模块时日志出现前两条报错信息,处理方法如下: 首先保证被导入的module中有“__init__
er-0","worker-1",依次类推。 表3 返回参数 参数 参数类型 描述 content String 日志内容。 如果日志大小没有超过上限(n兆),则返回全部内容; 如果日志超过了上限(n兆),则返回最新的n兆的日志。 current_size Integer 当前返
签查看资源池上创建的训练作业、部署的推理服务、创建的Notebook实例。 图1 删除资源池 释放游离节点 如果您的资源中存在游离节点(即没有被纳管到资源池中的节点),您可在“AI专属资源池 > 弹性集群Cluster >节点”下查看此类节点的相关信息。 针对游离节点,可以通过以下方式释放节点资源:
导致性能劣化。 小包分析:对应html中的'Packet Analysis'。当BatchSize较小或其他场景,并没有打慢NPU HBM,卡间通信数据包较小,没有充分利用通信带宽。 RDMA重传(跨节点通信):对应html中的“Communication Retransmission
kubectl是Kubernetes集群的命令行工具,配置kubectl后,您可通过kubectl命令操作Kubernetes集群。 3 配置Lite Cluster存储 如果没有挂载任何外部存储,此时可用存储空间根据dockerBaseSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存
IAM权限设置 是否必选 ModelArts 授予子用户使用ModelArts服务的权限。 ModelArts CommonOperations没有任何专属资源池的创建、更新、删除权限,只有使用权限。推荐给子用户配置此权限。 ModelArts CommonOperations 必选
内置属性:图像尺寸(图像的宽度、高度、深度),类型为List<Integer>。列表中的第一个数字为宽度(像素),第二个数字为高度(像素),第三个数字为深度(深度可以没有,默认为3),如[100,200,3]和[100,200]均合法。 说明:只有当样本的标签列表包含物体检测标签时,此字段必选。 请求示例 分页查询团队标注任务下的样本列表
勾选批量服务列表中的服务,然后单击列表左上角“删除”按钮,批量删除服务。 单击目标服务名称,进入服务详情页面,单击右上角“删除”按钮进行删除。 删除操作无法恢复,请谨慎操作。 没有委托授权时,无法删除服务。 重启服务 批量服务不支持重启。 父主题: 管理批量推理作业
包含了本教程中使用到的vLLM 0.3.2推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。 AscendCloud-OPP-6.3.905-xxx.zip 推理依赖的算子包。 模型软件包结构说明
包含了本教程中使用到的推理部署代码和推理评测代码、推理依赖的算子包。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 本教程需要使用到的AscendCloud-6.3.906中的AscendCloud-LLM-xxx
文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表2 基础容器镜像地址
文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 镜像版本 本教程中用到基础镜像地址和配套版本关系如下表所示,请提前了解。 表2 基础容器镜像地址