检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
found”或“NCCL INFO Call to connect returned Connection refused, retrying”。 原因分析 NCCL是一个提供GPU间通信原语的库,实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时,可以通过调整NCCL的环境变量尝试解决问题。
训练作业在使用MoXing复制数据时,日志中出现报错“BrokenPipeError: [Errno xx] Broken pipe”。 原因分析 出现该问题的可能原因如下: 在大规模分布式作业上,每个节点都在复制同一个桶的文件,导致OBS桶限流。 OBS Client连接数过多,进程/线程之间的轮询,导致一个OBS
的名字、路径、后缀名都不满足训练算法的要求;图片也可能有部分损坏,造成无法解码、无法被算法处理的情况。因此,数据校验非常重要,可以帮助人工智能开发者提前发现数据问题,有效防止数据噪声造成的算法精度下降或者训练失败问题。 数据清洗:数据清洗是指对数据进行去噪、纠错或补全的过程。 数
文本生成 代码生成、数学推理、对话问答 中文、英文 通义千问1.5 文本生成 代码生成、数学推理、对话问答 英文 通义千问 文本生成 对话问答、智能创作、文本摘要、翻译、代码生成、数学推理 中文、英文 通义千问2 文本生成 多语言处理、数学推理、对话问答 英文 通义千问2.5 文本生成
%s does not have obs:object:PutObjectAcl permission.)。 图2 复制模型文件失败 原因分析 由于ModelArts的使用权限依赖OBS服务的授权,需要为用户授予OBS的系统权限。子用户的IAM权限是由其主用户设置的,如果主用户没
使能大模型业务。 约束限制 本方案目前仅适用于部分企业客户。 本文档适配昇腾云ModelArts 6.3.909版本,请参考软件配套版本获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 资源规格推荐使用“西南-贵阳一”Region上的Lite k8s Cluster和昇腾Snt9B资源。
rts提供了MA-Adivisor性能自动诊断工具。用户采集性能profiling数据后,可通过该工具自动扫描profiling数据,工具分析完数据后会给出可能的性能问题点及调优建议,用户可以根据调优建议做相应的修改适配。目前该工具对CV类模型给出的调优建议较多,LLM类建议稍少
URL:在线服务的URL为服务详情页,调用指南页签中获取的“API接口公网地址”截取域名之后的地址部分。 图1 获取URL 使用图形界面的软件、curl命令、Python语言等多种方式访问在线服务。可参考通过Token认证的方式访问在线服务。 父主题: 访问在线服务支持的访问通道
Snt9b单卡规格,配搭ARM处理器,适合深度学习场景下的模型训练和调测 ModelArts提供了面向推理迁移工作的预置镜像,其中包含了最新商用版驱动、昇腾软件开发库,迁移工具链等。预置镜像可以做到即开即用,用户也可以基于预置镜像构建自定义环境内容。 ModelArts支持的昇腾迁移预置镜像如下:
华为方技术支持。 约束限制 本方案目前仅适用于部分企业客户。 本文档适配昇腾云ModelArts 6.3.908版本,请参考软件配套版本获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 推理部署使用的服务框架是vLLM。vLLM支持v0.5.0版本。 仅支持FP16和BF16数据类型推理。
训练作业运行失败排查指导 问题现象 训练作业的“状态”出现“运行失败”的现象。 原因分析及处理方法 查看训练作业的“日志”,出现报错“MoxFileNotExistsException(resp, 'file or directory or bucket not found.')”。
S Code在重连环境,无弹窗报错。左下角显示如下图: 查看VS Code Remote-SSH日志发现,连接在大约2小时后断开了: 原因分析 用户SSH交互操作停止后一段时间,防火墙对空闲连接进行了断开操作,SSH默认配置中不存在超时主动断连的动作,但是防火墙会关闭超时空闲连接(参考:http://bluebiu
华为方技术支持。 约束限制 本方案目前仅适用于部分企业客户。 本文档适配昇腾云ModelArts 6.3.909版本,请参考软件配套版本获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。 仅支持FP16和BF16数据类型推理。
in: /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:374, internal error 原因分析 可能原因如下: 原因1:未设置环境变量NCCL_IB_TC、NCCL_IB_GID_INDEX、NCCL_IB_TIMEOUT,因此会导
Code连接远端Notebook时报错“XHR failed” 问题现象 VS Code连接远端Notebook时报错“XHR failed”。 原因分析 可能是所在环境的网络有问题,无法自动下载VS Code Server,请手动安装。 解决方法 打开VS Code,选择“Help>Abo
创建桶不收取费用,按实际使用的存储容量和时长收费 消息通知(不开启则不计费) 消息通知服务 订阅消息使用消息通知服务,在事件列表中选择需要监控的节点/Workflow状态,在事件发生时发送消息通知。 如果想使用消息通知,需要提前在自动学习、Workflow中开启消息通知功能。 具体计费可见消息通知服务价格详情。
启动该工作流。其中涉及手动确认的节点仍会在运行到时停止,不会自动执行。 服务配置 消息通知 订阅消息使用消息通知服务,在事件列表中选择需要监控的节点或者Workflow状态,在事件发生时发送消息通知。 说明: 打开开关后,需要先指定SMN主题名,如未创建主题名,需前往消息通知服务创建主题。
服务启动失败 问题现象 当服务事件中出现如下事件时,表示容器启动失败。 图1 服务启动失败 原因分析 服务启动失败的原因比较多样,可能有如下几种情况: AI应用本身问题,无法启动 镜像中配置的端口错误 健康检查配置有问题 模型推理代码customize_service.py编写有问题
ModelArts console的调用指南tab页签可以获取到推理请求的地址,但是不知道如何填写推理请求的header及body。 原因分析 在线服务部署完成且服务处于运行中状态后,可以通过调用指南页签的调用地址对模型发起预测请求,出于安全考虑,ModelArts会通过相关的认
的部署,需要先联系您所在企业的华为方技术支持。 约束限制 本文档适配昇腾云ModelArts 6.3.906版本,请参考表1获取配套版本的软件包,请严格遵照版本配套关系使用本文档。 本文档中的模型运行环境是ModelArts Lite Server。 镜像适配的Cann版本是cann_8