检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用ModelArts时提示“权限不足”,如何解决? 当您使用ModelArts时如果提示权限不足,请您按照如下指导对相关服务和用户进行授权,并对用户权限进行检查操作。 本案例中以OBS权限不足为例,介绍如何为用户授予OBS服务权限。其它权限不足的场景也可以参考本案例操作,只是授
创建训练任务 针对专属池场景,应注意挂载的目录设置和调试时一致。 登录ModelArts管理控制台,检查当前账号是否已完成访问授权的配置。如果未完成,请参考使用委托授权。针对之前使用访问密钥授权的用户,建议清空授权,然后使用委托进行授权。 在左侧导航栏中选择“模型训练 > 训练作
下载代码目录失败 问题现象 训练作业运行时下载失败,出现如下报错,请参见图1: ERROR:modelarts-downloader.py: Get object key failed: 'Contents' 图1 获取内容失败 原因分析 在创建训练作业时指定的代码目录不存在导致训练失败。
服务状态一直处于“部署中” 问题现象 服务状态一直处于“部署中”,查看模型日志未发现服务有明显错误。 原因分析 一般情况都是模型的端口配置有问题。建议您首先检查创建模型的端口是否正确。 处理方法 模型的端口没有配置,如您在自定义镜像配置文件中修改了端口号,需要在部署模型时,配置对应的端口号,使新的模型重新部署服务。
长或者多轮对话场景下推荐使用prefix-caching特性。在推理服务启动脚本中添加此参数表示使用,不添加表示不使用。 --quantization:推理量化参数。当使用量化功能,则在推理服务启动脚本中增加该参数,如果未使用量化功能,则无需配置。根据使用的量化方式配置,可选择awq或smoothquant方式。
Issues 下图展示了低优先级的动态shape问题,在NPU上动态shape可能导致频繁的算子编译从而影响训练性能,可以按照html中的提示在训练脚本开头加上如下红框中的两行代码(分布式训练请确保分布式训练的每个进程都可以使能这两行代码)。 图13 动态shape分析 schedule 下发维度通常包含如下几类问题
-6.3.908-xxx.zip和算子包AscendCloud-OPP-6.3.908-xxx.zip,并执行build_image.sh脚本制作推理镜像。安装过程需要连接互联网git clone,请确保机器环境可以访问公网。 unzip AscendCloud-*.zip -d
-6.3.909-xxx.zip和算子包AscendCloud-OPP-6.3.909-xxx.zip,并执行build_image.sh脚本制作推理镜像。安装过程需要连接互联网git clone,请确保机器环境可以访问公网。 unzip AscendCloud-*.zip -d
长或者多轮对话场景下推荐使用prefix-caching特性。在推理服务启动脚本中添加此参数表示使用,不添加表示不使用。 --quantization:推理量化参数。当使用量化功能,则在推理服务启动脚本中增加该参数,如果未使用量化功能,则无需配置。根据使用的量化方式配置,可选择awq或smoothquant方式。
自动学习训练作业失败 自动学习训练作业创建失败,一般是因为后台服务故障导致的,建议稍等片刻,然后重新创建训练作业。如果重试超过3次仍无法解决,请联系华为云技术支持。 自动学习训练作业创建成功,但是在运行过程中,由于一些故障导致作业运行失败,排查方式如下: 首次出现请检查您的账户是
from source address 0.0.0.0/0 and port 8080. 安全组须包含至少一条入方向规则,对协议为TCP、源地址为0.0.0.0/0、端口为8080的请求放行。 在安全组中添加一条入方向规则:对协议为TCP、源地址为0.0.0.0/0、端口为8080的请求放行。
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表14 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下:
tent字段输出思考内容,然后在content中输出回答内容。 content Str 模型的回答内容。 当调用失败时,可以根据错误码调整脚本或运行环境。 表3 常见错误码 错误码 错误内容 说明 400 Bad Request 请求包含语法错误。 403 Forbidden 服务器拒绝执行。
创建服务器是否启用IPV6。 roce_id 否 String 服务器RoCE网络ID。 security_group_id 是 String 服务器所在的安全组ID。 subnet_id 是 String 服务器所在子网ID。 vpc_id 是 String 服务器所在虚拟私有云ID。 表5 EvsVolume
--train-instance-type String 否 训练作业选择的资源规格。 --output String 否 训练的输出信息,指定后,训练作业将会把训练脚本中指定输出参数对应训练容器的输出目录上传到指定的OBS路径。如果需要指定多个参数,可以使用--output output1=obs://bucket/output1
ascendfactory-cli方式启动(推荐) 相对于之前demo.sh方式启动(历史版本)的启动方式,本章节新增了通过benchmark工具启动训练的方式。此方式训练完成后json日志或打屏日志直接打印性能结果,免于计算,方便用户验证发布模型的质量。并且新的训练方式将统一管
ascendfactory-cli方式启动(推荐) 相对于之前demo.sh方式启动(历史版本)的启动方式,本章节新增了通过benchmark工具启动训练的方式。此方式训练完成后json日志或打屏日志直接打印性能结果,免于计算,方便用户验证发布模型的质量。并且新的训练方式将统一管
updateStrategy String 驱动升级策略。可选值如下: force:强制升级,立即升级节点驱动,可能影响节点上正在运行的作业 idle:安全升级,待节点上没有作业运行时进行驱动升级 表14 PoolStatus 参数 参数类型 描述 phase String 资源池集群状态。可选值如下:
MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String 导入表格数据集,数据库名字。
解压AscendCloud-3rdLLM-6.3.905-xxx.zip代码包。 unzip AscendCloud-3rdLLM-6.3.905-*.zip 运行推理构建脚本build.sh文件,自动获取ascend_vllm_adapter文件夹中提供的vLLM相关算子代码。 cd llm_inference