检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
04-x86_64 cuda_10.2 不同区域支持的AI引擎有差异,请以实际环境为准。 推理支持的AI引擎 在ModelArts创建AI应用时,若使用预置镜像“从模板中选择”或“从OBS中选择”导入模型,则支持如下常用引擎及版本的模型包。 标注“推荐”的Runtime来源于统一镜像,后续
排查/home/ma-user/.ssh目录权限是否为755/750,不是该权限请修改。 连接时如果报错密钥无权限,排查密钥是否为自己的密钥(可能使用了重名密钥),请更换密钥后重新连接实例。 本地排查 检查配置是否正确。 打开config文件进行检查:Host必须放在每组配置的第一行,作为每组配置的唯一ID。
_size调小,重新训练如未解决则执行下一步。 替换深度学习训练加速的工具或增加zero等级,可参考模型NPU卡数、梯度累积值取值表,如原使用Accelerator可替换为Deepspeed-ZeRO-1,Deepspeed-ZeRO-1替换为Deepspeed-ZeRO-2以此类推,重新训练如未解决则执行下一步。
allocatable_memory Integer 可使用的内存数。 cluster_id String 集群ID。 nodes ClusterNode object 集群节点配置。 allocatable_cpu_cores Float 可使用的CPU核数。 product_id String
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 若镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 若镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
objects 节点steps使用到的数据。 parameters Array of WorkflowParameter objects 节点steps使用到的参数。 policies WorkflowDagPolicies object 执行记录使用到的执行策略。 表3 StepExecution
空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 os.modelarts/name String 用户指定的pool名称。 os.modelarts/resource.id String 资源池的主资源id,通常提供给cbc使用。 os.modelarts/tenant
参数 参数类型 描述 data_path String 数据源所在路径。 data_type Integer 数据类型。可选值如下: 0:OBS桶(默认值) 1:GaussDB(DWS)服务 2:DLI服务 3:RDS服务 4:MRS服务 5:AI Gallery 6:推理服务 schema_maps
排查/home/ma-user/.ssh目录权限是否为755/750,不是该权限请修改。 连接时如果报错密钥无权限,排查密钥是否为自己的密钥(可能使用了重名密钥),请更换密钥后重新连接实例。 本地排查 检查配置是否正确。 打开config文件进行检查:Host必须放在每组配置的第一行,作为每组配置的唯一ID。
ET_IFNAME=eth0”表示仅使用eth0网卡通信。该环境变量由系统自动注入,由于通信网卡名称不固定,因此训练代码不应默认设置该环境变量。 环境变量NCCL_IB_TIMEOUT用于控制InfiniBand Verbs超时。NCCL使用的默认值为18,取值范围是1~22。 父主题:
本章节以“predictor”服务为例进行说明。 本章节的示例代码都是在ModelArts Notebook中实现的,如果在其它开发环境使用,需要进行Session鉴权,请参见Session鉴权。 父主题: 服务管理
process the new request 原因分析 该报错是因为发送预测请求后,服务出现停止后又启动的情况。 处理方法 需要您检查服务使用的镜像,确定服务停止的原因,修复问题。重新创建模型部署服务。 父主题: 服务部署
-> 'c:\python39\Scripts\ephemeral-port-reserve.exe.deleteme ”。 原因分析 用户使用权限问题导致。 处理方法 用户电脑切换到管理员角色,键盘快捷键(Windows+R模式)并输入cmd,进入黑色窗口,执行如下命令: python
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;
创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及上传的镜像。训练脚本中会自动执行训练前的权重转换操作和数据处理操作。 图1 选择镜像 如果镜像使用使用基础镜像中的基础镜像时,训练作业启动命令中输入: cd /home/ma-user/work/llm_train/AscendSpeed;