检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
PretrainedFromHF 。 SEQ_LEN 4096 要处理的最大seq length。脚本会检测超出SEQ_LEN长度的数据,并打印log。 父主题: 训练脚本说明参考
--framework-version String 否 训练作业选择的引擎版本。 -q / --quiet Bool 否 提交训练作业成功后直接退出,不再同步打印作业状态。 --workspace-id String 否 作业所处的工作空间,默认值为“0”。 --policy String 否 训练
准备工作 注册华为账号并开通华为云、实名认证 注册华为账号并开通华为云 进行实名认证 配置委托访问授权 ModelArts使用过程中涉及到OBS、SWR、IEF等服务交互,首次使用ModelArts需要用户配置委托授权,允许访问这些依赖服务。 使用华为云账号登录ModelArts管理
SpaceManger来管理KVCache索引,如果不使用该功能,则无需配置。注意:如果使用投机推理功能,必须开启此参数。 服务启动后,会打印如下类似信息。 server launch time cost: 15.443044185638428 s INFO: Started
则无需配置。注意:如果使用投机推理功能,必须开启此参数。 --served-model-name:vllm服务后台id。 服务启动后,会打印如下类似信息。 server launch time cost: 15.443044185638428 s INFO: Started
上传镜像完成后,返回容器镜像服务控制台,在“我的镜像”页面,执行刷新操作后可查看到对应的镜像信息。 上传数据至OBS 已经在OBS上创建好普通OBS桶,请参见创建普通OBS桶。 已经安装obsutil,请参考安装和配置OBS命令行工具。 OBS和训练容器间的数据传输原理可以参考基于ModelArts
${container_draft_model_path}同时使用。 --served-model-name:vllm服务后台id。 服务启动后,会打印如下类似信息。 server launch time cost: 15.443044185638428 s INFO: Started
“1/1 running”状态代表启动成功。 kubectl get pod -A 图1 启动pod成功 执行如下命令查看pod日志,如果打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明: ${pod_name}:pod名,例如
“1/1 running”状态代表启动成功。 kubectl get pod -A 图1 启动pod成功 执行如下命令查看pod日志,如果打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明: ${pod_name}:pod名,例如
“授权对象类型”:根据需要选择"IAM子用户"、"联邦用户"、"委托用户"、"所有用户" “授权对象”:选择授权对象 “委托选择”:新增委托 “权限配置”:普通模式,选中弹性文件服务(SFSTurbo)下的"sfsturbo:shares:addShareNic"、"sfsturbo:shares
String 磁盘类型,具体内容可参考磁盘类型及性能介绍。可选值如下: SSD:超高IO硬盘 GPSSD:通用型SSD SAS:高IO硬盘 SATA:普通硬盘 size String 磁盘大小,单位为Gi。 表12 ResourceFlavorStatus 参数 参数类型 描述 phase Map<String
采用自定义引擎,开启动态加载并配置健康检查示例图 部署在线服务 部署服务时,需满足以下参数配置: 自定义部署超时时间 大模型加载启动的时间一般大于普通的模型创建的服务,请配置合理的“部署超时时间”,避免尚未启动完成被认为超时而导致部署失败。 添加环境变量 部署服务时,增加如下环境变量,会
由于AI机型规格相对较大,资源池所需的ECS实例数、内存大小、CPU核数和EVS硬盘大小很可能会超出华为云默认提供的资源配额,因此需要申请扩大配额。请先联系客户经理确认资源配额提升具体方案,再参考本章节申请扩大配额。 登录华为云管理控制台。 在顶部导航栏单击“资源 > 我的配额”,进入服务配额页面。 图6
使用自定义引擎创建模型,用户的SWR镜像、OBS模型包和文件大小需要满足以下规范: SWR镜像规范: 镜像必须内置一个用户名为“ma-user”,组名为“ma-group”的普通用户,且必须确保该用户的uid=1000、gid=100。内置用户的dockerfile指令如下: groupadd -g 100 ma-group
cluster_id String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String
orch Issues中查看是否有类似的问题找到相关线索。如果还无法解决,可以通过提交工单的形式从华为云ModelArts入口进行咨询以及求助对应的专业服务。 自动迁移似乎还要改很多脚本才能运行起来? 因为自动迁移其实是对于torch运行环境中常用的GPU上的接口进行和昇腾设备的
cluster_id String MRS集群ID。可登录MRS控制台查看。 cluster_mode String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name String MRS集群名称。可登录MRS控制台查看。 database_name String
使用自定义引擎创建模型,用户的SWR镜像、OBS模型包和文件大小需要满足以下规范: SWR镜像规范: 镜像必须内置一个用户名为“ma-user”,组名为“ma-group”的普通用户,且必须确保该用户的uid=1000、gid=100。内置用户的dockerfile指令如下: groupadd -g 100 ma-group
attention算子耗时最长且降频比率最高,因此降频严重影响了整体的训练性能。对于降频问题,用户通常无法自行解决,需要联系服务方如华为云技术支持排查机器的温度和功耗。 图11 降频分析 AICPU Issues 下图展示了高优先级的AICPU问题,AICPU算子单步计算耗时3
String MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String