检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
前支持“按节点比例”和“按实例数量”两种滚动方式。 按节点比例:每批次驱动升级的实例数量为“节点比例*资源池实例总数”。 按实例数量:可以设置每批次驱动升级的实例数量。 对于不同的升级方式,滚动升级选择实例的策略会不同: 如果升级方式为安全升级,则根据滚动节点数量选择无业务的节点,隔离节点并滚动升级。
通过指定模型输出进行可对比的误差分析(精度)。 模型自动调优工具 AOE(Ascend Optimization Engine)是一个昇腾设备上模型运行自动调优工具,作用是充分利用有限的硬件资源,以满足算子和整网的性能要求。在推理场景下使用,可以对于模型的图和算子运行内置的知识库进行自动优化,以提升模型的运行效率。
ain.py”。 超参 当资源规格为单机多卡时,需要指定超参world_size和rank。 当资源规格为多机时(即实例数大于 1),无需设置超参world_size和rank,超参会由平台自动注入。 方式二:使用自定义镜像功能,通过torch.distributed.launch命令启动训练作业。
规格与节点数中的1*节点 & 4*Ascend表示单机4卡,以此类推。 表1 不同模型推荐的参数与NPU卡数设置 序号 支持模型 支持模型参数量 文本序列长度 并行参数设置 规格与节点数 1 llama2 llama2-7b SEQ_LEN=4096 TP(tensor model
String 执行的时长。 events Array of strings 执行的事件。 labels Array of strings 为执行记录设置的标签。 data_requirements Array of DataRequirement objects 节点steps使用到的数据。
参数 参数类型 说明 id String SFS Turbo 文件系统 ID。 src_path String SFS Turbo 文件系统地址。 dest_path String 训练作业的本地路径。 read_only Boolean dest_path 是否为只读权限,默认为读写权限。
model_args:标志向模型构造函数提供额外参数,比如指定运行模型的数据类型; vllm_path是模型权重路径; max_model_len 是最大模型长度,默认设置为4096; gpu_memory_utilization是gpu利用率,如果模型出现oom报错,调小参数; tensor_parallel_size是使用的卡数;
model_args:标志向模型构造函数提供额外参数,比如指定运行模型的数据类型; vllm_path是模型权重路径; max_model_len 是最大模型长度,默认设置为4096; gpu_memory_utilization是gpu利用率,如果模型出现oom报错,调小参数; tensor_parallel_size是使用的卡数;
model_args:标志向模型构造函数提供额外参数,比如指定运行模型的数据类型; vllm_path是模型权重路径; max_model_len 是最大模型长度,默认设置为4096; gpu_memory_utilization是gpu利用率,如果模型出现oom报错,调小参数; tensor_parallel_size是使用的卡数;
model_args:标志向模型构造函数提供额外参数,比如指定运行模型的数据类型; vllm_path是模型权重路径; max_model_len 是最大模型长度,默认设置为4096; gpu_memory_utilization是gpu利用率,如果模型出现oom报错,调小参数; tensor_parallel_size是使用的卡数;
String 执行的时长。 events Array of strings 执行的事件。 labels Array of strings 为执行记录设置的标签。 data_requirements Array of DataRequirement objects 节点steps使用到的数据。
WorkflowStorage objects Workflow包含的统一存储定义。 labels Array of strings 为Workflow工作流设置的标签。 assets Array of WorkflowAsset objects 工作流绑定的资产。 sub_graphs Array
input String 表格数据集,HDFS路径。例如/datasets/demo。 ip String 用户GaussDB(DWS)集群的IP地址。 port String 用户GaussDB(DWS)集群的端口。 queue_name String 表格数据集,DLI队列名。 subnet_id
变化,修改用于标注的标签。支持添加、修改和删除标签。 添加标签 在“未标注”页签下,单击“标签集”右侧的加号,在弹出“新增标签”对话框中,设置“标签名称”和“标签颜色”,然后单击“确定”完成标签添加。 修改标签 在“已标注”页签中“全部标签”的下方操作列,选择需要修改的标签,单击
文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ##安装obsutil,完成AKSK配置。建议在基础镜像里做好。
文件或者环境变量中密文存放,使用时解密,确保安全。 ##本示例以AK和SK保存在环境变量中来实现身份验证为例,运行本示例前请先在本地环境中设置环境变量HUAWEICLOUD_SDK_AK和HUAWEICLOUD_SDK_SK。 ##安装obsutil,完成AKSK配置。建议在基础镜像里做好。
样本用处。可选值如下: TRAIN:训练 EVAL:验证 TEST:测试 INFERENCE:推理 source String 样本数据源地址,通过调用样本列表接口获取。 worker_id String 团队标注的成员ID。 表16 SampleLabel 参数 参数类型 描述
问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数: vim
问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数: vim
在创建训练作业页面配置环境变量“ROUTE_PLAN”,取值为“true”,具体操作请参见管理训练容器环境变量。 代码示例 训练作业的启动脚本示例如下。 启动脚本中设置plog生成后存放在“/home/ma-user/modelarts/log/modelarts-job-{id}/worker-{ind