检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ipv4.ip_forward Step3 创建镜像组织 在SWR服务页面创建镜像组织。 图2 创建镜像组织 Step4 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复制临时登录指令。在创建的ECS中粘贴临时登录指令,即可完成登录。 图3
info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器
节点池中更新的“资源标签”信息会同步到节点上。 图2 更新节点池 删除节点池 当有多个节点池时,支持删除节点池,此时在操作列会显示“删除”按钮,单击“删除”后输入“DELETE”并单击“确定”即可。 每个资源池至少需要有一个节点池,当只有一个节点池时不支持删除。 查看节点池的存储配置 在节点池管理的更新页
1 # 设置plog日志是否在屏幕上显示,1表示默认设置在屏幕上显示日志。 ASCEND_GLOBAL_EVENT_ENABLE=1 # 设置事件级别 不开启Event日志级别为0;开启Event日志级别为1。 ma-pre-start脚本在与训练启动文件同级的目录下放置,命名为ma-pre-start
点内预留的冗余节点数量。 方式二:在资源池详情页的规格页签设置 图2 规格页签设置 图3 设置高可用冗余能力 方式三:在扩缩容页面设置 图4 设置高可用冗余能力 设置单节点为高可用冗余节点 开启高可用冗余 挑选无业务节点作为高可用冗余节点使用,在资源池详情页,“节点”页签下,在想
当前ModelArts Standard训练作业模块在训练作业详情页的“资源占用情况”页签中提供了训练作业占用的CPU、GPU或NPU资源使用情况,具体参见支持在ModelArts控制台上直接查看的监控指标。 除了在ModelArts控制台训练作业详情页可以查看训练作业的指标外,更多指标可以登录到A
-qwenvl-7b/models/Qwen-VL-Chat/。 在“输出”的输入框内设置变量:OUTPUT。 OUTPUT:训练完成后指定的输出模型的路径/standard-qwenvl-7b/output/。在OBS桶中新建一个output目录,用于训练的输出路径。 分别单击
-qwenvl-7b/models/Qwen-VL-Chat/。 在“输出”的输入框内设置变量:OUTPUT。 OUTPUT:训练完成后指定的输出模型的路径/standard-qwenvl-7b/output/。在OBS桶中新建一个output目录,用于训练的输出路径。 分别单击
训练作业的自定义镜像制作流程 如果您已经在本地完成模型开发或训练脚本的开发,且您使用的AI引擎是ModelArts不支持的框架。您可以制作自定义镜像,并上传至SWR服务。您可以在ModelArts使用此自定义镜像创建训练作业,使用ModelArts提供的资源训练模型。 制作流程 图1
ppl困惑度评测一般用于base权重测评,会将n个选项上拼接上下文,形成n个序列,再计算这n个序列的困惑度(perplexity)。其中,perplexity最小的序列所对应的选项即为这道题的推理结果。运行时间比较长,例如llama3_8b 跑完mmlu要2~3小时。 在npu卡上,使用多卡进行推理时,需要预置变量
中,也可以通过“用户组管理”功能增加用户。 在用户的委托授权中同步增加此策略,避免在租户面通过委托token突破限制。 在统一身份认证服务页面的左侧导航中选择委托,找到该用户组在ModelArts上使用的委托名称,单击右侧的“修改”操作,选择“授权记录”页签,单击“授权”,选中上
通过SDK创建工作流时,预先定义好部分运行场景,具体可参考在Workflow中指定仅运行部分节点。 在配置工作流时,打开“部分运行”开关,选择需要执行的部分运行场景,并填写完善相关节点的参数。 图1 部分运行 保存上一步的配置后,单击“启动”按钮即可启动部分运行场景。 父主题:
存在多种角色(如管理员、算法开发者、应用运维),希望限制不同角色只能使用特定功能 逻辑上存在多套“环境”且相互隔离(如开发环境、预生产环境、生产环境),并限定不同用户在不同环境上的操作权限 其他任何需要对特定子账号(组)做出特定权限限制的情况 您是个人用户,但已经在IAM创建多个子账号,且期望限定不同子账号所能使用的ModelArts功能、资源不同。
info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器
存在多种角色(如管理员、算法开发者、应用运维),希望限制不同角色只能使用特定功能 逻辑上存在多套“环境”且相互隔离(如开发环境、预生产环境、生产环境),并限定不同用户在不同环境上的操作权限 其他任何需要对特定子用户(组)做出特定权限限制的情况 您是个人用户,但已经在IAM创建多个子用户,且期望限定不同子用户所能使用的ModelArts功能、资源不同
info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器
info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器
储中加载,在训练集群规模较大,存储带宽较低的场景下,加载耗时可能会达到小时级,严重影响训练恢复。因此,通过AITurbo SDK的快速保存和加载Checkpoint的功能,可以有效提升训练恢复速度。具体方案请参见通过AITurbo加速保存与加载checkpoint。 在保存Che
推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。
推荐使用“西南-贵阳一”Region上的昇腾资源。 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)进行数据存储以及模型的备份和快照,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。