检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
作业日志选择OBS中的路径,训练作业的日志信息则保存该路径下。 最后,提交训练作业,训练完成后,请参考查看日志和性能章节查看SFT微调的日志和性能。了解更多ModelArts训练功能,可查看模型开发简介。 父主题: 执行训练任务
trusted-host = repo.huaweicloud.com timeout = 120 在华为开源镜像站中,搜索pypi,可以查看pip.conf文件内容。 准备可用的apt源文件Ubuntu-Ports-bionic.list。本示例使用华为开源镜像站提供的apt源,执行如下命令获取apt源文件。
自定义镜像使用场景 在AI业务开发以及运行的过程中,一般都会有复杂的环境依赖需要进行调测并固化。面对开发中的开发环境的脆弱和多轨切换问题,在ModelArts的AI开发最佳实践中,通过容器镜像的方式将运行环境进行固化,以这种方式不仅能够进行依赖管理,而且可以方便的完成工作环境切换
String MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name 否 String
=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡,若希望使用第一和第二张卡,则“export ASCEND_RT_VISIBLE_DEVICES=0,1”,注意编号不是填4、5。 图1 查询结果 配置环境变量。 export USE_
=0,1 通过命令npu-smi info查询NPU卡为容器中的第几张卡。例如下图查询出两张卡,如果希望使用第一和第二张卡,则“export ASCEND_RT_VISIBLE_DEVICES=0,1”,注意编号不是填4、5。 图2 查询结果 配置环境变量。 export USE
rts服务声明》”,然后单击“创建”。 图1 配置委托访问授权 完成配置后,在ModelArts控制台的权限管理列表,可查看到此账号的委托配置信息。 图2 查看委托配置信息 Step1 准备训练数据 本案例使用的数据是MNIST数据集,您可以在浏览器中搜索“MNIST数据集”下载如图3所示的4个文件。
一个OBS目录,SDK会将notebook目录code_dir打包上传到obs_path中。 准备训练输出,与单机训练作业调试4相同。 查看训练支持的AI框架,与单机训练作业调试5相同。 保存当前Notebook为新镜像,与单机训练作业调试9相同。 Estimator初始化。 from
docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
rts服务声明》”,然后单击“创建”。 图1 配置委托访问授权 完成配置后,在ModelArts控制台的权限管理列表,可查看到此账号的委托配置信息。 图2 查看委托配置信息 Step1 准备训练数据 本案例使用的数据是MNIST数据集,您可以在浏览器中搜索“MNIST数据集”下载如图3所示的4个文件。
软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
/cache/apex-master') 安装报错 “xxx.whl”文件无法安装,需要您按照如下步骤排查: 当出现“xxx.whl”文件无法安装,在启动文件中添加如下代码,查看当前pip命令支持的文件名和版本。 import pip print(pip.pep425tags.get_supported()) 获取到支持的文件名和版本如下:
单击右上角的“购买终端节点”,进入购买页面。 区域:终端节点所在区域。 不同区域的资源之间内网不互通,请确保与ModelArts所在区域保持一致。 服务类别:请选择“按名称查找服务”。 服务名称:填入步骤1中获取的“终端节点服务地址”。单击右侧验证按钮,系统将为您自动填入虚拟私有云、子网和节点IP。 创建内网域名:保持默认值。
选择完成后勾选“我已经详细阅读并同意《ModelArts服务声明》”,然后单击“创建”。 完成配置后,在ModelArts控制台的权限管理列表,可查看到此账号的委托配置信息。 步骤1:准备训练数据 从AI Gallery下载训练数据,单击链接四类花卉图像分类小数据集,进入数据集详情页。
duration=1)] # (可选)设置在线服务运行时间 ) 参数“model_id”代表将部署成在线服务的模型。“model_id”可以通过查询模型列表或者ModelArts管理控制台获取。 部署服务到专属资源池 from modelarts.config.model_config
3指使用0-3卡执行训练任务 训练成功标志 “***** train metrics *****”关键字打印 训练完成后,请参考查看日志和性能章节查看指令微调的日志和性能。 1、如训练过程中遇到“NPU out of memory”“Permission denied” 问题可参考
权限,包括对自己实例的创建、启动、停止、删除等权限以及周边依赖服务的权限。普通开发者不需要ModelArts专属资源池的操作权限,也不需要查看其他用户的Notebook实例。 图1 账号关系示意图 配置管理员权限 管理员账号需要拥有ModelArts专属资源池的完全控制权限,以及
docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
执行脚本收集日志。 在节点上执行该脚本,可以看到有如下输出,代表日志收集完成并成功上传至OBS。 图3 日志收集完成 查看在脚本的同级目录下,可以看到收集到的日志压缩包。 图4 查看结果 父主题: Lite Server资源管理
3.911-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E,登录后在此路径中查找下载ModelArts 6.3.911 版本。 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像包 swr.cn-southwest-2