检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ch 1.8、ffmpeg 3和gcc 8,构建一个面向AI开发的新环境。 主要流程如下图所示: 图1 构建与调测镜像流程 本案例适用于华为云-北京四Region。 Notebook自定义镜像规范 制作自定义镜像时,Base镜像需满足如下规范: 基于昇腾、Dockerhub官网等
检查summary目录是否存在其他文件,如有请删除。 检查summary目的文件是否过大(比如大于5GB),如果有请减小summary。 父主题: OBS操作相关故障
查看专属池驱动 创建OBS桶 ModelArts使用对象存储服务(Object Storage Service,简称OBS)存储输入输出数据、运行代码和模型文件,实现安全、高可靠和低成本的存储需求。因此,在使用ModelArts之前通常先创建一个OBS桶,然后在OBS桶中创建文件夹用于存放数据。
(request-rate参数)较高,会触发推理平台的流控,请在ModelArts Standard“在线服务”详情页修改服务流量限制。 同步请求时,平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求(例如输出大于1k),请求预测会超过60秒导致调用失败,可提交工单设置请求超时时间。
方法一:用户可打开scripts/llama2/1_preprocess_data.sh脚本,将执行的python命令复制下来,修改环境变量的值。在Notebook进入到 /home/ma-user/work/llm_train/AscendSpeed/ModelLink 路径中,再执行python命令。 方
gz",需要替换为1中pytorch.tar.gz在OBS上的路径(需将文件设置为公共读)。 进入Dockerfile目录,通过Dockerfile构建镜像命令: # cd 到Dockerfile所在目录下,输入构建命令 # docker build -t ${image_name}:${image_version}
obs_config=wf.data.OBSOutputConfig(obs_path=output_storage.join("/train_output/")))], spec=wf.steps.JobSpec( resource=wf
为用户配置ModelArts的委托访问授权 配置完IAM权限之后,需要在ModelArts页面为子账号设置ModelArts访问授权,允许ModelArts访问OBS、SWR、IEF等依赖服务。 此方式只允许主用户为子账号进行配置。因此,本示例中,管理员账号需为所有用户完成访问授权的配置。 使用主用户的
原因分析 出现该问题的可能原因如下: OBS相关错误。 OBS文件不存在。The specified key does not exist。 用户OBS权限不足。 OBS限流。 OBS其他问题。 磁盘空间不足。 处理方法 如果是OBS相关错误。 OBS文件不存在。The specified
traceback): : Unable to connect to endpoint 原因分析 OBS连接不稳定可能会出现报错,“Unable to connect to endpoint”。 处理方法 对于OBS连接不稳定的现象,通过增加代码来解决。您可以在代码最前面增加如下代码,让Tenso
默认8卡 benchmark-cli train <cfgs_yaml_file> <model_name> <run_type> # 指定设备卡数,如2卡 ASCEND_RT_VISIBLE_DEVICES=0,1 benchmark-cli train <cfgs_yaml_file>
上传数据和算法至OBS(首次使用时需要) 前提条件 已经在OBS上创建好并行文件系统,请参见创建并行文件系统。 已经在obsutil安装和配置,请参见obsutils安装和配置。 准备数据 单击下载动物数据集至本地,并解压。 通过obsutil将数据集上传至OBS桶中。 ./obsutil
r资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254
254),以防止容器获取宿主机的元数据。具体操作请参见禁止容器获取宿主机元数据。 检查环境。 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态
r资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 购买DevServer资源时如果无可选资源规格,需要联系华为云技术支持申请开通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254
(request-rate参数)较高,会触发推理平台的流控,请在ModelArts Standard“在线服务”详情页修改服务流量限制。 同步请求时,平台每次请求预测的时间不能超过60秒。例如输出数据比较大的调用请求(例如输出大于1k),请求预测会超过60秒导致调用失败,可提交工单设置请求超时时间。
C9D0 retry:0 原因分析 出现该问题的可能原因如下: OBS服务的权限出现问题,导致无法正常读取数据 处理方法 请检查OBS权限配置,如未解决问题可参考OBS文档的已配置OBS权限,仍然无法访问OBS(403 AccessDenied)。 建议与总结 在创建训练作业前
表用于用户终端(例如:浏览器)选择。 301 Moved Permanently 永久移动,请求的资源已被永久的移动到新的URI,返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。 使用GET和POST请求查看。 304 Not
性能调优 算子优化 为了更好地发挥昇腾设备的性能,将ChatGLM-6B原模型中的部分算子替换成了NPU亲和的算子,修改的是modeling_chatglm.py文件,下图通过对比列举了对应的修改方式,图示中左边为原始方式,右边为修改后的方式。 使用torch.bmm替换torch
Bool 否 异步上传文件,推荐使用。 示例 上传本地文件到DLI分组资源 ma-cli dli-job upload ./test.py -obs ${your-bucket} --kind pyFile 上传OBS文件到DLI分组资源 ma-cli dli-job upload