检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
可以让Workflow列表页中的内容在显示时自动换行。禁用此功能可截断文本,Workflow列表页中仅显示部分内容。 操作列:默认为开启状态,启用此能力可让操作列固定在最后一列永久可见。 自定义显示列:默认所有显示项全部勾选,您可以根据实际需要定义您的显示列。 设置完成后,单击“确定”即可。
据,例如在桶standard-llama2-13b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://<bucket_name>/training_data
据,例如在桶standard-llama2-13b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://<bucket_name>/training_data
弹性集群Cluster”页面中的Standard资源池页签中,单击包年包月的资源池名称,进入详情页,在右上角选择“更多 > 开通自动续费”,按照页面提示跳转到费用中心进行续费操作。 在ModelArts控制台修改自动续费 包年/包月的Standard专属资源池和弹性集群Lite Cluster资源池在购买成功后支持修改自动续费。
据,例如在桶standard-llama2-13b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://<bucket_name>/training_data
CodeLab首页 常用功能。 CodeLab的界面依托于JupyterLab,其相关的常见功能与JupyterLab相同。 常用操作指导可参见JupyterLab操作指导:JupyterLab常用功能介绍。 由于CodeLab的存储为系统默认路径,在使用“上传文件”或“下载文件至本地”时
据,例如在桶standard-llama2-13b中创建文件夹training_data。 利用OBS Browser+工具将步骤1下载的数据集上传至步骤2创建的文件夹目录下。得到OBS下数据集结构: obs://<bucket_name>/training_data
新购买的专属资源池,需要初始化环境才能用于创建Notebook。 解决方法 请到专属资源池页面初始化开发环境。 进入“专属资源池”页面,单击目标资源池“操作”列的“更多 > 设置作业类型”。 在“设置作业类型”页面,勾选“开发环境”,单击“确定”。此时“开发环境”的状态为“环境初始化中”,等到
号。 将训练好的模型下载至本地后,上传至目标账号对应区域的OBS桶中。 通过对模型存储的目标文件夹或者目标桶配置策略,授权其他账号进行读写操作。详请参见配置高级桶策略。 父主题: Standard模型训练
information on ModelArts console.” 原因分析 可能是密钥文件或放置密钥的文件夹权限问题,密钥不正确等,请按以下步骤排查。 解决方案 排查/home/ma-user权限,建议将该目录权限设置为755或750,权限不能过于宽松,以保证用户隔离和安全。修改方法如下。
算子信息、底层NPU算子信息、以及算子内存占用信息等,可以全方位分析PyTorch训练时的性能状态。 录制命令如下: 在启动训练脚本基础:步骤三 启动训练脚本 新加DO_PROFILER=1和PROF_SAVE_PATH=/save_path参数,单机启动举例说明: PROF_ENABLE=1
算子信息、底层NPU算子信息、以及算子内存占用信息等,可以全方位分析PyTorch训练时的性能状态。 录制命令如下: 在启动训练脚本基础:步骤三:启动训练脚本 新加DO_PROFILER=1和PROF_SAVE_PATH=/save_path参数,单机启动举例说明: DO_PROFILER=1
训练作业的监控内存指标持续升高直至作业失败 问题现象 训练作业的“状态”为“运行失败”。 原因分析 训练作业的监控内存指标持续升高,导致最后训练作业失败。 处理步骤 查询训练作业的日志和监控信息,是否存在明确的OOM报错信息。 是,训练作业的日志里存在OOM报错,执行2。 否,训练作业的日志里没有OOM报错,但是存在监控指标异常,执行3。
算子信息、底层NPU算子信息、以及算子内存占用信息等,可以全方位分析PyTorch训练时的性能状态。 录制命令如下: 在启动训练脚本基础:步骤三 启动训练脚本 新加DO_PROFILER=1和PROF_SAVE_PATH=/save_path参数,单机启动举例说明: DO_PROFILER=1
选择您所需的表。 DLI的default队列只用作体验,不同账号间可能会出现抢占的情况,需进行资源排队,不能保证每次都可以得到资源执行相关操作。 DLI支持schema映射的功能,即导入的表的schema的字段名称可以不和数据集相同,但类型要保持一致。 父主题: 导入数据到ModelArts数据集
如果没有文件可以删除,或者不清楚哪些可以删除,那么可以使用相同的镜像重新创建一个Notebook,使用新建的Notebook时,注意减少软件包的安装或文件的下载等操作,也可以减少容器大小; 减少镜像文件的大小 如果无法确认哪些包或文件可以不安装,那么可以选择一个较小的镜像来重建Notebook,然后在其
OUTPUT_SAVE_DIR /home/ma-user/ws/save_dir/llama2-70B_sft_lora_4096 【必改】。训练任务结束生成日志及权重文件目录。根据实际情况决定 SHELL_FOLDER $(dirname $(readlink -f "$0")) 表示执行脚本时的路径。
OUTPUT_SAVE_DIR /home/ma-user/ws/save_dir/llama2-70B_sft_lora_4096 【必改】。训练任务结束生成日志及权重文件目录。根据实际情况决定 SHELL_FOLDER $(dirname $(readlink -f "$0")) 表示执行脚本时的路径。
msprof-analyze的分析能力,ModelArts Standard 场景下对外提供一种插件化的 advisor 分析能力,详细的操作方式请参见基于advisor的昇腾训练性能自助调优指导。 对于GPU和NPU性能比对、NPU多次训练之间性能比对的场景,昇腾提供了性能比对
NCCL是一个提供GPU间通信原语的库,实现集合通信和点对点发送/接收原语。当训练作业出现NCCL的报错时,可以通过调整NCCL的环境变量尝试解决问题。 处理步骤 进入状态“运行失败”的训练作业详情页,单击“日志”页签,查看NCCL报错。 如果出现报错“NCCL timeout”或者“RuntimeError: