检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1 打印训练日志 训练完成后
如何减小本地或ECS构建镜像的目的镜像的大小? 减小目的镜像大小的最直接的办法就是选择尽可能小且符合自己诉求的镜像,比如您需要制作一个PyTorch2.1+Cuda12.2的镜像,官方如果没有提供对应的PyTorch或者Cuda版本的镜像,优选一个没有PyTorch环境或没有安装Cuda的镜像,而不
在ModelArts的Notebook中,如何访问其他账号的OBS桶? 创建Notebook时选择OBS存储,这种情况下只能访问到自己账号下的桶,无法访问到其他账号的OBS桶。 如果需要在Notebook中,访问其他账号的OBS文件,前提是,需获取目标OBS桶的读写权限。 首先,请
在ModelArts的Notebook中不同规格资源/cache目录的大小是多少? 创建Notebook时,可以根据业务数据量的大小选择资源。 ModelArts会挂载硬盘至“/cache”目录,用户可以使用此目录来储存临时文件。“/cache”与代码目录共用资源,不同资源规格有不同的容量。
在ModelArts的Notebook中如何设置VS Code远端默认安装的插件? 在VS Code的配置文件settings.json中添加remote.SSH.defaultExtensions参数,如自动安装Python和Maven插件,可配置如下。 "remote.SSH
在ModelArts的Notebook的CodeLab中能否使用昇腾卡进行训练? 有两种情况。 第一种,在ModelArts控制台的“总览”界面打开CodeLab,使用的是CPU或GPU资源,无法使用昇腾卡训练。 第二种,如果是AI Gallery社区的Notebook案例,使用的资源是ASCEND的,“Run
自动化搜索作业的yaml配置路径,需要提供一个OBS路径。 autosearch_framework_path 否 String 自动化搜索作业的框架代码目录,需要提供一个OBS路径。 command 否 String 自定义镜像场景下,训练作业的自定义镜像的容器的启动命令。 parameters
常见的磁盘空间不足的问题和解决办法 该章节用于统一整体所有的常见的磁盘空间不足的问题和解决办法。减少相关问题文档的重复内容。 问题现象 训练过程中复制数据/代码/模型时出现如下报错: 图1 错误日志 原因分析 出现该问题的可能原因如下: 本地数据、文件保存将"/cache"目录空间用完。
908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
SDXL基于Standard适配PyTorch NPU的Finetune训练指导(6.3.905) Stable Diffusion(简称SD)是一种基于扩散过程的图像生成模型,应用于文生图场景,能够帮助用户生成图像。SDXL Finetune是指在已经训练好的SDXL模型基础上,使用新的数据集进行微调(fin
ModelArts通过OBS的API访问OBS中的文件,属于内网还是公网访问? 在同一区域,ModelArts通过OBS的API访问OBS中的文件属于内网通信,不消耗公网流量费。 如果是通过互联网从OBS下载数据到本地,这时候会产生OBS公网流量费。OBS的详细计费说明可以参见计费项。
在ModelArts的Notebook中如何将git clone的py文件变为ipynb文件? 问题描述 在ModelArts的Notebook中如何将git clone的py文件变为ipynb文件? 处理方法 在ipynb文件中,执行%load XXX.py命令,即可将py文件内容加载到ipynb中。
个是在线服务对象,此时在运行态通过开关的方式来控制部署/更新服务,如下图所示: 在线服务开关默认关闭,节点走部署服务的流程;如果需要更新服务,则手动打开开关,选择相应的在线服务即可。 进行服务更新时,需要保证被更新的服务所使用的模型与配置的模型名称相同。 父主题: 开发Workflow命令参考
示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在第一个节点上。 图2 Loss收敛情况(示意图) 注:ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能
所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在第一个节点上。 图2 Loss收敛情况(示意图) ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。
所示。 单节点训练:训练过程中的loss直接打印在窗口上。 多节点训练:训练过程中的loss打印在第一个节点上。 图2 Loss收敛情况(示意图) ppo训练结束不会打印性能。建议根据保存路径下的trainer_log.jsonl文件的最后一行总的训练steps和时间来判断性能。
在ModelArts的Notebook中如何打开VS Code的配置文件settings.json? 在VS Code环境中执行Ctrl+Shift+P 搜Open User Settings (JSON) 父主题: Standard Notebook
在ModelArts的Notebook中如何使用pandas库处理OBS桶中的数据? 参考下载OBS文件到Notebook中的指导,将OBS中的数据下载至Notebook本地处理。 参考pandas用户指南处理pandas数据。 父主题: Standard Notebook
且隔离的可用区,这些可用区通过延迟低、吞吐量高且冗余性高的网络连接在一起。利用可用区,您可以设计和操作在可用区之间无中断地自动实现故障转移的应用程序和数据库。与传统的单个或多个数据中心基础设施相比,可用区具有更高的可用性、容错性和可扩展性。 ModelArts通过对DB的数据进行
在ModelArts的Notebook中使用不同的资源规格训练时为什么训练速度差不多? 如果用户的代码中训练任务是单进程的,使用Notebook 8核64GB,72核512GB训练的速度是基本一致的,例如用户用的是2核4GB的资源,使用4核8GB,或者8核64GB效果是一样的。 如果用户