检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。 以创建llama2-13b预训练作业为例,执行脚本0_pl_pretrain_13b.sh时,命令如下: cd
table.json文件和使用实例个数的local_ranktable.json文件;如果指定了--api-server,还会生成一个local_ranktable_host.json文件用于确定服务入口实例。 ./save_dir生成ranktable文件如下(假设本地主机ip为10
该镜像不属于该租户(包括主账号和子账号),是其他人共享的public镜像,而这个镜像又被镜像所有者删除,导致不可使用,用户需要联系对应的SWR镜像负责人,确认镜像是否存在。 该镜像不属于该租户(包括主账号和子账号),是其他人共享的public镜像,而这个镜像又被镜像所有者设置成p
存储相关 在ModelArts中如何查看OBS目录下的所有文件?
客户端配置(用户可根据需要自行配置,不配置默认是不给服务端发心跳包),如图1,图2所示。 图1 打开VS Code ssh config配置文件 图2 增加配置信息 配置信息示例如下: Host ModelArts-xx …… ServerAliveInterval
获取日志的长度,默认为50行。lines的范围为[0, 500]。 log_file 是 String 需要查看的日志文件名称,获取方式请参见获取训练作业日志的文件名。 order 否 String 日志查询的方向。 desc:向下查询。 asc:向上查询。 请求消息 无。 响应消息
系统自动创建委托名称,用户可以手动修改。 “新增委托 > 权限配置 > 普通用户” 普通用户包括用户使用ModelArts完成AI开发的所有必要功能权限,如数据的访问、训练任务的创建和管理等。一般用户选择此项即可。 可以单击“查看权限列表”,查看普通用户权限。 “新增委托 > 权限配置 > 自定义”
当对自定义镜像的驱动进行升级时,请确定底层驱动是否兼容。当前支持哪种驱动版本,请从基础镜像中获取。 文件权限不足 该问题可能为自定义镜像的用户与作业容器的用户不同导致的。请修改dockerfile文件: RUN if id -u ma-user > /dev/null 2>&1 ; \ then
H Target”,再单击页面上的设置按钮,此时会出现SSH配置文件路径。 图3 配置SSH Targets页面 单击列表中出现的SSH路径按钮,打开config文件,进行配置。 图4 配置SSH Config文件 HOST remote-dev hostname <instance
打开一个Notebook实例,进入到Launcher界面。 在“Notebook”区域下,选择“TensorFlow-1.8”,新建一个ipynb文件。 在新建的Notobook中,在代码输入栏输入如下命令。 !pip install Shapely 在Terminal中安装 例如,通过
去掉尖括号),使用浏览器下载vscode-server-linux-arm64.tar.gz文件。下载完成后,将下载的vscode-server-linux-arm64.tar.gz文件重命名为“vscode-server-linux-x64.tar.gz”。 https://update
去掉尖括号),使用浏览器下载vscode-server-linux-arm64.tar.gz文件。下载完成后,将下载的vscode-server-linux-arm64.tar.gz文件重命名为“vscode-server-linux-x64.tar.gz”。 https://update
查看YAML”查看节点配置信息。 查看节点的yaml文件里“cce.kubectl.kubernetes.io/ascend-rank-table”字段是否有值。 如图所示,表示有值,节点已开启topo文件和ranktable文件的下发。否则,联系技术支持处理。 图5 查看节点的yaml文件 父主题: Lite
匹配,因此每次创建训练作业时,训练作业的启动命令中都需要执行 install.sh 文件,来安装依赖以及下载完整代码。 ECS中构建新镜像(二选一):在ECS中,通过运行Dockerfile文件会在基础镜像上创建新的镜像。新镜像命名可自定义。Dockerfile会下载Megatr
节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。
节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件 查看性能 训练性能主要通过训练日志中的2个指标查看,吞吐量和loss收敛情况。
参数类型 描述 current Integer 当前页数。 data Array of NotebookFlavor objects 分页数据。 flavors Array of NotebookFlavor objects 支持切换的规格列表。 pages Integer 总的页数。
训练作业ID。获取方法请参见查询训练作业列表。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 返回的数据条目数。 offset 否 Integer 数据条目偏移量。 请求参数 无 响应参数 状态码:200 表3 响应Body参数 参数 参数类型 描述 total Integer
timestamp: 1-01-02 13:20:00 原因分析 出现该问题的可能原因如下: 时间值越界,请参考官方文档。 处理方法 校验时间数据,pandas以纳秒表示时间戳。 最小时间:1677-09-22 00:12:43.145225 最大时间:2262-04-11 23:47:16
f/grafana-9.1.6/conf/defaults.ini”文件。 修改[server]中的“root_url”和“serve_from_sub_path”字段。 图1 修改defaults.ini文件 其中: root_url的组成为:https:{jupyterlab