检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应表1表格中output_dir参数值路径下的trainer_log.jsonl文件。 查看性能
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 查看日志 训练过程中,训练日志会在第一个的Rank节点打印。 图1 打印训练日志 训练完成后,如果需要单独获取训练日志文件,日志存放在第一个的Rank节点中;日志存放路径为:对应修改重要参数表格中output_dir参数值路径下的trainer_log.jsonl文件
查看日志和性能 查看日志 若查看启动作业日志信息,可通过以下命令打印正在启动的日志信息。其中${pod_name}为pod信息中的NAME,例如vcjob-main-0。 kubectl logs -f ${pod_name} 训练过程中,训练日志会在最后的Rank节点打印。 图1
资源和引擎规格接口 查询资源规格列表 查询引擎规格列表 父主题: 训练管理
获取项目ID和名称 操作场景 在调用接口的时候,部分请求中需要填入项目ID或项目名称,所以需要获取到项目ID和名称。有如下两种获取方式: 从控制台获取项目ID和名称 调用API获取项目ID 从控制台获取项目ID和名称 从控制台获取项目ID(project_id)和名称(project
ModelArts中的作业为什么一直处于等待中? 当前训练任务排队的逻辑是先进先出,前面的任务没运行完后面的任务不会运行,有可能会造成小任务被“饿死”,需要用户注意。 饿死指的是前面的任务被一个大的任务堵着(例如是64卡),需要等空闲64卡这个任务才能运行,64卡的任务后面跟着1卡的。即使现
一个自由灵活的AI应用创建方式,您可以基于AI Gallery上提供的基础能力,发挥您的创造力,通过自定义代码的形式,自由地构建出您需要的AI应用形态。 准备AI应用运行文件“app.py” AI应用运行文件“app.py”的代码示例如下。其中,加粗的代码为必须保留的内容。 import
甚至会有服务业务中断的风险,预测请求时延超过60s时,建议制作异步请求模式的模型。 自定义镜像的配置规范 镜像对外接口 设置镜像的对外服务接口,推理接口需与config.json文件中apis定义的url一致,当镜像启动时可以直接访问。下面是mnist镜像的访问示例,该镜像内含m
Gallery。 发布的免费资产将展示在AI Gallery的公共页签以及“我的Gallery > 我的资产”的各个模块的“我的发布”中。 已经订阅的免费资产将展示在AI Gallery的“我的Gallery > 我的资产”的各个模块的“我的订阅”或“我的下载”中。 免费资产在ModelArts的AI
资源和引擎规格接口 查询作业资源规格 查询作业引擎规格 父主题: 训练管理(旧版)
obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具,使用该工具可以对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。 操作命令中的AK/
镜像方案说明 准备大模型训练适用的容器镜像,包括获取镜像地址,了解镜像中包含的各类固件版本,配置Standard物理机环境操作。 基础镜像地址 本教程中用到的训练的基础镜像地址和配套版本关系如下表所示,请提前了解。 表1 基础容器镜像地址 镜像用途 镜像地址 配套版本 训练基础镜像
ModelArts服务提供包年/包月和按需计费两种计费模式,以满足不同场景下的用户需求。如您需要快速了解ModelArts服务不同计费模式的具体价格,请参见ModelArts价格详情。 包年/包月:一种预付费模式,即先付费再使用,按照订单的购买周期进行结算。购买周期越长,享受的折扣越大。一般适用于计算资源需求量长期稳定的成熟业务。
权限策略和授权项 策略及授权项说明 数据管理权限 开发环境权限 训练作业权限 模型管理权限 服务管理权限 工作空间管理权限 DevServer权限
使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配 问题现象 用户使用VS Code连接实例时,发现VS Code端的实例目录和云上目录不匹配。 原因分析 实例连接错误,可能是配置文件写的不规范导致连接到别的实例。 解决方案 检查用户.ssh配置文件(路
获取账号名和账号ID 在调用接口的时候,部分请求中需要填入账号名(domain name)和账号ID(domain_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面的查看“账号名”和“账号ID”。 图1 获取账号名和ID
获取训练镜像 请确保在正确的Region下获取镜像。建议使用官方提供的镜像部署训练服务。镜像地址{image_url}请参见表1。 docker pull {image_url} Step5 在ECS中Docker登录 在SWR中单击右上角的“登录指令”,然后在跳出的登录指定窗口,单击复