检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。 请求示例 如下以停止“job_id”为10,“version_id”为10的作业版本为例。 POST htt
deleted_sample_count Integer 已删除的样本数目。 rejected_sample_count Integer owner验收不通过的样本数目。 sampled_sample_count Integer 待owner验收且被抽样的样本数目。 total_sample_count
750 /home/ma-user 排查密钥是否是和实例绑定的一致。 停止实例,进入实例详情页。 更新密钥:单击“认证”旁边的编辑按钮,然后单击“立即创建”创建并选择新密钥。 重新使用VS Code连接实例,选择新创建的密钥。 父主题: VS Code连接开发环境失败故障处理
在创建并使用的工作空间,以实际取值为准。 search_type 否 String 过滤方式。可选值如下: equal表示精确匹配。 contain表示模糊匹配。 具体过滤的字段,由各个接口额外定义参数。例如Workflow支持按照名称(name)进行过滤,则相应的过滤字段为na
py中添加一行代码os.system('nvcc -V)查看该镜像的cuda版本(customize_service.py编写指导请见模型推理代码编写说明)。 确认该cuda版本与您安装的mmcv版本是否匹配。 部署时是否需要使用GPU,取决于的模型需要用到CPU还是GPU,以及推理脚本如何编写。
可以基于保存的镜像创建训练作业。 message String 镜像创建的时间,UTC毫秒。 create_time Long 镜像保存操作过程中,展示构建信息。 请求示例 如下以查询uuid为2cd88daa-31a4-40a8-a58f-d186b0e93e4f的训练作业对应worker-0镜像保存任务为例。
@modelarts:color String 内置属性:标签展示的颜色,为色彩的16进制代码,默认为空。例如:“#FFFFF0”。 @modelarts:default_shape String 内置属性:物体检测标签的默认形状(物体检测标签专用属性),默认为空。可选值如下: bndbox:矩形。
参数类型 描述 error_code String 操作失败的错误码。 error_msg String 操作失败的错误信息。 results Array of BatchResponse objects 批量删除标注团队成员的结果。 success Boolean 操作是否执行成功。可选值如下:
线。同时'default'为系统预留的默认工作空间名称,用户无法自己创建名为'default'的工作空间。 description String 工作空间描述,默认为空。长度限制为0-256字符。 id String 工作空间ID,系统生成的32位UUID,不带橫线。 status
project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 job_id 是 Long 训练作业的ID。 version_id 是 Long 训练作业的版本ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2 响应参数 参数 参数类型 说明 is_success
指定每个设备的训练批次大小 gradient_accumulation_steps 8 指定梯度累积的步数,这可以增加批次大小而不增加内存消耗。可根据自己要求适配 num_train_epochs 5 表示训练轮次,根据实际需要修改。一个Epoch是将所有训练样本训练一次的过程。可根据自己要求适配
yaml配置文件; -P表示鉴权文件中的某一组鉴权信息,默认是DEFAULT; -D表示是否开启debug模式(默认关闭),当开启debug模式后,命令的报错堆栈信息将会打印出来,否则只会打印报错信息; -h表示显示命令的帮助提示信息。 命令说明 表1 ma-cli支持的命令 命令 命令详情 configure
必须修改。用于指定模板。如果设置为"qwen",则使用Qwen模板进行训练,模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。
-0.txt 执行下游评估 为增加精度评测的稳定性及进一步确保训练精度,使用多个数据集【MMLU、CEVAL】评测,执行过程如下: 获取到训练权重后使用ascendfactory-cli、eval接口用mmlu、ceval数据集对训练后的结果进行评测 test-benchmark目录目录下执行命令
job_id 是 Long 训练作业的ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code
job_id 是 String 可视化作业的ID。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2 响应参数 参数 类型 说明 is_success Boolean 请求是否成功。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。
rt_rcv_data) res=$(($y-$x)) echo $res 上述获取的值*4/300 ,即为当前网卡的接收速率,单位Byte/s。 方法2:使用ib_write_bw测试RDMA的读写处理确定带宽 服务器A:服务端从mlx4_0网卡接收数据 ib_write_bw
结束时间,需要与开始时间一起传入。 level 否 String 指定返回的事件级别,取值范围[Info Error Warning]。 pattern 否 String 指定事件信息包含的内容,最长256个字符。 source 否 String 指定返回的事件来源,取值范围为[K8S Job Task]。
必须修改。用于指定模板。如果设置为"qwen",则使用Qwen模板进行训练,模板选择可参照表1中的template列 output_dir /home/ma-user/ws/Qwen2-72B/sft-4096 必须修改。指定输出目录。训练过程中生成的模型参数和日志文件将保存在这个目录下。用户根据自己实际要求适配。
方法。 专属池驱动版本如何升级? 当专属资源池中的节点含有GPU/Ascend资源时,用户基于自己的业务,可能会有自定义GPU/Ascend驱动的需求,ModelArts面向此类客户提供了自助升级专属资源池GPU/Ascend驱动的能力,具体操作请参见资源池驱动升级。 父主题: FAQ