检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
0112800-2a95df3 CANN:cann_8.0.rc3 Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。
的数据集。Gan是一个包含生成器和判别器的网络,生成器从潜在空间中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本。判别器的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来。而生成网络则要尽可能地欺骗判别网络。两个网络相互对抗、不断调
2192643-c45ac6b CANN:cann_8.0.rc3 Step1 创建ECS 下文中介绍如何在ECS中构建一个推理镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。
查看批量服务的事件 服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。 方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 表1 事件 事件类型 事件
发起维修流程。 NT_NPU_ECC_COUNT NPU 显存 NPU ECC次数达到维修阈值。 NPU的HBM总的多Bit Ecc隔离地址记录达到64个。 发起维修流程。 NT_NET_NTP_CHECK Runtime 其他 ntp异常。 ntpd或者chronyd服务异常。 发起维修流程。
查看在线服务的事件 服务的(从用户可看见部署服务任务开始)整个生命周期中,每一个关键事件点在系统后台均有记录,用户可随时在对应服务的详情页面进行查看。 方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 表1 事件 事件类型 事件
autosearch_config_path String 自动化搜索作业的yaml配置路径,需要提供一个OBS路径。 autosearch_framework_path String 自动化搜索作业的框架代码目录,需要提供一个OBS路径。 command String 自定义镜像训练作业的自定义镜像的容器的启动命令。可填code_dir。
autosearch_config_path String 自动化搜索作业的yaml配置路径,需要提供一个OBS路径。 autosearch_framework_path String 自动化搜索作业的框架代码目录,需要提供一个OBS路径。 command String 自定义镜像训练作业的自定义镜像的容器的启动命令。可填code_dir。
s: 默认为1,推荐设置为8。用于mult-step调度。每次调度生成多个token,可以降低时延。开启multi-step后,在流式返回中,会一次返回num-scheduler-steps个token。开启投机推理后无需配置该参数。 --gpu-memory-utilizati
16GiB),计算节点个数为2个,并在9:30:00升配增加2个节点(升配后共4个节点),那么在9:00:00 ~ 10:00:00间会产生两条计费信息。 第一条对应9:00:00 ~ 9:30:00,按照2个计算节点个数计费。 第二条对应9:30:00 ~ 10:00:00,按照4个计算节点个数计费。
创建用户组并加入用户,步骤请参考Step1 创建用户组并加入用户。 给用户组授权策略。 在IAM服务的用户组列表页面,单击“授权”,进入到授权页面,为子账号配置权限。勾选“notebook”、“notebook-obs”、“SWR Admin”策略。单击“下一步”和“确定”。 图1 给用户组授权策略 添加ModelArts委托授权。
--num-scheduler-steps:默认为1,推荐设置为8。用于mult-step调度。每次调度生成多个token,可以降低时延。开启multi-step后,在流式返回中,会一次返回num-scheduler-steps个token。开启投机推理后无需配置该参数。 --gpu-memory-utilizati
增量训练特别适用于以下情况: 数据流更新:在实际应用中,数据可能会持续更新,增量训练允许模型适应新的数据而不必重新训练。 资源限制:如果重新训练一个大型模型成本过高,增量训练可以是一个更经济的选择。 避免灾难性遗忘:在传统训练中,新数据可能会覆盖旧数据的知识,导致模型忘记之前学到的内容。增量训练通过保留旧知识的同时学习新知识来避免这个问题。
引擎及版本的模型包。 标注“推荐”的Runtime来源于统一镜像,后续统一镜像将作为主流的推理基础镜像。统一镜像中的安装包更齐全,详细信息可以参见推理基础镜像列表。 推荐将旧版镜像切换为统一镜像,旧版镜像后续将会逐渐下线。 待下线的基本镜像不再维护。 统一镜像Runtime的命名规范:<AI引擎名字及版本>
my-task-image:latest # 替换为实际使用的镜像 业务负载和自定义指标采集可以共用一个容器,也可以由SideCar容器采集指标数据,然后将自定义指标采集容器指定到SideCar容器,这样可以不占用业务负载容器的资源。 自定义指标数据格式 自定义指标数据的格式必须是符合open
policy 工作流的配置策略,主要用于部分运行场景 否 Policy Step Step是组成Workflow的最小单元,体现在DAG中就是一个一个的节点,不同的Step类型承载了不同的服务能力,主要构成如下。 表2 Step 属性 描述 是否必填 数据类型 name 节点的名称,命名
启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”, 表示可以无限制保存。 billing_flavor String 计费规格。当该字段为空时,使用规格名称计费。 billing_params Integer
6 下文将介绍如何在训练中使用评估代码。对训练代码做一定的适配和修正,分为三个方面:添加输出目录、复制数据集到本地、映射数据集路径到OBS。 添加输出目录 添加输出目录的代码比较简单,即在代码中添加一个输出评估结果文件的目录,被称为train_url,也就是页面上的训练输出位置。
创建训练作业 功能介绍 创建一个训练作业。 该接口为异步接口,作业状态请通过查询训练作业列表和查询训练作业版本详情接口获取。 URI POST /v1/{project_id}/training-jobs 参数说明如表1所示。 表1 参数说明 参数 是否必选 参数类型 说明 project_id
启动后设置的自动停止时间,单位为秒。 store_time Integer 该规格实例处于非活跃状态,在数据库最长保存的时长。单位为小时。 默认为“-1”, 表示可以无限制保存。 billing_flavor String 计费规格。当该字段为空时,使用规格名称计费。 billing_params Integer