检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在线推理 在线推理是对每一个推理请求同步给出推理结果的在线服务(Web Service)。 批量推理 批量推理是对批量数据进行推理的批量作业。 昇腾芯片 昇腾芯片又叫Ascend芯片,是华为自主研发的高计算力低功耗的AI芯片。 资源池 ModelArts提供的大规模计算集群,可
对于打开的代码文件,单击run按钮,即可执行,可以在下方的Terminal中看到代码输出信息。 如果执行较长时间的训练作业,建议使用nohup命令后台运行,否则SSH窗口关闭或者网络断连会影响正在运行的训练作业,命令参考: nohup your_train_job.sh > output.log 2>&1
权限管理抽象 ModelArts每个功能都通过IAM的权限来进行控制。比如,用户(此处指IAM子用户,而非租户)希望在ModelArts创建训练作业,则该用户必须拥有 "modelarts:trainJob:create" 的权限才可以完成操作(无论界面操作还是API调用)。关于如何给
接经VPC对等连接发送到实例处理,访问速度更快。 由于请求不经过推理平台,所以会丢失以下功能: 认证鉴权 流量按配置分发 负载均衡 告警、监控和统计 图1 VPC直连的高速访问通道示意图 约束限制 调用API访问在线服务时,对预测请求体大小和预测时间有限制: 请求体的大小不超过12MB,超过后请求会被拦截。
-p 8080:8080 -v model:/home/mind/model custom_engine:v1 该指令无法完全模拟线上,主要是由于-v挂载进去的目录是root权限。在线上,模型文件从OBS下载到/home/mind/model目录之后,文件owner将统一修改为ma-user。
-p 8080:8080 -v model:/home/mind/model custom_engine:v1 该指令无法完全模拟线上,主要是由于-v挂载进去的目录是root权限。在线上,模型文件从OBS下载到/home/mind/model目录之后,文件owner将统一修改为ma-user。
NODE_RANK=0 执行以下命令,开始预训练。 nohup sh ./pretrain_gpt2.sh & 图3 开始预训练 实时查看训练日志,监控程序。 tail -f nohup.out 如果显示如下信息, 表示模型训练完成。 图4 模型训练完成 在训练过程中观察单GPU卡的利用率,如下:
“PretrainedConfig”之间的交互。 “PretrainedConfig”:预训练模型的配置基类 提供模型配置的通用属性和两个主要方法,用于序列化和反序列化配置文件。 PretrainedConfig.from_pretrained(dir) # 从目录中加载序列化对
在左上角的服务列表中,选择ModelArts服务,进入ModelArts管理控制台。 在ModelArts管理控制台,可正常创建Notebook、训练作业、注册镜像。 验证SFS权限。 在左上角的服务列表中,选择SFS服务,进入SFS管理控制台。 在SFS管理控制台,在SFS Turbo中单
购买时需注意,ECS需要和SFS买到同一个VPC才能挂载SFS存储。 购买ModelArts专属资源池 提供独享的计算资源,可用于Notebook、训练作业、部署模型。专属资源池不与其他用户共享,更加高效。在使用专属资源池之前,您需要先创建一个专属资源池,操作指导请参考创建专属资源池。 创建一
ModelArts:设置资源池的网络 用户VPC:安装和配置正向代理 算法镜像:设置DNS代理和公网地址调用 ModelArts:设置资源池的网络 专属资源池的创建作业类型包含推理服务,选择的网络需打通VPC网络,如下图所示: 图2 创建专属资源池 图3 打通VPC 打通VPC可实现ModelArts资源
n的值)。 表3 请求Body参数 参数 是否必选 参数类型 描述 grants 否 Array of grants objects 训练作业使用的数据集。不可与data_url或dataset_id/dataset_version_id同时使用。 auth_type 否 String
事件通知(不开启则不计费) 订阅消息使用消息通知服务,在事件列表中选择特定事件,在事件发生时发送消息通知。 如果想使用消息通知,需要在创建训练作业时开启“事件通知”功能。 具体计费可见消息通知服务价格详情。 按实际用量付费 发送短信通知费用构成:短信通知条数 发送电子邮件费用构成:电子邮件+外网下行流量
启动该工作流。其中涉及手动确认的节点仍会在运行到时停止,不会自动执行。 服务配置 消息通知 订阅消息使用消息通知服务,在事件列表中选择需要监控的节点或者Workflow状态,在事件发生时发送消息通知。 说明: 打开开关后,需要先指定SMN主题名,如未创建主题名,需前往消息通知服务创建主题。
精细化授权管理 如果您需要进行精细的权限管理,可参考《ModelArts API参考》中的权限策略和授权项。 数据管理权限 开发环境权限 训练作业权限 模型管理权限 服务管理权限 工作空间管理权限 精细化授权案例可参考管理员和开发者权限分离。 父主题: 权限配置
在ModelArts训练中实现增量训练,建议使用“训练输出”功能。 在创建训练作业时,设置训练“输出”参数为“train_url”,在指定的训练输出的数据存储位置中保存Checkpoint,且“预下载至本地目录”选择“下载”。选择预下载至本地目录时,系统在训练作业启动前,自动将数据存储位置中的Checkpoint文件下载到训练容器的本地目录。
data_batch_1 |-------- data_batch_2 |-------- ... 其中“DDP”为创建训练作业时的“代码目录”,“main.py”为上文代码示例(即创建训练作业时的“启动文件”),“cifar-10-batches-py”为解压后的数据集文件夹(放在input_dir文件夹下)。
的图片,在data文件夹中不会展示,图片的位置信息显示该图片在输入目录中。 output.manifest存放的是数据处理之后的图片信息(主要是指图片的位置和标注信息等),可以直接使用这个output.manifest文件创建数据集,或者把output.manifest文件导入到已经存在的数据集中。
source_job_version String 来源训练作业的版本。 source_location String 模型所在的OBS路径或SWR镜像的模板地址。 source_job_id String 来源训练作业的ID。 source_copy String 镜像复制开关
为云版Volcano插件支持开启路由加速特性。 训练使用的Python版本是3.7或3.9,否则无法实现ranktable路由加速。 训练作业的任务节点数要大于或等于3,否则会跳过ranktable路由加速。建议在大模型场景(512卡及以上)使用ranktable路由加速。 脚本