正在生成
详细信息:
检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
true:只读权限 false:默认值,读写权限 请求示例 如下以查询“job_id”为10,“version_id”为10的作业为例。 GET https://endpoint/v1/{project_id}/training-jobs/10/versions/10 响应示例 成功响应示例
/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ 修改断点续训练参数。断点续训前,需要在原有训练参数配置表1中新加“MODEL_PATH”参数,并修改“TRAIN_ITERS”参数和“RUN_TYPE”参数。 表1 断点续训练修改参数 参数 参考值
ckpoint信息初始化训练状态即可。用户需要在代码里加上reload ckpt的代码,使能读取前一次训练保存的预训练模型。 原有训练参数配置表1断点续训练中新加MODEL_PATH参数,并修改TRAIN_ITERS参数值。 表1 断点续训练修改参数 参数 参考值 参数说明 CKPT_LOAD_DIR
获取数据及代码 表1 准备代码 代码包名称 代码说明 下载地址 AscendCloud-3rdLLM-6.3.904-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍。 Asc
调用批量更新样本标签根据获取的智能标注样本列表确认智能标注结果。 前提条件 已获取IAM的EndPoint和ModelArts的EndPoint。 确认服务的部署区域,获取项目名称和ID、获取帐号名和ID和获取用户名和ID。 已准备好用于智能标注的图像分类的数据集,并获取数据集ID,例如“6mHUG
/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ 修改断点续训练参数。断点续训前,需要在原有训练参数配置表1中新加“MODEL_PATH”参数,并修改“TRAIN_ITERS”参数和“RUN_TYPE”参数。 表1 断点续训练修改参数 参数 示例值
驱动升级 NPU升级。 节点正在执行NPU驱动升级。 A200008 节点管理 节点准入 准入检测。 节点正在进行节点准入检测,包括基本的节点配置检查和简单的业务验证。 A050933 节点管理 容错Failover 当节点具有该污点时,会将节点上容错(Failover)业务迁移走。
error_code String ModelArts错误码。 error_msg String 具体错误信息。 请求示例 资源池扩容。 PATCH https://{endpoint}/v2/{project_id}/pools/{pool_name} { "spec" : { "resources"
None 服务介绍 ModelArts产品 产品介绍 03:19 了解什么是ModelArts ModelArts自动学习 视频介绍 02:59 ModelArts自动学习简介 ModelArts CodeLab 视频介绍 04:16 ModelArts CodeLab介绍 JupyterLab
获取数据及代码 表1 准备代码 代码包名称 代码说明 下载地址 AscendCloud-3rdLLM-6.3.904-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍。 Asc
当数据集中的标签发生变化时,需要执行如下语句。此语句需在“mox.run”之前运行。 语句中的“logits”,表示根据不同网络中分类层权重的变量名,配置不同的参数。此处填写其对应的关键字。 mox.set_flag('checkpoint_exclude_patterns', 'logits')
获取数据及代码 表1 准备代码 代码包名称 代码说明 下载地址 AscendCloud-3rdLLM-6.3.904-xxx.zip 说明: 包名中的xxx表示具体的时间戳,以包名的实际时间为准。 包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍。
“名称”:设置此任务的名称。 “标注场景”:选择标注作业的任务类型。 “标签集”:展示当前数据集已有的标签及标签属性。 “启用团队标注”:选择打开,并配置如下团队标注相关参数。 “类型”:设置任务类型,支持“指定标注团队”或“指定标注管理员”。 “选择标注团队”:任务类型设置为“指定标注团队
OME} 需要根据数据集模型等路径做对应替换,这里脚本适配的数据集是Firefly,其中deepspeed使用了zero 1显存优化方式,配置方式如下: { "fp16": { "enabled": "auto", "loss_scale":
2-py_3.7-ubuntu_18.04-x86_64 request_mode Array of strings 请求模式,AI引擎支持部署为同步在线服务或异步在线服务 sync(同步在线服务) async (异步在线服务) accelerators Array of Accelerator
/home/ma-user/ws/xxx-Ascend/llm_train/AscendSpeed/ 修改断点续训练参数。断点续训前,需要在原有训练参数配置表1中新加“MODEL_PATH”参数,并修改“TRAIN_ITERS”参数和“RUN_TYPE”参数。 表1 断点续训练修改参数 参数 参考值
Turbo v1.28及以上 软件包获取地址 软件包名称 软件包说明 获取地址 AscendCloud-6.3.908-xxx.zip 包含 三方大模型训练和推理代码包:AscendCloud-LLM AIGC代码包:AscendCloud-AIGC 算子依赖包:AscendCloud-OPP
内置属性:三元组关系标签的指向实体类型,创建关系标签时必须指定,该参数仅文本三元组数据集使用。 请求示例 查询指定数据集的版本列表 GET https://{endpoint}/v2/{project_id}/datasets/{dataset_id}/versions 响应示例 状态码:
格的机器上,因此上层docker镜像也都是ARM镜像。 针对GPU场景的镜像中安装了对应版本的CUDA(由英伟达推出的统一计算架构)驱动,而Ascend-Powered-Engine引擎的镜像中都安装了与底层硬件版本适配的CANN(华为针对AI场景推出的异构计算架构)驱动。 提交训练作业后,ModelArts
获取代码和权重文件 表1 准备代码 代码包名称 代码说明 下载地址 AscendCloud-3rdLLM-6.3.904-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见代码目录介绍。 Asc