检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
AscendCloud-6.3.906-xxx.zip软件包中的AscendCloud-AIGC-6.3.906-xxx.zip 说明: 包名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E。 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。
enable buildkitd # 查看状态 systemctl status buildkitd 若buildkitd的服务运行状态如下图所示,则表示服务运行成功。使用Ctrl+C即可退出查看状态。 Step2 获取推理镜像 建议使用官方提供的镜像部署推理服务。镜像地址{image_url}获取请参见表1。
功能。 ${image_name} 为docker镜像的ID,在宿主机上可通过docker images查询得到。 --shm-size:表示共享内存,用于多进程间通信。由于需要转换较大内存的模型文件,因此大小要求200g及以上。 修改目录权限,上传代码和数据到宿主机时使用的是r
AscendCloud-6.3.906-xxx.zip软件包中的AscendCloud-AIGC-6.3.906-xxx.zip 说明: 包名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E 说明: 如果没有下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像
MODEL_TYPE:模型类型; OUTPUT_NAME:输出结果文件名称, 默认llava; ASCEND_RT_VISIBLE_DEVICES:表示支持多个模型服务实例,同时支持模型并行,如 0,1:2,3 默认0卡; QUANTIZATION:为量化选项,不传入默认为None即不启用
TF_SERVING) 如果标签发生变化 当数据集中的标签发生变化时,需要执行如下语句。此语句需在“mox.run”之前运行。 语句中的“logits”,表示根据不同网络中分类层权重的变量名,配置不同的参数。此处填写其对应的关键字。 mox.set_flag('checkpoint_exclude_patterns'
llava-onevision-qwen2-0.5b-ov-hf 2 8 1 8 75 llava-onevision-qwen2-7b-ov-hf 2 8 1 8 “-”表示不支持。 父主题: 附录
scripts/llama2/0_pl_pretrain_13b.sh 等待模型载入 执行训练启动命令后,等待模型载入,当出现“training”关键字时,表示开始训练。训练过程中,训练日志会在最后的Rank节点打印。 图1 等待模型载入 最后,请参考查看日志和性能章节查看预训练的日志和性能。 父主题:
length。 --workers:设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。 输出数据预处理结果路径: 训练完成后,以 llama2-13b
length。 --workers:设置数据处理使用执行卡数量 / 启动的工作进程数。 --log-interval:是一个用于设置日志输出间隔的参数,表示输出日志的频率。在训练大规模模型时,可以通过设置这个参数来控制日志的输出。 输出数据预处理结果路径: 训练完成后,以 llama2-13b
turbo id。 表11 UpdateResult 参数 参数类型 描述 result Boolean 操作结果,true代表成功,false表示操作失败。 node_name String 边缘节点名称。 operation String 操作类型,取值: deploy:部署 delete:删除
插件代码包 AscendCloud-6.3.912软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明:
方便用户更清楚的了解服务部署和运行过程,遇到任务异常时,更加准确的排查定位问题。可查看的事件点包括: 表1 事件 事件类型 事件信息(“XXX”表示占位符,以实际返回信息为准) 解决方案 正常 开始部署服务。 Start to deploy service. - 异常 资源不足,等待资源释放。
并按(endTimeInMillis - durationInMinutes * 60 * 1000)计算开始时间。如:-1.-1.60(表示最近60分钟)约束:单次请求中,查询时长与周期需要满足以下条件: durationInMinutes * 60 / period <= 1440。
用于运维人员定位平台问题。 合并输出在日志文件modelarts-job-[job id]-[task id].log中。 task id表示实例ID,单节点时取值为worker-0,多节点时取值为worker-0、worker-1、...worker-{n-1},n为实例数。 样例:
进入Notebook列表,正在创建中的Notebook状态为“创建中”,创建过程需要几分钟,请耐心等待。当Notebook状态变为“运行中”时,表示Notebook已创建并启动完成。 打开运行中的Notebook实例。 图1 打开Notebook实例 通过功能,上传Dockerfile
模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6.3.908-xxx.zip 说明: 软件包名称中的xxx表示时间戳。 包含了本教程中使用到的模型训练代码、推理部署代码和推理评测代码。代码包具体说明请参见模型软件包结构说明。 获取路径:Support-E
型开发或训练。 数据集版本,默认按V001、V002递增规则进行命名,您也可以在发布时自定义设置。 您可以将任意一个版本设置为当前目录,即表示数据集列表中进入的数据集详情,为此版本的数据集标注信息。 针对每一个数据集版本,您可以通过“存储路径”参数,获得此版本对应的Manifes
他方式来启动。MA_RUN_METHOD环境变量支持torchrun和msrun。 当“MA_RUN_METHOD=torchrun”时,表示ModelArts Standard平台使用torchrun命令启动训练作业的“启动文件”。 要求PyTorch版本大于等于1.11.0。
obs:bucket:GetBucketPolicy obs:bucket:DeleteBucketPolicy √ √ 查询数据处理的算法类别 GET /v2/{project_id}/processor-tasks/items modelarts:processTask:getProcessTask