检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
been published in the environment”,请到在线服务详情界面,“调用指南”页签中获取正确的API接口地址。 如果您在配置文件url中有定义路径,需要在API调用body体中调用路径后拼接自定义路径,例如:您定义url为“/predictions/poetry
明和训练的数据集预处理说明。 步骤二 修改训练超参配置 以Llama2-70b和Llama2-13b的SFT微调为例,执行脚本为0_pl_sft_70b.sh 和 0_pl_sft_13b.sh 。 修改模型训练脚本中的超参配置,必须修改的参数如表1所示。其他超参均有默认值,可以参考表1按照实际需求修改。
明和训练的数据集预处理说明。 步骤二 修改训练超参配置 以Llama2-70b和Llama2-13b的LoRA微调为例,执行脚本为0_pl_lora_70b.sh和0_pl_lora_13b.sh 。 修改模型训练脚本中的超参配置,必须修改的参数如表1所示。其他超参均有默认值,可以参考表1按照实际需求修改。
明和训练的数据集预处理说明。 步骤二 修改训练超参配置 以Llama2-70b和Llama2-13b的SFT微调为例,执行脚本为0_pl_sft_70b.sh 和 0_pl_sft_13b.sh 。 修改模型训练脚本中的超参配置,必须修改的参数如表1所示。其他超参均有默认值,可以参考表1按照实际需求修改。
具体原因。 镜像健康检查配置问题,需修复代码后重新制作镜像创建模型后部署服务。了解镜像健康接口配置请参考模型配置文件编写说明中health参数说明。 模型健康检查配置问题,需重新创建模型或者创建模型新版本,配置正确的健康检查,使用新的模型或版本重新部署服务。了解模型健康检查请参考
部署上线失败 出现此问题,一般是因为后台服务故障导致的,建议稍等片刻,然后重新部署在线服务。如果重试超过3次仍无法解决,请获取如下信息,并联系华为云技术支持协助解决故障。 获取服务ID。 进入“部署上线>在线服务”页面,在服务列表中找到自动学习任务中部署的在线服务,自动学习部署的
导入模型提示该账号受限或者没有操作权限 问题现象 在导入AI应用时,提示用户账号受限。 原因分析 提示用户账号受限,常见原因有如下几种: 导入模型账号欠费导致被冻结; 导入模型账号没有对应工作空间的权限; 导入模型账号为子账号,主账号没有给子账号赋予模型相关权限。 权限说明请参见:策略及授权项说明;
请参考如何创建密钥对? 购买虚拟私有云VPC 虚拟私有云可以为您构建隔离的、用户自主配置和管理的虚拟网络环境,操作指导请参考创建虚拟私有云和子网。 购买弹性云服务器ECS 如果您需要在服务器上部署相关业务,较之物理服务器,弹性云服务器的创建成本较低,并且可以在几分钟之内快速获得基
在SWR服务页面创建镜像组织。 图2 创建镜像组织 安装Docker。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
使用AI市场物体检测YOLOv3_Darknet53算法训练后部署在线服务报错 问题现象 使用AI市场物体检测YOLOv3_Darknet53算法进行训练,将数据集切分后进行部署在线服务报错,日志如下:TypeError: Cannot interpret feed_dict key
接,并进行双向数据传输。 前提条件 在线服务部署时需选择“升级为WebSocket”。 在线服务中的模型导入选择的镜像需支持WebSocket协议。 约束与限制 WebSocket协议只支持部署在线服务。 只支持自定义镜像导入模型部署的在线服务。 调用API访问在线服务时,对预测请求体大小和预测时间有限制:
项目创建完成后,将会自动跳转至自动学习页面,并开始运行。单击“数据标注”节点,当状态变为“等待操作”时,需要手动进行确认数据集中的数据标注情况,也可以对数据集中的数据进行标签的修改,数据的增加或删减。 图1 数据标注节点状态 图片标注 在新版自动学习页面的数据标注节点单击“实例详情”按钮,前往数据标注页面。 图2
容器调用接口:根据实际情况配置容器调用接口。 健康检查:保持默认。如果镜像中配置了健康检查则按实际情况配置健康检查。 图1 模型配置参数 单击“立即创建”,进入模型列表页,等模型状态变为“正常”,表示模型创建成功。 使用模型部署在线服务 登录ModelArts管理控制台,进入“模型部署 >在线服
Step3 为用户配置ModelArts的委托访问授权 配置完IAM权限之后,需要在ModelArts页面为子账号设置ModelArts访问授权,允许ModelArts访问OBS、SWR、IEF等依赖服务。 此方式只允许主用户为子账号进行配置。因此,本示例中,管理员账号需为所有用户完成访问授权的配置。
实时推理的部署及使用流程 在创建完模型后,可以将模型部署为一个在线服务。当在线服务的状态处于“运行中”,则表示在线服务已部署成功,部署成功的在线服务,将为用户提供一个可调用的API,此API为标准Restful API。访问在线服务时,您可以根据您的业务需求,分别确认使用何种认证
# 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。
# 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info -l | grep Total # 在每个实例节点上运行此命令可以看到总卡数 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。
(可选)工作空间配置 ModelArts支持设置子用户的细粒度权限、不同工作空间之间资源隔离。ModelArts工作空间帮您实现项目资源隔离、多项目分开结算等功能。 如果您开通了企业项目管理服务的权限,可以在创建工作空间的时候绑定企业项目ID,并在企业项目下添加用户组,为不同的用户组设置细粒度权限供组里的用户使用。
通信域内各rank结果一致,如AllReduce、AllGather等,利用这一特性,工具将多机模型训练中产生的通信输出存盘,并传输到同一节点来比较其一致性,从而确定模型中通信算子的精度是否存在问题。若已排除通信算子异常,则可能是由于网络层数增加放大了累积误差,需要使用精度比对等工具进一步分析。
录。后续安装Docker、获取镜像、构建镜像等操作均在该ECS上进行。 Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。