检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Turbo的连接状态信息。可选值如下: Active:SFS连通状态正常 Abnormal:SFS连通状态异常 ipAddr String SFS Turbo的访问地址。 状态码:400 表20 响应Body参数 参数 参数类型 描述 error_code String ModelArts错误码。 error_msg
continuous:指定时表示这个超参是连续类型的。连续类型的超参在算法使用于训练作业时,控制台显示为输入框。 - discrete:指定时表示这个超参是离散类型的。离散类型的超参在算法使用于训练作业时,控制台显示为下拉选择框架。 lower_bound 否 String 超参下界。 upper_bound
原因,根据构建失败的原因进行排查处理。 图1 查看构建日志 常见问题 模型文件目录下不能出现dockerfile文件; “查看构建日志”中显示“Not only a Dockerfile in your OBS path, please make sure, The dockerfile
PD分离部署性能调优理论基础 PD分离部署场景下,一般实例都加载相同模型。如何分配实例的初始属性,并根据实际需求动态调整实例属性。不合理的实例配比将造成Prefill实例等待空闲或Decode实例等待空闲,造成资源浪费,最终在MFU和端到端吞吐性能上产生劣化,无法发挥PD分离调度架构的优势。
为例,修改多机config.yaml模板中的${command}命令如下。多机启动需要在每个节点上执行。MASTER_ADDR为当前ssh远程主机的IP地址(私网IP)。 多机执行命令为:sh scripts/llama2/0_pl_lora_70b.sh <MASTER_ADDR=xx
置“最大无效实例数”设置并行升级的最大节点数,升级阶段节点无效。 修改在线服务参数时,可通过增加一个自定义的环境变量参数,触发服务重启。例如,如果服务原来部署在公共资源池,则修改环境变量后,服务可能会调度到新的公共资源池。 方式二:通过服务详情页面修改服务信息 登录ModelAr
AIGC代码包:AscendCloud-AIGC 算子依赖包:AscendCloud-OPP 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 支持的特性 表1 本版本支持的特性说明 分类 软件包特性说明
tebook中构建一个新镜像并用于模型部署。 登录ModelArts控制台,在左侧导航栏中选择“全局配置”,检查是否配置了访问授权。如果未配置,请先配置访问授权。参考使用委托授权完成操作。 登录ModelArts控制台,在左侧导航栏中选择“开发环境 > Notebook”,进入“Notebook”管理页面。
镜像适配的Cann版本是cann_8.0.RC3。 Server驱动版本要求23.0.6 PyTorch版本:2.2.0 Python版本:3.10 确保容器可以访问公网。 仅支持313T、376T、400T 训练支持的模型列表 本方案支持以下模型的训练,如表1所示。 表1 支持的模型列表及权重文件地址
镜像适配的Cann版本是cann_8.0.rc3。 Lite Server驱动版本要求23.0.6 PyTorch版本:2.1.0 确保容器可以访问公网。 文档更新内容 6.3.911版本相对于6.3.910版本新增如下内容: 文档中新增在数据预处理时,支持LLama-Factory格式的模板:
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4
aarch64 docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4
签。 图1 添加标签 用户也可以在ModelArts任务中添加标签时,创建新的标签,直接输入标签键和标签值即可。此处创建的标签仅当前的项目Project可见。不同的项目中查看不到。 Step3 在TMS中根据资源类型查询ModelArts资源使用情况 登录TMS控制台,在资源标签
构说明。 获取路径:Support-E,在此路径中查找下载ModelArts 6.3.912 版本。 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。 模型软件包结构说明 AscendCloud-6.3.912
操作步骤 在开始训练之前,需要完成数据标注,然后再开始模型的自动训练。 在新版自动学习页面,单击项目名称进入运行总览页面,单击数据标注节点的“实例详情”进入数据标注页面,完成数据标注。 返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。 模型将会
在单击“继续运行”按钮之前,请确保已标注的文本符合要求。 操作步骤 在新版自动学习页面,单击项目名称进入运行总览,单击“数据标注”节点的“实例详情”进入“数据标注”页面,完成数据标注。 图1 完成数据标注 返回新版自动学习页面,单击数据标注节点的“继续运行”,然后等待工作流按顺序进入训练节点。
费。 deploying:部署中,服务正在部署,调度资源部署等。 concerning:告警,后端实例异常,可能正在计费。例如多实例的情况下,有的实例正常,有的实例异常。正常的实例会产生费用,此时服务状态是concerning。 failed:失败,服务部署失败,失败原因可以查看事件和日志标签。
在统一身份认证服务页面的左侧导航选择“用户组”,在用户组页面查找待授权的用户组名称,在右侧的操作列单击“授权”,勾选步骤2创建的自定义策略,单击“下一步”,选择授权范围方案,单击“确定”。 此时,该用户组下的所有用户均有权限通过Cloud Shell登录运行中的训练作业容器。 如果没有用户组,也可以创建
镜像适配的Cann版本是cann_8.0.rc3。 Lite Server驱动版本要求23.0.6 PyTorch版本:2.1.0 确保容器可以访问公网。 文档更新内容 6.3.910版本相对于6.3.909版本新增如下内容: 文档中新增对Qwen2.5的适配(包括0.5B、7B, 14B
28。版本使用的容器引擎为Containerd。 镜像适配的Cann版本是cann_8.0.rc3,驱动版本是23.0.6。 确保集群可以访问公网。 文档更新内容 6.3.910版本相对于6.3.909版本新增如下内容: 文档中新增对Qwen2.5的适配(包括0.5B、7B, 14B