检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
install mindstudio-probe msprobe使用手册 性能调优 PyTorch Profiler 性能采集工具,在训练脚本中调用Ascend PyTorch Profiler接口,可在训练过程中采集性能数据文件,包括PyTorch层算子信息、CANN层算子信息、底层
确保容器可以访问公网。 步骤一:准备环境 请参考Lite Server资源开通,购买Lite Server资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169
请求参数 表3 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户Token。通过调用IAM服务获取用户Token接口获取(响应消息头中X-Subject-Token的值)。 响应参数 状态码:200 表4 响应Body参数
LabelAttribute 参数 参数类型 描述 default_value String 标签属性默认值。 id String 标签属性ID。可通过调用标签列表查询。 name String 标签属性名称。不能超过64个字符,不能包含字符!<>=&"'。 type String 标签属性类型。可选值如下:
5系列模型执行脚本的文件夹 |── ... |── dev_pipeline.sh # 系列模型共同调用的多功能的脚本 |──third-party/ # patch包 |──src/acs_train_solution/
5系列模型执行脚本的文件夹 |── ... |── dev_pipeline.sh # 系列模型共同调用的多功能的脚本 |──third-party/ # patch包 |──src/acs_train_solution/
LabelAttribute 参数 参数类型 描述 default_value String 标签属性默认值。 id String 标签属性ID。可通过调用标签列表查询。 name String 标签属性名称。不能超过64个字符,不能包含字符!<>=&"'。 type String 标签属性类型。可选值如下:
5系列模型执行脚本的文件夹 |── ... |── dev_pipeline.sh # 系列模型共同调用的多功能的脚本 |──third-party/ # patch包 |──src/acs_train_solution/
确保容器可以访问公网。 Step1 准备环境 请参考Lite Server资源开通,购买Lite Server资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169
Custom),显示引擎包地址。 运行环境 如果元模型来源于训练作业/对象存储服务(AI引擎为预置引擎),显示元模型依赖的运行环境。 容器调用接口 如果元模型来源于对象存储服务(AI引擎为Custom)/容器镜像,显示模型启动的协议和端口号。 推理代码 如果元模型来源于训练作业且
|── ... |── dev_pipeline.sh # 系列模型共同调用的多功能的脚本 |── install.sh # 环境部署脚本 |──llm_inference
|── ... |── dev_pipeline.sh # 系列模型共同调用的多功能的脚本 |── install.sh # 环境部署脚本
如果单张图片/csv文件超过文件12MB,会提示报错,建议调整文件大小使其符合要求,或联系技术支持人员调整文件大小限制。 “请求路径” 批量服务中调用模型的接口URL,表示服务的请求路径,此值来自模型配置文件中apis的url字段。 “映射关系” 如果模型输入是json格式时,系统将根据
非必填。表示训练step迭代次数,有默认值 seed 1234 随机种子数。每次数据采样时,保持一致。 save-interval 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_IT
置合理的“部署超时时间”,避免尚未启动完成被认为超时而导致部署失败。 图4 部署为在线服务 调用在线服务进行大模型推理,请求路径填写/v2/models/ensemble/infer,调用样例如下: { "inputs": [ { "name":
选择元模型存储的OBS路径。 OBS路径不能含有空格,否则创建模型会失败。 “AI引擎” 根据您选择的元模型存储路径,将自动关联出元模型使用的“AI引擎”。 “容器调用接口” 当“AI引擎”选择“Custom”时,才会显示该参数。 模型提供的推理接口所使用的协议和端口号,缺省值是HTTPS和8080,端口
故障节点可执行授权操作的事件类型和事件状态如表2所示。 表2 授权操作执行条件 事件类型 事件状态 可执行授权操作 系统维护 待授权 授权、重部署 本地盘恢复 待授权 授权、重部署 运维授权 待授权 授权 超节点维护 待授权 授权 超节点重部署 待授权 重部署 授权操作 当故障节点满足如表
请注意日志中不能包含隐私内容,否则会造成信息泄露。 下载 训练日志仅保留30天,超过30天会被清理。如果用户需要永久保存日志,请单击系统日志窗口右上角下载按钮下载日志至本地保存,支持批量下载多节点日志。用户也可以在创建训练作业时打开永久保存日志按钮,保存训练日志至指定OBS路径。 针对使用Ascend规格创建
非必填。表示训练step迭代次数,有默认值 seed 1234 随机种子数。每次数据采样时,保持一致。 save-interval 1000 用于模型中间版本地保存。 当参数值>=TRAIN_ITERS时,生成模型仅保存经过TRAIN_ITERS次训练后的最后一个版本。 当参数值<TRAIN_IT
|── ... |── dev_pipeline.sh # 系列模型共同调用的多功能的脚本 |── install.sh # 环境部署脚本