检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
推荐使用“西南-贵阳一”Region上的Server资源和Ascend Snt9B单机。 表1 环境要求 名称 版本 CANN cann_8.0.rc3 驱动 24.1.rc1 PyTorch 2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6
utosearch/yaml-templates 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 无 响应参数 状态码:200 表2 响应Body参数 参数 参数类型 描述 yaml_templates
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64
--install-for-all 安装完成后再使用如下命令查看是否安装正确。 npu-smi info -t board -i 1 | egrep -i "software|firmware" 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
bs/autosearch/yaml-templates/{algorithm_type}/{algorithm_name} 表1 路径参数 参数 是否必选 参数类型 描述 algorithm_type 是 String 搜索算法类型。 algorithm_name 是 String
workloads 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 作业所属的资源池。 请求参数 无 响应参数 状态码:200 表2 响应Body参数 参数
MetricsItem objects 指标列表。 表3 MetricsItem 参数 参数类型 描述 table table object 资源列表。 metadata ResourceMetricsMetadata object 资源指标的元信息。 表4 table 参数 参数类型 描述
作,请参见设置告警规则。 登录管理控制台。 在“服务列表”中选择“管理与监管 > 云监控服务”,进入“云监控服务”管理控制台。 在左侧导航栏,选择“云服务监控 > ModelArts”。 查看监控图表。 查看在线服务监控图表:单击目标在线服务“操作”列的“查看监控指标”。 查看模
ModelArts使用云监控服务(Cloud Eye Service, 简称CES)监控在线服务和对应模型负载,执行自动实时监控、告警和通知操作。CES的更多信息请参见《云监控服务用户指南》。 与云审计的关系 ModelArts使用云审计服务(Cloud Trace Service,
ModelArts使用云监控服务(Cloud Eye Service, 简称CES)监控在线服务和对应模型负载,执行自动实时监控、告警和通知操作。CES的更多信息请参见《云监控服务用户指南》。 与云审计的关系 ModelArts使用云审计服务(Cloud Trace Service,
管理模型训练作业 查看训练作业详情 查看训练作业资源占用情况 查看模型评估结果 查看训练作业事件 查看训练作业日志 修改训练作业优先级 使用Cloud Shell调试生产训练作业 重建、停止或删除训练作业 管理训练容器环境变量 查看训练作业标签 父主题: 使用ModelArts Standard训练模型
MoXing 使用MoXing复制数据报错 如何关闭Mox的warmup Pytorch Mox日志反复输出 moxing.tensorflow是否包含整个TensorFlow,如何对生成的checkpoint进行本地Fine Tune? 训练作业使用MoXing复制数据较慢,重复打印日志
9.0训练环境中tf-1.12训练会报该错。 编译环境和训练环境的cuda版本不一致时,可参考如下处理方法: 在业务执行前加如下命令,检查是否能找到so文件。如果已经找到so文件,执行2;如果没有找到,执行3。 import os; os.system(find /usr -name
但是达不到预期,可能是nv_peer_mem异常。 处理方法 查看nv_peer_mem是否已安装。 dpkg -i | grep peer 如果未安装则需要安装,安装方法参考装机指导。 如果已安装则进入下一检测项。 查看该软件是否已经加载至内核。 lsmod | grep peer 如果没有则需要重新加载至内核,执行如下命令进行加载:
Snt9B和300IDUO。 获取软件和镜像 表1 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6.3.912软件包中的AscendCloud-AIGC-6.3.912-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获
填写参数(2) 当AI应用状态变为正常时,表示创建完成。 图6 AI应用创建完成 步骤五 部署服务 单击AI应用名称,进入AI应用详情页,单击部署在线服务。 图7 部署在线服务 填写如下服务部署参数。 名称: 服务的名称,按照实际需要填写 是否自动停止:如果配置自动停止,服务会按照配
--served-model-name: 选择性添加,在接口中使用的模型名;如果没有配置,则默认为tokenizer。 脚本运行完成后,测试结果保存在benchmark_parallel.csv中,示例如下图所示。 图1 静态benchmark测试结果(示意图) 动态benchmark
lora微调不支持断点续训 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持一致,不一致则修改latest_checkpointed_iteration.txt内容与iter_000xxxx保持一致。
如何查看ModelArts消费详情? 如果不再使用ModelArts,如何停止收费? 为什么项目删除完了,仍然还在计费? 欠费后,ModelArts的资源是否会被删除? ModelArts Standard数据管理相关计费FAQ ModelArts Standard自动学习所创建项目一直在扣费,如何停止计费?
所有超参搜索算法的列表。 表3 search_algo_list 参数 参数类型 描述 name String 超参搜索算法的名称。 params Array of params objects 超参搜索算法的参数列表。 description String 超参搜索算法的描述。 表4 params