检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
模型的输出参数集。 health ModelHealth object 模型健康检查接口信息 runtime String 模型运行时环境。 model_metrics String 模型精度信息。 source_type String 模型来源的类型,仅当模型为自动学习部署过来时有值,取值为auto。
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
r和昇腾Snt9b资源。 确保容器可以访问公网。 Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
看到此账号的委托配置信息。 步骤2:订阅模型 “商超商品识别”的模型共享在AI Gallery中。您可以前往AI Gallery,免费订阅此模型。 单击案例链接商超商品识别,进入模型详情页。 完成模型订阅。 在模型详情页,单击“订阅”,阅读并勾选同意《数据安全与隐私风险承担条款》
退订与退换货 在搜索框实例ID信息,确认信息无误后,单击右侧“退订资源”。 图5 搜索实例ID 根据界面提示,确认需要退订的资源,并选择退订原因。 确认退订信息无误后,勾选“我已确认……”和“资源退订后……”提示信息。 单击“退订”,再次根据界面信息确认要退订的资源。 再次单击“退订”,完成包年/包月资源的退订操作。
单击目标模型进入详情页面。 在详情页面您可以查看模型的“描述”、“交付”、“限制”、“版本”和“评论”等信息。 在详情页面单击“订阅”。 如果订阅的是非华为云官方资产,则会弹出“温馨提示”页面,勾选并阅读《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》后,单击“继续订阅”才能继续进行模型订阅。
check the service is https"} 部署在线服务使用的模型是从容器镜像中导入时,容器调用接口协议填写错误,会导致此错误信息。 出于安全考虑,ModelArts提供的推理请求都是https请求,从容器镜像中选择导入模型时,ModelArts允许使用的镜像提供https
弹性集群Cluster”,默认进入“Standard资源池”页面。 切换到“网络”页签,单击“创建”,弹出“创建网络”页面。 在“创建网络”弹窗中填写网络信息。 确认无误后,单击“确定”。 Modelarts专属资源池网络打通VPC。 在控制台左侧导航栏中选择“AI专属资源池 > 弹性集群Cluster”。
PoolMetadataDeletion object 资源池的metadata信息。 spec PoolSpecModel object 资源池的描述信息。 status PoolStatus object 资源池的状态信息。 表4 PoolMetadataDeletion 参数 参数类型 描述
named module_dir ImportError: No module named xxx 原因分析 训练作业导入模块时日志出现前两条报错信息,可能原因如下: 代码如果在本地运行,需要将“project_dir”加入到PYTHONPATH或者将整个“project_dir”安装到
rc3 驱动 23.0.6 PyTorch 2.1.0 Step1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
cann_8.0.rc2 PyTorch 2.1.0 步骤1 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
RC3 驱动 23.0.6 PyTorch 2.3.1 步骤一:检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
rc3 驱动 23.0.6 PyTorch 2.3.1 步骤一 检查环境 SSH登录机器后,检查NPU设备检查。运行如下命令,返回NPU设备信息。 npu-smi info # 在每个实例节点上运行此命令可以看到NPU卡状态 npu-smi info
查询工作空间列表 功能介绍 查询工作空间列表,响应消息体中包含详细信息。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1/{project_id}/workspaces
训练时,超参:window设置为60。训练完成并创建模型后,部署在线服务,进行预测,当预测的数据行数小于window超参值时,日志中有报错信息:ERROR: data is shorter than windows 。 处理方法 增加预测数据行数大于训练作业window超参值。 重建训练作业,修改window超参值。