检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
建议容器分层构建,单层容量不要超过1G、文件数不大于10w个。分层时,先构建不常变化的层,例如:先OS,再cuda驱动,再Python,再pytorch,再其他依赖包。 如果训练数据和代码经常变动,则不建议把数据、代码放到容器镜像里,避免频繁地构建容器镜像。 容器已经能满足隔离需求,不建议在容器内再创建多个conda
必选,选择训练需要的资源类型。当训练代码中已定义资源类型时,则根据算法的约束条件选择合适的资源类型。例如,训练代码中定义的资源类型为CPU,这里选择其他类型时会导致训练失败。如果部分资源类型不可见或不可选,表示不支持。 Ascend资源仅在“华北-北京四”可用。 实例规格 必选,根据不同的资源类型,选择所需的资源规格。
”实例。 图1 选择指标源 通过“全量指标”或“按普罗语句添加”方式选择一个或多个关注的指标。 图2 添加指标 关于更多指标浏览方法请参考华为云帮助中心“应用运维管理 AOM> 用户指南(2.0)> 指标浏览”。 容器级别的指标介绍 表1 容器级别的指标 分类 名称 指标 指标含义
-i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。 检查docker是否安装。
-i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。 检查docker是否安装。
-i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 驱动版本要求是23.0.6。如果不符合要求请参考安装固件和驱动章节升级驱动。 检查docker是否安装。
建议容器分层构建,单层容量不要超过1G、文件数不大于10w个。分层时,先构建不常变化的层,例如:先OS,再cuda驱动,再Python,再pytorch,再其他依赖包。 如果训练数据和代码经常变动,则不建议把数据、代码放到容器镜像里,避免频繁地构建容器镜像。 容器已经能满足隔离需求,不建议在容器内再创建多个conda
flavor_info FlavorInfoResponse object 资源规格详细信息。 attributes Map<String,String> 其他规格属性。 表81 FlavorInfoResponse 参数 参数类型 描述 max_num Integer 可以选择的最大节点数量(max_num,为1代表不支持分布式)。