检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在ModelArts的Notebook中,如何使用昇腾多卡进行调试? 昇腾多卡训练任务是多进程多卡模式,跑几卡需要起几个python进程。昇腾底层会读取环境变量:RANK_TABLE_FILE,开发环境已经设置,用户无需关注。比如跑八卡,可以如下片段代码: export RANK_SIZE=8
准备代码 本教程中用到的训练推理代码和如下表所示,请提前准备好。 获取模型软件包和权重文件 本方案支持的模型对应的软件和依赖包获取地址如表1所示,模型列表、对应的开源权重获取地址如表1所示。 表1 模型对应的软件包和依赖包获取地址 代码包名称 代码说明 下载地址 AscendCloud-6
run”之前运行。 语句中的“logits”,表示根据不同网络中分类层权重的变量名,配置不同的参数。此处填写其对应的关键字。 mox.set_flag('checkpoint_exclude_patterns', 'logits') 如果使用的是MoXing内置网络,其对应的关键字需使用如下
如何将Keras的.h5格式的模型导入到ModelArts中? ModelArts不支持直接导入“.h5”格式的模型。您可以先将Keras的“.h5”格式转换为TensorFlow的格式,然后再导入ModelArts中。 从Keras转TensorFlow操作指导请参见其官网指导。
为自定义的值。 选择左侧导航栏的“总览”,单击页面右上角的“登录指令”,在弹出的页面中单击复制登录指令。 此处生成的登录指令有效期为24小时,如果需要长期有效的登录指令,请参见获取长期有效登录指令。获取了长期有效的登录指令后,在有效期内的临时登录指令仍然可以使用。 登录指令末尾的
xx为Grafana的所在宿主机的IP地址 图1 Prometheus 在HTTP的URL输入框中输入Prometheus的IP地址和端口号,单击Save&Test: 图2 IP地址和端口号 至此,指标监控方案安装完成。指标监控效果展示如下: 图3 指标监控效果 这里使用的是Grafan
自如何获取ModelArts训练容器中的文件实际路径? 如果容器中的文件实际路径不清楚,可以使用Python获取当前文件路径的方法获取。 os.getcwd() #获取文件当前工作目录路径(绝对路径) os.path.realpath(__ file __) #获得文件所在的路径(绝对路径)
对于获取用户Token接口,您可以从接口的请求部分看到所需的请求参数及参数说明。将消息体加入后的请求如下所示,加粗的斜体字段需要根据实际值填写,其中user_name为用户名,domain_name为用户所属的账号名,user_password为用户登录密码,cn-north-1为项目名称,获取方法请参
为自定义的值。 选择左侧导航栏的“总览”,单击页面右上角的“登录指令”,在弹出的页面中单击复制登录指令。 此处生成的登录指令有效期为24小时,如果需要长期有效的登录指令,请参见获取长期有效登录指令。获取了长期有效的登录指令后,在有效期内的临时登录指令仍然可以使用。 登录指令末尾的
在ModelArts训练时如何安装C++的依赖库? 在训练作业的过程中,会使用到第三方库。以C++为例,请参考如下操作步骤进行安装: 将源码下载至本地并上传到OBS。使用OBS客户端上传文件的操作请参见上传文件。 将上传到OBS的源码使用Moxing复制到开发环境Notebook中。
希望提升训练效率,同时减少与对象存储OBS的交互。可通过如下方式进行调整优化。 优化原理 对于ModelArts提供的GPU资源池,每个训练节点会挂载500GB的NVMe类型SSD提供给用户免费使用。此SSD挂载到“/cache”目录,“/cache”目录下的数据生命周期与训练作业生命周期相同,当训练作
SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 uri String 实例私有IP地址。 表6 ServerImageResponse
SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 uri String 实例私有IP地址。 表6 ServerImageResponse
图5 报错信息 ECS、BMS节点创建失败? 查看资源池失败报错信息: 包含错误码,如:Ecs.0000时,可查看弹性云服务器 ECS_错误码查看详细的错误信息及处理措施。 包含错误码,如:BMS.0001时,可查看裸金属服务器 BMS_错误码查看详细的错误信息及处理措施。 包含错误码,如:CCE
创建Notebook文件后,右上角的Kernel状态为“No Kernel”如何处理? 问题现象 现象:创建Notebook文件后,右上角的Kernel状态为“No Kernel”。 原因分析 可能因为用户工作目录下的code.py和创建kernel依赖的import code文件名称冲突。
查看Notebook实例事件 在Notebook的整个生命周期,包括实例的创建、启动、停止、规格变更等关键操作以及实例的运行状态等在后台都有记录,用户可以在Notebook实例详情页中查看具体的事件,通过实例的事件,从而看到实例的运行或者异常等状态详情。在右侧可以手动刷新事件,也
SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 uri String 实例私有IP地址。 表8 ServerImageResponse
SSH密钥对名称列表,允许设置多个密钥对实现同时对SSH实例的访问。 service String 访问Notebook的途径,枚举值如下: NOTEBOOK:可以通过https协议访问Notebook。 SSH:可以通过SSH协议远程连接Notebook。 uri String 实例私有IP地址。 表7 ServerImageResponse
就绪探针:用于检测应用实例是否已经准备好接收流量。如果就绪探针失败,即实例未准备好,会从服务负载均衡的池中剔除该实例,不会将流量路由到该实例,直到探测成功。 存活探针:用于检测应用实例内应用程序的健康状态。如果存活探针失败,即应用程序不健康,将会自动重启实例。 每种探针下会显示以
时,均需要替换为此处实际创建的组织名称。 单击右上角“登录指令”,获取登录访问指令。 以root用户登录ECS环境,输入登录指令。 图1 在ECS中执行登录指令 Step2 上传镜像到SWR 此小节介绍如何上传镜像至容器镜像服务SWR的镜像仓库。 登录SWR后,使用docker