检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ToolKit创建多个作业同时训练? PyCharm ToolKit一次只能运行一个作业,运行第二个作业时需要手动将第一个作业停止。 父主题: PyCharm Toolkit使用
Code环境中执行Ctrl+Shift+P 搜show logs 选择Remote Server。 也可在如下截图的红框处切换至其他的Log 父主题: VS Code使用技巧
单击需要查看的事件“操作”列的“查看事件”,可以在弹窗中查看该操作事件结构的详细信息。 更多关于云审计服务事件结构的信息,请参见《云审计服务用户指南》。 父主题: 使用CTS审计ModelArts服务
设置训练故障优雅退出 使用场景 随着模型规模和数据集的急剧增长,需要利用大规模的训练集训练大规模的神经网络。在大规模集群分布式训练时,会遇到集群中某个芯片、某台服务器故障,导致分布式训练任务失败。优雅退出是指中断的训练任务支持自动恢复,并可以在上一次训练中断的基础上继续训练,而不用从头开始。
在“组织”下拉框中选择一个组织。如果没有组织,可以单击右侧的“立即创建”,创建一个组织。创建组织的详细操作请参见创建组织。 同一个组织内的用户可以共享使用该组织内的所有镜像。 镜像会以快照的形式保存,保存过程约5分钟,请耐心等待。此时不可再操作实例。 图2 保存镜像 快照中耗费的时间仍占用实
使用pip install时出现“没有空间”的错误 问题现象 在Notebook实例中,使用pip install时,出现“No Space left...”的错误。 解决办法 建议使用pip install --no-cache ** 命令安装,而不是使用pip install
自动模型优化(AutoSearch) 自动模型优化介绍 创建自动模型优化的训练作业 父主题: 使用ModelArts Standard训练模型
克隆GitHub开源仓库文件到JupyterLab 在Notebook的JupyterLab中,支持从GitHub开源仓库Clone文件。 通过JupyterLab打开一个运行中的Notebook。 单击JupyterLab窗口上方导航栏的ModelArts Upload Fil
二、未配置hosts文件或者hosts文件信息配置不正确 在本地PC的hosts文件中配置域名和IP地址的对应关系。 三、网络代理设置 如果用户使用的网络有代理设置要求,请检查代理配置是否正确。也可以使用手机热点网络连接进行测试排查。 检查代理配置是否正确。 图2 PyCharm网络代理设置 四、AK/SK不正确
管理批量推理作业 查看批量服务详情 查看批量服务的事件 管理批量服务生命周期 修改批量服务配置 父主题: 使用ModelArts Standard部署模型并推理预测
训练作业失败,如何使用开发环境调试训练代码? 在创建训练作业前,推荐您先使用ModelArts开发环境调试训练代码,避免代码迁移过程中的错误。 直接使用线上notebook环境调试请参考使用JupyterLab开发模型。 配置本地IDE(Pycharm或者VsCode)联接云上环境调试请参考使用本地IDE开发模型。
Grafana中可以自定义配置各种视图的仪表盘,ModelArts也提供了针对集群的配置模板。本章节通过使用ModelArts提供的模板查看指标和创建Dashboards查看指标的方式,说明如何进行仪表盘配置。Grafana的更多使用请参考Grafana官方文档。 准备工作 ModelArts提供了集群视图、
以添加或取消对应参数的使用情况图。 操作三:鼠标悬浮在图片上的时间节点,可查看对应时间节点的占用率情况。 图1 资源占用情况 表1 参数说明 参数 说明 cpuUsage cpu使用率。 gpuMemUsage gpu内存使用率。 gpuUtil gpu使用情况。 memUsage
ModelArts在线服务提供的API是一个标准的Restful API,可使用HTTPS协议访问。ModelArts提供了SDK用于调用在线服务API,SDK调用方式请参见《SDK参考》>“场景1:部署在线服务Predictor的推理预测”。 除此之外,您还可以使用常见的开发工具及开发语言调用此接口,建议通过互联网搜索并获取调用标准Restful
参数不同。当AI应用输入为JSON文件时,则需要根据配置文件生成映射文件;如果AI应用输入为文件时,则不需要。 批量服务只支持使用公共资源池,暂不支持使用专属资源池。 操作步骤 登录ModelArts管理控制台,在左侧导航栏中选择“模型部署 > 批量服务”,默认进入“批量服务”列表。
完成参数解析后,用户使用“data_url”、“train_url”代替算法中数据来源和数据输出所需的路径。 在创建训练作业时,填写输入路径和输出路径。 训练输入选择对应的OBS路径或者数据集路径;训练输出选择对应的OBS路径。 训练代码完整示例 训练代码示例中涉及的代码与您使用的AI引擎
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败常见问题
Parallel) 示例:创建DDP分布式训练(PyTorch+GPU) 示例:创建DDP分布式训练(PyTorch+NPU) 父主题: 使用ModelArts Standard训练模型
保存Notebook实例 动态扩充云硬盘EVS容量 动态挂载OBS并行文件系统 查看Notebook实例事件 Notebook cache盘告警上报 父主题: 使用Notebook进行AI开发调试
log”。 在日志中搜索“modelarts”,可以查看所有和PyCharm ToolKit相关的日志。 父主题: PyCharm Toolkit使用