检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
以Ascend Model Zoo为例,介绍如何通过VS Code插件及ModelArts Notebook进行云端数据调试及模型开发。 方案优势 云端开发调试优势: 环境保持一致 配置一键完成 代码远程调试 资源按需使用 准备工作 下载VS Code IDE,下载路径:开源Visual
GPU裸金属服务器无法Ping通如何解决 问题现象 在华为云使用GPU裸金属服务器时, 服务器绑定EIP(华为云弹性IP服务)后,出现无法ping通弹性公网IP现象。 原因分析 查看当前GPU裸金属服务器的安全组的入方向规则的配置,发现仅开通了TCP协议的22端口。 ping命令
用户通过ECS获取和上传基础镜像步骤拉取基础镜像并上传至SWR中。随后可通过使用基础镜像(二选一)、ECS中构建新镜像(二选一)的方式(二选一)来部署训练环境。方案的区别如下: 使用基础镜像(二选一):用户可在训练作业中直接选择基础镜像作为运行环境。但基础镜像中pip依赖包缺少或版本不匹配,因此每次创
【下线公告】华为云ModelArts MindStudio/ML Studio/ModelBox镜像下线公告 华为云ModelArts服务MindStudio,ML Studio,ModelBox镜像将在2024年6月30日00:00(北京时间)正式退市。 下线范围 下线Region:华为云全部Region
适配昇腾的Megatron-LM训练框架 |──ModelLink/ # ModelLink端到端的大语言模型方案 |——megatron/ # 注意:该文件夹从Megatron-LM中复制得到 |——..
GPU与昇腾资源为单卡时,cache目录保持500G大小限制;除单卡外,cache盘大小与卡数有关,计算方式为卡数*500G,上限为3T。详细表1所示。 表1 不同Notebook规格资源“/cache”目录的大小 规格类别 cache盘大小 GPU-0.25卡 500G*0.25
线下容器镜像构建及调试 镜像构建 导出conda环境 首先拉起线下的容器镜像: # run on terminal docker run -ti ${your_image:tag} 在容器中输入如下命令,得到pytorch.tar.gz: # run on container #
流水和明细账单”,在流水和明细账单页面,可切换“账单详情”和“明细账单”页签查看账单信息。 在“流水账单”列表页,罗列该账号下各种产品类型,每个任务产生的费用详细。您可以单击“操作 > 详情”,查看使用量详情。可拖动详情下方的进度条,查看“使用量”、“应付金额”等信息。 图1 流水账单 在“明细账单
数据进行预览,但是最多支持100条数据预览。 不同类型数据集支持的功能列表 其中,不同类型的数据集支持不同的功能,如智能标注、团队标注等。详细信息参考表1。 表1 不同类型的数据集支持的功能 数据集类型 标注类型 创建数据集 导入数据 导出数据 发布数据集 修改数据集 管理版本 智能标注
通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。, 通过训练日志排查问题 通过日志判断出问题的代码范围。 修改代码,在问题代码段添加打印,输出更详细的日志信息。 再次运行作业,判断出问题的代码段。 父主题: 业务代码问题
Server”,进入“节点 ”列表页面。 打开“查看所有”按钮,查看所有Server实例。 此时如果显示需要配置委托,请联系您的账号管理员为您配置委托权限,详细操作参考配置ModelaArts委托。 在弹性裸金属列表中,单击的“退订”,跳转至“退订资源”页面。 根据界面提示,确认需要退订的资源,并选择退订原因。
训练作业中的训练故障自动恢复功能包括: 训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。详细可了解:无条件自动重启。 选择用户自己的专属资源池,以及规格与节点数。防止训练过程
自定义:如果对用户有更精细化的权限管理需求,可使用自定义模式灵活按需配置ModelArts创建的委托权限。可以根据实际需在权限列表中勾选要配置的权限。 勾选“我已经详细阅读并同意《ModelArts服务声明》”,单击“创建”,完成委托授权配置。 父主题: 配置ModelArts基本使用权限
说明: 需要为消息通知服务中创建的主题添加订阅,当订阅状态为“已确认”后,方可收到事件通知。订阅主题的详细操作请参见添加订阅。 使用消息通知服务会产生相关服务费用,详细信息请参见计费说明。 自动停止 当使用付费资源时,可以选择是否打开“自动停止”开关。 开关关闭(默认关闭):表示任务将一直运行直至完成。
status 否 String 作业状态的查询,默认为所有状态,例如查看创建失败的作业,可选的“status”为“3”|“5”|“6”|“13”,详细作业状态列表请参见作业状态参考。 per_page 否 Integer 指定每一页展示作业的总量,默认为10,“per_page”可选的范围为[1,1000]。
配置后重启服务生效。 查看详细日志。 查看详细耗时日志可以辅助定位性能瓶颈,但会影响推理性能。如需开启,配置以下环境变量: export DETAIL_TIME_LOG=1 #打开打印详细日志 export RAY_DEDUP_LOGS=0 #打开打印详细日志 unset DETAIL_TIME_LOG
具有ModelArts所有权限。如果需要控制用户的详细权限,管理员可以通过IAM为用户组配置细粒度授权策略,使用户获得策略定义的权限,操作对应云服务的资源。基于策略授权时,管理员可以按ModelArts的资源类型选择授权范围。详细的资源权限项可以参见API参考中的权限策略和授权项章节。
status 否 String 作业状态的查询,默认为所有状态,例如查看创建失败的作业,可选的“status”为“3”|“5”|“6”|“13”,详细作业状态列表请查看作业状态参考。 per_page 否 Integer 指定每一页展示作业的总量,默认为“10”,“per_page”可选的范围为[1,1000]。
通过关键代码段 + 退出码尝试去搜索引擎寻找解决办法。, 通过训练日志排查问题 通过日志判断出问题的代码范围。 修改代码,在问题代码段添加打印,输出更详细的日志信息。 再次运行作业,判断出问题的代码段。 父主题: 业务代码问题
创建训练作业界面无云存储名称和挂载路径排查思路 问题现象 创建训练作业界面没有云存储名称和挂载路径这两个选项。 原因分析 用户的专属资源池没有进行网络打通,或者用户没有创建过SFS。 处理方法 在专属资源池列表中,单击资源池“ID/名称”,进入详情页。单击右上角“配置NAS VPC”,检查是否开启了NAS