检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
应用示例 创建图像分类数据集并进行标注任务 创建并完成图像分类的智能标注任务 开发环境的应用示例 以PyTorch框架创建训练作业(新版训练) 创建和修改工作空间 管理ModelArts服务的委托授权
通过ModelArts控制台的总览页查看,具体请参见通过ModelArts控制台查看监控指标。 Standard训练作业:用户在运行训练作业时,可以查看训练作业占用的CPU、GPU或NPU资源使用情况。具体请参见训练资源监控章节。 Standard在线服务:用户将模型部署为在线服务后,可以通过监控功能查
资源ID二者的对应关系。详细操作如下所述: 查询资源ID。 登录ModelArts管理控制台,选择“模型训练 > 训练作业”,进入训练作业列表页面。在列表页选择要查看账单的训练作业,并复制作业ID。 根据查询到的作业ID拼接账单中上报的资源ID。 拼接规则:training_作业ID
Pod删除后,存储不会清理。 使用主机路径 OBS 适用于训练数据集的存储。 对象存储。常用OBS SDK进行样本数据下载。存储量大,但是离节点比较远,直接训练速度会比较慢,通常会先将数据拉取到本地cache,然后再进行训练任务。 静态挂载 动态挂载 SFS Turbo 适用于海量小文件业务场景。
ModelArts标注完样本集后,如何保证退出后不再产生计费? ModelArts自动学习所创建项目一直在扣费,如何停止计费? 如果不再使用ModelArts,如何停止收费? 训练作业如何收费? 为什么项目删除完了,仍然还在计费? 欠费后,ModelArts的资源是否会被删除? 部署后的AI应用是如何收费的? Not
代码运行常见错误 Notebook无法执行代码,如何处理? 运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 开发环境提示空间不足,如何解决? 如何处理使用opencv.imshow造成的内核崩溃? 使用Wind
ModelArts通过OBS的API访问OBS中的文件,算内网还是公网? 调用API提交训练作业后,能否绘制作业的资源占用率曲线? 如何使用API接口获取订阅算法的订阅id和版本id? 使用SDK如何查看旧版专属资源池列表? 调用API接口创建训练作业和部署服务时,如何填写资源池的参数?
代码运行故障 Notebook运行代码报错,在'/tmp'中到不到文件 Notebook无法执行代码,如何处理? 运行训练代码,出现dead kernel,并导致实例崩溃 如何解决训练过程中出现的cudaCheckError错误? 如何处理使用opencv.imshow造成的内核崩溃? 使用
更多功能咨询 在Notebook中,如何使用昇腾多卡进行调试? 使用Notebook不同的资源规格,为什么训练速度差不多? 使用MoXing时,如何进行增量训练? 在Notebook中如何查看GPU使用情况 如何在代码中打印GPU使用信息 Ascend上如何查看实时性能指标? 不
配置Standard专属资源池可访问公网 场景介绍 当您使用专属资源池创建作业时(如训练作业),如果需要作业运行过程中需要专属资源池访问外网,可打通VPC的方式,使得专属资源池和已绑定EIP的弹性云服务器处于同一VPC内,实现专属资源池访问外网。 前提条件 已拥有需要部署SNAT的弹性云服务器。
当节点标记该污点时,会将节点上容错(Failover)业务迁移走。 A050931 训练toolkit 预检容器 训练预检容器检测到GPU错误。 训练预检容器检测到GPU错误。 A050932 训练toolkit 预检容器 训练预检容器检测IB错误。 训练预检容器检测IB错误。 父主题: 资源池
如何通过ssh登录专属资源池节点? 训练任务的排队逻辑是什么? 专属资源池下的在线服务停止后,启动新的在线服务,提示资源不足 不同实例的资源池安装的cuda和驱动版本号分别是什么? 算法运行时需要依赖鉴权服务,公共资源池是否支持两者打通网络? 创建失败的专属资源池删除后,控制台为什么还能看到? 训练专属资源
确定”,删除Workflow。 删除后的Workflow无法恢复,请谨慎操作。 删除Workflow后,对应的训练作业和在线服务不会随之被删除,需要分别在“模型训练>训练作业”和“模型部署>在线服务”页面中手动删除任务。 父主题: 管理Workflow
何解决? 如何用ModelArts训练基于结构化数据的模型? 什么是区域、可用区? 在ModelArts中如何查看OBS目录下的所有文件? ModelArts数据集保存到容器的哪里? ModelArts支持哪些AI框架? ModelArts训练和推理分别对应哪些功能? 如何查看账号ID和IAM用户ID
exemlProjectTrain 自动学习项目的训练作业 exemlProjectVersion 自动学习项目的版本 workflow Workflow项目 pool 专属资源池 network 专属资源池网络连接 trainJob 训练作业 trainJobLog 训练作业的运行日志 trainJobInnerModel
建自定义大模型,才能进行模型训练和推理,才能获得更适合特定领域或任务的大语言模型。 在MaaS中创建模型 3 模型调优 完成数据集的准备后,可以在ModelArts Studio大模型即服务平台开始模型调优。模型调优,即使用训练数据集和验证数据集训练模型。 使用MaaS调优模型 模型压缩
举例,如果用户需要用OBS中的数据进行训练,当已经为IAM用户配置ModelArts训练权限时,仍需同时为其配置对应的OBS权限(读、写、列表),才可以正常使用。其中OBS的列表权限用于支持用户从ModelArts界面上选择要进行训练的数据路径;读权限主要用于数据的预览以及训练任务执行时的数据读取;写权限则是为了保存训练结果和日志。
description可选填 # 通过JobStep来定义一个训练节点,输入数据来源为OBS,并将训练结果输出到OBS中 job_step = wf.steps.JobStep( name="training_job", # 训练节点的名称,命名规范(只能包含英文字母、数字、下划线
历史API 数据管理(旧版) 开发环境(旧版) 训练管理(旧版)
举例,如果用户需要用OBS中的数据进行训练,当已经为IAM用户配置ModelArts训练权限时,仍需同时为其配置对应的OBS权限(读、写、列表),才可以正常使用。其中OBS的列表权限用于支持用户从ModelArts界面上选择要进行训练的数据路径;读权限主要用于数据的预览以及训练任务执行时的数据读取;写权限则是为了保存训练结果和日志。