检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
删除算法 获取支持的超参搜索算法 创建训练作业 查询训练作业详情 更新训练作业描述 删除训练作业 终止训练作业 查询训练作业指定任务的日志(预览) 查询训练作业指定任务的日志(OBS链接) 查询训练作业指定任务的运行指标 查询训练作业列表 查询超参搜索所有trial的结果 查询超参搜索某个trial的结果
以通过指定模型输出进行可对比的误差分析(精度)。 精度测试 benchmark工具用于精度验证,主要工作原理是:固定模型的输入,通过benchmark工具进行推理,并将推理得到的输出与标杆数据进行相似度度量(余弦相似度和平均相对误差),得到模型转换后的精度偏差信息。使用benchmark进行精度比对的基本流程如下:
逐个替换模型,检测有问题的模型 该方式主要是通过模型替换,先定位出具体哪个模型引入的误差,进一步诊断具体的模型中哪个算子或者操作导致效果问题,模型替换原理如下图所示。通过设置开关选项(是否使用onnx模型),控制模型推理时,模型使用的是onnx模型或是mindir的模型。 图1 精度诊断流程
各个模型深度学习训练加速框架的选择 LlamaFactory框架使用两种训练框架: DeepSpeed和Accelerate都是针对深度学习训练加速的工具,但是它们的实现方式和应用场景有所不同。 DeepSpeed是一种深度学习加速框架,主要针对大规模模型和大规模数据集的训练。DeepSp
得更好的推理性能收益。 ModelArts针对上述使用场景,在给出系统化推理业务昇腾迁移方案的基础上,提供了即开即用的云上集成开发环境,包含迁移所需要的算力资源和工具链,以及具体的Notebook代码运行示例和最佳实践,并对于实际的操作原理和迁移流程进行说明,包含迁移后的精度和性能验证、调试方法说明。
加载带来的I/O挑战,华为云提供了基于对象存储服务OBS+高性能弹性文件服务SFS Turbo的AI云存储解决方案,如下图所示。 SFS Turbo HPC型支持和OBS数据联动,您可以通过SFS Turbo HPC型文件系统来加速对OBS对象存储中的数据访问,并将生成的结果数据
log”文件将会被自动上传至ModelArts训练作业的日志目录(OBS)。如果本地相应目录没有生成大小>0的日志文件,则对应的父级目录也不会上传。因此,PyTorch NPU的plog日志是按worker存储的,而不是按rank id存储的(这是区别于MindSpore的)。目前,PyTorch NPU并不依赖rank
常使用。 调用查看授权列表接口查看用户的授权信息。 在管理用户授权时,可以调用删除授权接口删除指定用户的授权或者删除全量用户的授权。 前提条件 已获取IAM的EndPoint和ModelArts的EndPoint。 确认服务的部署区域,获取项目名称和ID、获取帐号名和ID和获取用户名和ID。
方式进行调整优化。 优化原理 对于ModelArts提供的GPU资源池,每个训练节点会挂载500GB的NVMe类型SSD提供给用户免费使用。此SSD挂载到“/cache”目录,“/cache”目录下的数据生命周期与训练作业生命周期相同,当训练作业运行结束以后“/cache”目录下
须有8张卡。 本文档提供的调测代码中涉及到的OBS路径,请用户替换为自己的实际OBS路径。 本文档提供的调测代码是以PyTorch为例编写的,不同的AI框架之间,整体流程是完全相同的,只需要修改个别的参数即可。 DataParallel进行单机多卡训练的优缺点 代码简单:仅需修改一行代码。
标注任务管理 创建标注任务 查询数据集的标注任务列表 查询标注任务详情 父主题: 数据管理
算法名称。限制为1-64位只含数字、字母、下划线和中划线的名称。 description 否 String 对算法的描述,默认为“NULL”,字符串的长度限制为[0, 256]。 workspace_id 否 String 指定算法所处的工作空间,默认值为“0”。“0” 为默认的工作空间。 ai_project
Standard数据管理 ModelArts Standard数据管理提供了一套高效便捷的管理和标注数据框架。支持图片、文本、语音、视频等多种数据类型,涵盖图像分类、目标检测、音频分割、文本分类等多个标注场景,适用于计算机视觉、自然语言处理、音视频分析等AI项目场景。 ModelArts
如何查看账号ID和IAM用户ID 使用IAM账号登录华为云。 在页面右上方单击“控制台”,进入华为云管理控制台。 图1 控制台入口 在控制台右上角的账户名下方,单击“我的凭证”,进入“我的凭证”页面。 图2 我的凭证 在API凭证页面获取IAM用户名、用户ID、账号名和账号ID。 图3
使用样例的有标签的数据或者自己通过其他方式打好标签的数据放到OBS桶里,在modelarts中同步数据源以后看不到已标注,全部显示为未标注 OBS桶设置了自动加密会导致此问题,需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 父主题: Standard数据管理
进行了断开操作,SSH默认配置中不存在超时主动断连的动作,但是防火墙会关闭超时空闲连接(参考:http://bluebiu.com/blog/linux-ssh-session-alive.html),后台的实例运行是一直稳定的,重连即可再次连上。 解决方法 如果想保持长时间连接
返回一个资源特征与地址的列表用于用户终端(例如:浏览器)选择。 301 Moved Permanently 永久移动,请求的资源已被永久的移动到新的URI,返回信息会包括新的URI。 302 Found 资源被临时移动。 303 See Other 查看其它地址。 使用GET和POST请求查看。
使用SSH工具连接Notebook,服务器的进程被清理了,GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理,GPU显存没有释放;或者代码运行过程中内存溢出导致程序被清理,需要释放下显存,清理GPU,然后重新启动。为了避免进程结束引起的代码未保存,建议您每隔一段时间保存下代码输出至OBS桶或者容器
进行了断开操作,SSH默认配置中不存在超时主动断连的动作,但是防火墙会关闭超时空闲连接(参考:http://bluebiu.com/blog/linux-ssh-session-alive.html),后台的实例运行是一直稳定的,重连即可再次连上。 解决方法 如果想保持长时间连接
在CCE纳管过程中,需要通过cloudinit userdata机制拉取cce-agent,但是在服务器上查看没有拉cce-agent的动作,理论上该动作是cloudinit中的脚本在创建时自动执行的,可能是由于安装脚本没有注入userdata或者注入了但未执行。 经查看是由于userdata未执行,可能原