检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
镜像中包含的依赖项的查询方法:在Terminal里执行如下命令。 pip list 统一镜像更新说明 表1 统一镜像更新说明 镜像名称 更新时间 更新说明 mindspore_2.3.0-cann_8.0.rc1-py_3.9-euler_2.10.7-aarch64-snt9b 2024-05-21
pipeline输出的结果图片进行对比,在这里保证输入图片及文本提示词一致。如果差异较为明显可以进行模型精度调优。 确认性能是否满足要求 在推理代码开始结尾处加入时间记录,并打印出推理执行耗时。根据用户需求判断性能是否满足要求,如果不满足可以进行性能调优。 import time start_time =
”、“GB”“TB”。 日志上传路径:AI诊断日志上传路径。 数据增加方式:当前支持乘法方式。 乘法系数:数值范围[2, 100]。 超过时间:数值范围[150, 3600]。 NCCL Test节点名称列表:不可为空,且被选择的节点须为可用状态。 单击“确认”,即可开始诊断。 父主题:
600:视频标注 900:自由格式 data_sources 是 表2 数据集输入位置,用于将此目录及子目录下的源数据(如图片/文件/音频等)同步到数据集。对于表格数据集,该参数为导入目录。表格数据集的工作目录不支持为KMS加密桶下的OBS路径。 work_path 是 表6 数据集
如果没有软件下载权限,请联系您所在企业的华为方技术支持下载获取。 ascendcloud-aigc-6.3.902-*.tar.gz文件名中的*表示具体的时间戳,以包名的实际时间为准。 Step1 准备环境 请参考DevServer资源开通,购买DevServer资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。
str、Placeholder model_version 模型的版本,格式需为“数值.数值.数值”,其中数值为1-2位正整数。该字段不填时,版本号自动增加。 注意: 版本不可以出现例如01.01.01等以0开头的版本号形式。 否 str、Placeholder runtime 模型运行时
方式四:使用Java语言发送预测请求。 约束限制 调用API访问在线服务时,对预测请求体大小和预测时间有限制: 请求体的大小不超过12MB,超过后请求会被拦截。 因APIG(API网关)限制,平台每次请求预测的时间不超过40秒。 前提条件 已经获取用户Token、预测文件的本地路径、在线服务的调用地址和在线服务的输入参数信息。
像。 镜像会以快照的形式保存,保存过程约5分钟,请耐心等待。此时不可再操作实例。 图2 保存镜像 快照中耗费的时间仍占用实例的总运行时长,如果在快照中时,实例因运行时间到期停止,将导致镜像保存失败。 镜像保存成功后,实例状态变为“运行中”,用户可在“镜像管理”页面查看到该镜像详情。
包括MindSpore、PyTorch。适用于开发环境,模型训练,服务部署,请参考统一镜像列表。表1、表2所示镜像仅发布在西南-贵阳一区域。 表1 MindSpore 预置镜像 适配芯片 适用范围 mindspore_2.2.0-cann_7.0.1-py_3.9-euler_2
CCL环境变量,如表2所示。 表2 建议增加的环境变量 环境变量 建议值 说明 NCCL_IB_TIMEOUT 18 用于控制IB通信超时时间,算法为“4.096 µs * 2 ^ timeout”。如出现NCCL通信超时问题可适当调大,最大可调整至22。较大的值可能会影响性能,设置为18相对平衡。
String 指定查询的排序方式,默认是作业参数名称“config_name”,目前支持的排序还有作业参数描述“config_desc”及参数创建时间 “create_time”。sample的配置类型不支持“create_time”的排序方式。 order 否 String 可选值有以下两种。
指定查询的排序方式,默认是作业名称作业id“job_id” ,目前支持的排序还有作业名称“job_name”,作业描述“job_desc”,创建时间“create_time” ,作业状态“status”。 order 否 String 可选值。 “asc”为递增排序,默认为“asc”。
分类 名称 获取路径 插件代码包 AscendCloud-3rdAIGC-6.3.905-xxx.zip 文件名中的xxx表示具体的时间戳,以包名的实际时间为准。 获取路径:Support-E 如果没有软件下载权限,请联系您所在企业的华为方技术支持下载获取。 基础镜像包 swr.cn-southwest-2
AscendCloud-6.3.908软件包中的AscendCloud-AIGC-6.3.908-xxx.zip 文件名中的xxx表示具体的时间戳,以包名发布的实际时间为准。 获取路径:Support-E 说明: 如果上述软件获取路径打开后未显示相应的软件信息,说明您没有下载权限,请联系您所在企业的华为方技术支持下载获取。
整个作业失败。 重复打印日志,该日志表示正在读取远端存在的文件,当文件列表读取完成以后,开始下载数据。如果文件比较多,那么该过程会消耗较长时间。 处理方法 在创建训练作业时,数据可以保存到OBS上。不建议使用TensorFlow、MXNet、PyTorch的OBS接口直接从OBS上读取数据。
用内存,导致磁盘空间不足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,一般接近存储容量,请排查回收站占用内存。
s.py 问题4:Error waiting on exit barrier错误 错误截图: 报错原因:多线程退出各个节点间超时时间默认为300s,时间设置过短。 解决措施: 修改容器内torch/distributed/elastic/agent/server/api.py文件参数:
部署,需要先联系您所在企业的华为方技术支持。 适配的CANN版本是cann_8.0.rc2,驱动版本是23.0.5。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,只有llama3-8B/70B支持该功能。 本案例仅支持在专属资源池上运行。 支持的模型列表 本方案支持以下模型的训练,如表1所示。
wf.AlgorithmParameters(name="save_model_secs", value=wf.Placeholder(name="save_model_secs", placeholder_type=wf.PlaceholderType.INT, default=60
Storage Service)作为存储的方案,OBS用于存储模型文件、训练数据、代码、日志等,提供了高可靠性的数据存储解决方案。 约束限制 如果要使用自动重启功能,资源规格必须选择八卡规格,只有llama3-8B/70B支持该功能。 本案例仅支持在专属资源池上运行。 支持的模型列表 本方案支持以下模型的训练,如表1所示。