检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Step2 创建镜像组织 在SWR服务页面创建镜像组织。 图1 创建镜像组织 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配
像、构建镜像等操作均在该ECS上进行。 图2 CloudShell远程登录界面 Step3 安装Docker 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配
华为云云商店是软件及服务交易交付平台。云商店AI专区汇聚优质的人工智能服务提供商,提供丰富的人工智能解决方案、应用、API及算法模型,助力用户快速部署、接入、调用相关应用,方便地购买和使用算法模型。 发布至云商店AI专区的模型为商业售卖资产。买家需购买商品的使用配额进行有偿使用。
训练作业的运行脚本存储在OBS中。 训练作业输出的模型存储在指定的OBS中。 训练作业的过程日志存储在指定的OBS中。 AI应用管理 训练作业结束后,其生成的模型存储在OBS中,创建AI应用时,从OBS中导入已有的模型文件。 部署上线 将存储在OBS中的模型部署上线。 全局配置 - 获取访问授权(
引入MoXing Framework。 在已有的“modelarts-test08/moxing”目录下,创建一个“test01”文件夹。 调用代码检查“test01”文件夹是否存在,如果存在,表示上一个操作已成功。 1 2 3 4 import moxing as mox mox.file
建SFS Turbo文件系统。 图1 创建SFS Turbo 其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图2 SFS类型和容量选择 ModelArts网络关联SFS
建SFS Turbo文件系统。 图1 创建SFS Turbo 其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图2 SFS类型和容量选择 ModelArts网络关联SFS
ModelArts支持在开发环境中开启MindInsight可视化工具。在开发环境中通过小数据集训练调试算法,主要目的是验证算法收敛性、检查是否有训练过程中的问题,方便用户调测。 MindInsight能可视化展现出训练过程中的标量、图像、计算图以及模型超参等信息,同时提供训练
详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS Turbo 其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图2 SFS类型和容量选择 创建ECS服务器 弹性云服务器(Elastic
详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS Turbo 其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图2 SFS类型和容量选择 创建ECS服务器 弹性云服务器(Elastic
详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS Turbo 其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图2 SFS类型和容量选择 创建ECS服务器 弹性云服务器(Elastic
[worker-0] 训练环境预检中 [worker-0] [耗时: 秒] 预检完成 [worker-0] [耗时: 秒] 检查失败。发现异常: [worker-0] [耗时: 秒] 检查失败。发现错误: [worker-0] 训练代码下载中 [worker-0] [耗时: 秒] 训练代码下载完成
基于AIGC模型的GPU推理业务迁移至昇腾指导 场景介绍 迁移环境准备 pipeline应用准备 应用迁移 迁移效果校验 模型精度调优 性能调优 常见问题 父主题: GPU业务迁移至昇腾训练推理
如果要使用自动重启功能,资源规格必须选择八卡规格。 训练作业中的训练故障自动恢复功能包括: 训练容错检查(自动重启),帮助用户隔离故障节点,优化用户训练体验。详细可了解:训练容错检查 无条件自动重启,不管什么原因系统都会自动重启训练作业,提高训练成功率和提升作业的稳定性。详细可了解:无条件自动重启。
当用户使用自定义引擎时,默认开启动态加载,模型包与镜像分离,在服务部署时动态将模型加载到服务负载。 配置健康检查 大模型场景下导入的模型,要求配置健康检查,避免在部署时服务显示已启动但实际不可用。 图3 采用自定义引擎,开启动态加载并配置健康检查示例图 部署在线服务 部署服务时,需满足以下参数配置: 自定义部署超时时间
Code端的实例目录和云上目录不匹配。 原因分析 实例连接错误,可能是配置文件写的不规范导致连接到别的实例。 解决方案 检查用户.ssh配置文件(路径一般在“C:\Users\{User}\.ssh\config”下),检查每组配置文件是否规范:Host必须放在每组配置的第一行,作为每组配置的唯一ID。 如下,
详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS Turbo 其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图2 SFS类型和容量选择 创建ECS服务器 弹性云服务器(Elastic
详细操作指导请参考创建SFS Turbo文件系统。 图1 创建SFS Turbo 其中,文件系统类型推荐选用500MB/s/TiB或1000MB/s/TiB,应用于AI大模型场景中。存储容量推荐使用 6.0~10.8TB ,以存储更多模型文件。 图2 SFS类型和容量选择 创建ECS服务器 弹性云服务器(Elastic
创建训练作业时,提示ModelArts.2763 : 选择的支持实例无效,请检查请求中信息的合法性。 原因分析 用户选择的训练规格资源和算法不匹配。 例如:算法支持的是GPU规格,创建训练作业时选择了ASCEND规格的资源类型。 处理方法 查看算法代码中设置的训练资源规格。 检查创建训练作业时所选的资源规格是否正确,重新创建训练作业选择正确的资源规格。
模型准备,导出和保存确定格式的模型。 转换参数准备,准备模型业务相关的关键参数。 模型转换,包含模型转换、优化和量化等。 应用集成。 针对转换的模型运行时应用层适配。 数据预处理。 模型编排。 模型裁剪。 精度校验。 精度对比误差统计工具。 自动化精度对比工具。 网络结构可视化工具。