检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
WAITING表示训练任务准备中。 RUNNING表示正在训练。 FINISHED表示训练成功 FAILED表示训练失败。 STOPPED表示停止训练任务。 评估报告 单击可查看训练评估报告详情。 资源占用 显示训练算法CPU、GPU和RAM的占用情况。
产品优势 电信经验嵌入降低模型开发门槛 集成50+电信领域AI算子&项目模板提升训练效率,降低AI开发门槛,让开发者快速完成模型开发和训练 AutoML自动完成特征选择、超参选择及算法选择,提升模型开发效率 高效开发工具JupyterLab和WebIDE:交互式编码体验、0编码数据探索及云端编码及调试
使用模型训练服务快速训练算法模型 本文档以硬盘故障检测的模型训练为例,介绍模型训练服务使用的全流程,包括数据集、特征工程、模型训练、模型管理和模型验证,使开发者快速熟悉模型训练服务。
图5 模型包历史验证结果 父主题: 使用模型训练服务快速训练算法模型
将当前训练工程加入训练。 :返回到当前训练工程所在的“模型训练”页面。 训练任务:查看训练任务的运行状态。可以查看训练任务的运行日志以及训练报告,删除训练任务。也可以在任务执行过程中单击暂停训练任务。
表6 TrainingExperimentStatistic 参数 参数类型 描述 job_count Integer 当前实验下的训练作业总个数。 请求示例 创建实验。
单击“登录”,进入NAIE服务官网。 依次选择“AI服务 > AI服务 > 模型训练服务 > 模型训练服务”,进入模型训练服务介绍页面。 单击“进入服务”,进入模型训练服务页面。 父主题: 使用模型训练服务快速训练算法模型
四份预置数据集,分别如下所示: HardDisk-Detect_Train_Good.csv:无故障硬盘训练数据 HardDisk-Detect_Train_Fail.csv:故障硬盘训练数据 HardDisk-Detect_Test_Good.csv:无故障硬盘测试数据 HardDisk-Detect_Test_Fail.csv
图3 快速验证 父主题: 使用模型训练服务快速训练算法模型
进行模型训练时,主入口文件选择与训练工程同名的.py文件。 单击“上传”。 单击界面右上角的“训练”。 进入“训练任务配置”页面。 配置训练任务,如图5所示。 参数配置说明如下: AI引擎:AI算法运行平台。
描述 描述 模型训练任务的描述信息。 优化配置 AI引擎 AI引擎及AI引擎的Python版本。 计算节点规格 计算节点规格。 模型训练服务提供的计算节点资源,包括CPU和GPU。 用户可以单击选定计算节点资源,并在“计算节点个数”中配置计算节点资源的个数。
LLM 大语言模型(Large Language Model,简称LLM)是通过深度学习技术训练的人工智能模型,具备理解、生成和处理人类语言的能力。 技能 技能是在自动化和人工智能领域的应用程序。
如果用户当前不在模型训练服务首页,想要回到首页,请单击界面左上角的“模型训练”,从下拉框中选择“模型训练”。 父主题: 使用模型训练服务快速训练算法模型
job_id 是 String 训练作业的id,可通过创建训练作业生成的训练作业对象查询,如"job_instance.job_id",或从查询训练作业列表的响应中获得。
LoRA训练 本章节介绍SDXL&SD 1.5模型的LoRA训练过程。LoRA训练是指在已经训练好的模型基础上,使用新的数据集进行LoRA微调以优化模型性能的过程。 训练前需要修改数据集路径、模型路径。脚本里写到datasets路径即可。
输入租户名和密码,单击“登录”,进入NAIE服务官网。 首次登录后请及时修改密码,并定期修改密码。 依次选择“AI服务 > AI服务 > 模型训练服务 > 模型训练服务”,进入模型训练服务介绍页面。 单击“我要购买”,进入服务订购界面。 区域:为用户提供服务的华为云Region。
train_url 是 String 训练作业的输出文件OBS路径URL,默认为空,如:“/bucket/trainUrl/”。 log_url 否 String 训练作业的日志OBS输出路径URL,默认为空。如:“/usr/train/”。
compute_environment: LOCAL_MACHINE debug: false distributed_type: MULTI_NPU downcast_bf16: 'no' gpu_ids: all machine_rank: 0 main_training_function
sh diffusers_lora_train.sh 启动SDXL LoRA训练服务 使用ma-user用户执行如下命令运行训练脚本。 sh diffusers_sdxl_lora_train.sh 训练执行成功如下图所示。
子用户管理(管理员) 企业中避免不了多用户使用的场景,质检软件中提供创建多个子用户的功能,创建的子用户与企业管理员共享授权码状态,无需再次激活。 每个子用户可以绑定任意华为云账号资源。下面介绍子用户功能使用流程。 图1 子用户管理 子用户 企业管理员可以单击右上角“新增”按钮,根据弹窗中的提示输入对应内容