-
以PyTorch框架创建训练作业(新版训练) - AI开发平台ModelArts
“job_config”字段下的“code_dir”和“boot_file”分别为算法的代码目录和代码启动文件。代码目录为代码启动文件的一级目录。 “job_config”字段下的“inputs”和“outputs”分别为算法的输入输出管道。
-
属性总览 - AI开发平台ModelArts
可选值如下: dir:目录导入 manifest:按manifest文件导入 否 ImportTypeEnum included_labels 导入包含指定标签的样本。 否 Label的列表 label_format 标签格式,此参数仅文本类数据集使用。
-
自定义镜像简介 - AI开发平台ModelArts
根据您的实际需求编写Dockerfile文件构建自定义镜像。如何高效编写Dockerfile指导可参考SWR服务最佳实践。 如果您使用自定义镜像用于训练作业请参考示例训练作业自定义镜像规范。 如果您使用自定义镜像用于创建AI应用请参考示例创建AI应用的自定义镜像规范。
-
批量删除标签 - AI开发平台ModelArts
可选值如下: 0:只删除标签 1:删除标签及包含标签的样本 2:删除标签和包含标签的样本及其源文件 请求参数 表3 请求Body参数 参数 是否必选 参数类型 描述 labels 否 Array of Label objects 待删除标签列表。
-
创建超参搜索作业 - AI开发平台ModelArts
已在OBS创建至少1个空的文件夹,用于存储训练输出的内容。 由于训练作业运行需消耗资源,确保账户未欠费。 确保您使用的OBS目录与ModelArts在同一区域。 创建算法 进入ModelArts控制台,参考创建算法操作指导,创建自定义算法。
-
部署上线 - AI开发平台ModelArts
模型部署完成后,您可添加音频文件进行测试。在“自动学习”页面,选择服务部署节点,单击实例详情,进入“部署上线”界面,选择状态为“运行中”的服务版本,在“服务测试”区域单击“上传”,选择本地音频进行测试。 单击“预测”进行测试,预测完成后,右侧“预测结果”区域输出测试结果。
-
查询开发环境实例列表 - AI开发平台ModelArts
access_modes 否 String 挂载文件的访问权限,支持读写和只读两种方式,仅type为“obsfs”类型,该字段有效。
-
moondream2基于DevServer适配PyTorch NPU推理指导 - AI开发平台ModelArts
宿主机和容器使用不同的文件系统。work_dir为宿主机中工作目录,目录下存放着训练所需代码、数据等文件。container_work_dir为要挂载到的容器中的目录。为方便两个地址可以相同。 容器不能挂载到/home/ma-user目录,此目录为ma-user用户家目录。
-
ModelBox基本概念 - AI开发平台ModelArts
除内置功能单元外,ModelBox支持功能单元的自定义开发,支持的功能单元形式多样,如C/C++动态库、Python脚本、模型+Toml配置文件等。 流程图 ModelBox中用流程图(Graph)来表达应用逻辑。
-
查看Notebook实例事件 - AI开发平台ModelArts
事件描述 事件级别 NotebookUnhealthy 实例处于不健康状态 紧急 OutOfMemory 实例被OOM掉了 紧急 JupyterProcessKilled jupyter进程被killed掉了 紧急 CacheVolumeExceedQuota /cache目录文件大小超过最大限制
-
断点续训练 - AI开发平台ModelArts
加载上一步预训练后保存的权重文件。 请根据实际规划修改。 TRAIN_ITERS 300 必填。表示训练周期,必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型,retrain表示断点续训练。
-
断点续训练 - AI开发平台ModelArts
加载上一步预训练后保存的权重文件。 请根据实际规划修改。 TRAIN_ITERS 300 必填。表示训练周期,必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型,retrain表示断点续训练。
-
断点续训练 - AI开发平台ModelArts
表1 断点续训练修改参数 参数 参考值 参数说明 CKPT_LOAD_DIR /home/ma-user/ws/saved_dir_for_ma_output/BaiChuan2-13B/pretrain 加载上一步预训练后保存的权重文件。
-
使用大模型创建AI应用部署在线服务 - AI开发平台ModelArts
操作事项 申请扩大AI应用的大小配额和使用节点本地存储缓存白名单 上传模型数据并校验上传对象的一致性 创建专属资源池 创建AI应用 部署在线服务 申请扩大AI应用的大小配额和使用节点本地存储缓存白名单 服务部署时,默认情况下,动态加载的模型包位于临时磁盘空间,服务停止时已加载的文件会被删除
-
训练容错检查 - AI开发平台ModelArts
图6 设置API 检测项目与执行条件 检测项目 item(日志关键字) 执行条件 检测成功要求 域名检测 dns 无 volcano容器的域名都解析成功(/etc/volcano下的“.host”文件中的域名解析成功) 磁盘空间-容器根目录 disk-size root 无 大于32GB
-
性能调优五板斧 - AI开发平台ModelArts
如果取消优先编译,会优先查找当前编译好的算子二进制配置文件,如果存在则不在线编译算子;如果不存在,再进行在线编译。此时虽然编译优化少,但是没有编译时间,模型训练性能大概率比配置为优先编译高。 总结: 如果模型中无动态shape,启动优先在线编译,可提高训练性能。
-
华为云BMS GO SDK和Python脚本实现裸金属服务器的操作系统切换 - AI开发平台ModelArts
model" region "github.com/huaweicloud/huaweicloud-sdk-go-v3/services/bms/v1/region" ) func main() { // 认证用的ak和sk硬编码到代码中或者明文存储都有很大的安全风险,建议在配置文件或者环境变量中密文存放
-
场景介绍 - AI开发平台ModelArts
准备权重 准备对应模型的权重文件。 准备代码 准备AscendCloud-3rdLLM-6.3.905-xxx.zip和AscendCloud-OPP-6.3.905-xxx.zip。 准备镜像 准备推理模型适用的容器镜像。
-
断点续训练 - AI开发平台ModelArts
加载上一步预训练后保存的权重文件。 请根据实际规划修改。 TRAIN_ITERS 300 必填。表示训练周期,必须大于上次保存训练的周期次数。 RUN_TYPE retrain 必填。训练脚本类型,retrain表示断点续训练。
-
免费体验AI全流程开发 - AI开发平台ModelArts
72小时内没有再次启动,会释放资源,请注意文件备份。 免费规格的资源是有限的,当使用人数较多时,会出现长时间的排队。如果希望获得更佳的体验,请选择付费规格。 使用“部署上线”功能时,可用的免费规格有2种,1个免费CPU规格,1个免费GPU规格。