检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
经查看是由于userdata未执行,可能原因为服务器A制作镜像时没有清理残留目录导致,即: 镜像里面“/var/lib/cloud/instances”残留了制作镜像机器(后面称模板机)的实例ID信息,如果制作镜像不清理“/var/lib/cloud/*”就会导致用该镜像再重装模板机时,cloud-init
数据保护技术 ModelArts通过多种数据保护手段和特性,保障存储在ModelArts中的数据安全可靠。 数据保护手段 说明 静态数据保护 对于AI Gallery收集的用户个人信息中的敏感信息,如用户邮箱和手机号,AI Gallery在数据库中做了加密处理。其中,加密算法采用了国际通用的AES算法。
复制数据卡死 问题现象 调用mox.file.copy_parallel拷贝数据时卡死。 解决方案 拷贝文件和文件夹均可采用: import moxing as mox mox.file.set_auth(is_secure=False) 拷贝单个大文件5G以上时可采用: from
优点:支持深度自定义环境安装,可以方便的替换驱动、固件和上层开发包,具有root权限,结合配置指导、初始化工具及容器镜像可以快速搭建昇腾开发环境。 缺点:资源申请周期长,购买成本高,管理视角下资源使用效率较低。 环境开通指导参考:DevServer资源开通 环境配置指导参考:Snt9B裸金属服务器环境配置指南
可用区分布由系统后台随机选择。 选择指定AZ时,可指定扩缩容完成后节点的可用区分布。 图2 资源配置(单节点方式) 如果购买资源池时,节点数量采用整柜方式购买(部分规格支持),则在扩缩容时为整柜方式扩缩容,目标节点总数等于“数量*整柜”。“整柜”参数为创建资源池时选择,扩缩容时不
UTC'的毫秒数。 description String 模型描述信息。 source_type String 模型来源的类型,仅当模型为自动学习部署过来时有值,取值为“auto”。 父主题: 模型管理
“节点列表”,可查询节点的名称、规格及可用区。 更新节点池 当您想更新节点池配置时,可单击操作列的“更新”,相关参数介绍请参见Step6 购买Cluster资源。 需注意,更新节点池配置时,配置仅对新增的节点生效,其中仅节点池K8S标签及污点支持对存量节点同步改动(勾选对应的复选框)。
WORK_DIR=/home/ma-user/ws sh scripts/glm3/glm3_base.sh 多机启动 以GLM3-6B为例,多台机器执行训练启动命令如下。多机启动需要在每个节点上执行,以双机为例。 #第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=2
TP=8 PP=1 sh scripts/baichuan2/baichuan2.sh 多机启动 以baichuan2-13b为例,多台机器执行训练启动命令如下。多机启动需要在每个节点上执行,已双机为例。 #第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=2
WORK_DIR=/home/ma-user/ws sh scripts/qwen/qwen.sh 多机启动 以Qwen-14B为例,多台机器执行训练启动命令如下。多机启动需要在每个节点上执行,以双机为例。 #第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=2
该资产支持使用Gallery CLI配置工具下载,如图1所示。 图1 复制完整资产名称 “运行平台”设置为“Pangu Studio”的数据集,不支持使用CLI工具下载。 下载Gallery CLI配置工具包(本地) 如果是在本地服务器安装Gallery CLI配置工具,则参考本节将工具包下载至本地。
source_type String 模型来源的类型,仅当模型为自动学习部署过来时有值,取值为auto。 model_id String 模型id。 model_source String 模型来源。auto:自动学习;algos:预置算法;custom:自定义。 install_type
creation_timestamp String 实例的创建时间。 profile Object 配置信息,如表3所示。 flavor String 机器规格。 spec Object 实例定义。Notebook类型实例,数据结构如表11所示。 workspace Object 工作空间,如表16所示。
String 实例的更新时间。 profile Object 配置信息,如表12所示。 flavor String 机器规格。 flavor_details Object 机器规格详情,如表16所示。 pool Object 专属资源池,如表17所示。 spec Object 实例定义
gpu_duration", "quota" : 20, "min_quota" : -1, "name_cn" : "自动学习(图像分类、物体检测、声音分类)训练时长", "unit_cn" : "分钟", "name_en" : "ExeML training
"used_quota" : 5, "quota" : 10, "min_quota" : -1, "name_cn" : "自动学习(图像分类、物体检测、声音分类)训练时长", "unit_cn" : "分钟", "name_en" : "ExeMLtraining
annotation_property String 标注属性。 confidence Double 置信度,数值类型,范围0<=confidence<=1,表示机器标注的置信度。 creation_time String 创建该标注的时间。是用户写入标注的时间,不是Manifest生成时间。 annotated_by
String 实例的更新时间。 profile Object 配置信息,如表12所示。 flavor String 机器规格。 flavor_details Object 机器规格详情,如表16所示。 pool Object 专属资源池,如表17所示。 spec Object 实例定义
必填。训练脚本类型,retrain表示断点续训练。 在AscendSpeed代码目录下执行断点续训练脚本。 多机启动 以Llama2-70B为例,多台机器执行训练启动命令如下。多机启动需要在每个节点上执行,以8机为例。 #第一台节点 MASTER_ADDR=xx.xx.xx.xx NNODES=8
单击配额信息右侧的“修改配额”可以修改配额值。配置值的配置说明请参见表2。 表2 配额信息 配额名称 配额值说明 单位 自动学习(预测分析)训练时长 默认无限制,支持设置1~60000。 分钟 自动学习(图像分类、物体检测、声音分类)训练时长 默认无限制,支持设置1~60000。 分钟 训练作业GPU规