检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ServerDataVolume object 服务器数据盘信息。 server_type 否 String 服务器类型。枚举值如下: BMS:裸金属服务 ECS:弹性云服务 HPS:超节点服务 userdata 否 String 创建服务器时,用户自己定义数据。 hps_cluster_id 否 String
区域。 “Project”:Region选择后,Project自动填充为Region对应的项目。 “Access Key ID”:填写访问密钥的AK。 “Secret Access Key”:填写访问密钥的SK。 图2 填写区域和访问密钥 查看认证结果。 在Event Log区域
前提条件 已开通云审计服务。 数据管理支持审计的关键操作列表 表1 数据管理支持审计的关键操作列表 操作名称 资源类型 事件名称 创建数据集 dataset createDataset 删除数据集 dataset deleteDataset 更新数据集 dataset updateDataset
3_unfiltered_cleaned_split.json 如果使用其他数据集,需要先执行步骤二:非sharegpt格式数据集转换(可选)转换数据集格式为sharegpt格式。 执行如下脚本将sharegpt格式数据生成为训练data数据集。 python allocation.py \ --outdir
3_unfiltered_cleaned_split.json 如果使用其他数据集,需要先执行步骤二:非sharegpt格式数据集转换(可选)转换数据集格式为sharegpt格式。 执行如下脚本将sharegpt格式数据生成为训练data数据集。 python allocation.py \ --outdir
mmlu_subject_mapping.json # mmlu数据集学科信息 │ ├── ceval_subject_mapping.json # ceval数据集学科信息 ├── evaluators │ ├── evaluator.py # 数据集数据预处理方法集 │ ├── chatglm
Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS
Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS
Turbo内的目录与OBS对象存储桶进行关联,然后通过创建导入导出任务实现数据同步。通过OBS与SFS Turbo存储联动,可以将最新的训练数据导入到SFS Turbo,然后在训练作业中挂载SFS Turbo到容器对应ckpt目录,实现分布式读取训练数据文件。 创建SFS Turbo文件系统前提条件: 创建SFS
HCE2.0(推荐)/EulerOS 2.10 Lite模式Cluster节点操作系统 EulerOS 2.10(CCE标准版)/HCE2.0(CCE Turbo) Standard模式集群节点操作系统 EulerOS 2.10(CCE标准版) NPU固件&驱动 7.1.0.9.220-23
”与代码目录共用资源,不同资源规格有不同的容量。 k8s磁盘的驱逐策略是90%,所以可以正常使用的磁盘大小应该是“cache目录容量 x 0.9”。 裸机的本地磁盘为物理磁盘,无法扩容,如果存储的数据量大,建议使用SFS存放数据,SFS支持扩容。 GPU规格的资源 表1 GPU cache目录容量
Lite k8s Cluster和昇腾Snt9B资源。 本文档中的CCE集群版本选择v1.27~1.28。版本使用的容器引擎为Containerd。 推理部署使用的服务框架是vLLM。vLLM支持v0.6.0版本。 支持FP16和BF16数据类型推理。 Lite k8s Cluster驱动版本推荐为23
注意:创建的ECS虚拟机使用ARM镜像创建。 图1 购买ECS 安装Docker。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker 配置IP转发,用于容器内的网络访问。执行以下命令查看net
时(如对训练精度不满意),您可以适当增加高质量的数据,或者增减标签,然后再次进行训练。 增量训练目前仅支持“图像分类”、“物体检测”、“声音分类”类型的自动学习项目。 为提升训练效果,建议在增量训练时,选择质量较高的数据,提升数据标注的质量。 增量训练的操作步骤 登录ModelA
msprobe梯度监控 梯度监控工具提供了将模型梯度数据导出的能力。使用梯度监控工具,可以实现对训练过程模型每一层梯度信息进行监控,目前支持两种能力: 将模型权重的梯度数据导出。这种功能可以将模型权重的梯度值以统计量的形式采集出来,用以分析问题,例如检测确定性问题,使用训练状态监
启动pod成功 执行如下命令查看pod日志,如果打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明: ${pod_name}:pod名,例如图1${pod_name}为yourapp-87d9b5b46-c46bk。 图2 启动服务成功
启动pod成功 执行如下命令查看pod日志,如果打印类似下图信息表示服务启动成功。 kubectl logs -f ${pod_name} 参数说明: ${pod_name}:pod名,例如图1${pod_name}为yourapp-87d9b5b46-c46bk。 图2 启动服务成功
输入GitHub中Personal Access Token信息。 查看Personal Access Token步骤如下: 登录Github,打开设置页面。 单击“Developer settings”。 单击“Personal access tokens > Generate
描述 是否必填 数据类型 infer_type 推理方式:取值可为real-time/batch/edge。默认为real-time。 real-time代表在线服务,将模型部署为一个Web Service。 batch为批量服务,批量服务可对批量数据进行推理,完成数据处理后自动停止。
设置python路径的环境变量)。 测试训练启动脚本。 优先使用手工进行数据复制的工作并验证 一般在镜像里不包含训练所用的数据和代码,所以在启动镜像以后需要手工把需要的文件复制进去。建议数据、代码和中间数据都放到"/cache"目录,防止正式运行时磁盘占满。建议linux服务器申