检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
parallel size)=2 PP(pipeline model parallel size)=4 1*节点 & 8*Ascend 16 Baichuan2 baichuan2-13b SEQ_LEN=4096 TP(tensor model parallel size)=8 PP(pipeline
/AscendCloud/AscendCloud-LLM/llm_train/AscendSpeed 编辑llm_train/AscendSpeed中的Dockerfile文件,修改git命令,填写自己的git账户信息。 git config --global user.email "you@example.com"
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 图1 网卡名称错误 export GLOO_SOCKET_IFNAME=enp67s0f5
日志提示Custom op has no reg_op_name attr 问题现象 日志提示:Custom op has no reg_op_name attr。 图1 报错提示 原因分析 无。 处理方法 定义context时无需指定: context.ascend.provider
从Manifest文件导入数据到数据集 前提条件 已存在创建完成的数据集。 准备需要导入的数据,具体可参见从Manifest文件导入规范说明。 需导入的数据,已存储至OBS中。Manifest文件也需要存储至OBS。 确保数据存储的OBS桶与ModelArts在同一区域,并确保用户具有OBS桶的操作权限。
本案例将基于ModelArts提供的PyTorch基础镜像,安装pytorch 1.8、ffmpeg 3和gcc 8,构建一个面向AI开发的新环境。 主要流程如下图所示: 图1 构建与调测镜像流程 本案例适用于华为云-北京四Region。 Notebook自定义镜像规范 制作自定义镜像时,Base镜像需满足如下规范:
py脚本进行权重转换生成量化系数,详细参数解释请参见https://github.com/NVIDIA/TensorRT-LLM/tree/main/examples/llama#int8-kv-cache。 python convert_checkpoint.py \ --model_dir
common_utils.py #获取训练日志工具 ├── performance.py #性能测试脚本 ├── trainer.py #训练启动脚本 ├── data.tgz # 样例数据 ├── setup.py
ECS获取和上传基础镜像 Step1 创建ECS 下文中介绍如何在ECS中构建一个训练镜像,请参考ECS文档购买一个Linux弹性云服务器。完成网络配置、高级配置等步骤,可根据默认选择,或进行自定义。创建完成后,单击“远程登录”,后续安装Docker等操作均在该ECS上进行。 注
的训练代码AscendCloud-LLM-xxx.zip,并直接进入到llm_train/AscendSpeed文件夹下面 cd ./llm_train/AscendSpeed 编辑llm_train/AscendSpeed中的Dockerfile文件,修改git命令,填写自己的git账户信息。
网卡名称错误 当训练开始时提示网卡名称错误。或者通信超时。可以使用ifconfig命令检查网卡名称配置是否正确。 比如,ifconfig看到当前机器IP对应的网卡名称为enp67s0f5,则可以设置环境变量指定该值。 export GLOO_SOCKET_IFNAME=enp67s0f5
OptVerse简介 天筹求解器(OptVerse)SDK概述 天筹求解器服务(OptVerse)是一种基于华为云基础架构和平台的智能决策服务,以自研AI求解器为核心引擎,结合机器学习与深度学习技术,为企业提供生产计划与排程、切割优化、路径优化、库存优化等一系列有竞争力的行业解决方案。
什么是OptVerse 天筹求解器服务(OptVerse)是一种基于华为云基础架构和平台的智能决策服务,以自研AI求解器为核心引擎,结合机器学习与深度学习技术,为企业提供生产计划与排程、切割优化、路径优化、库存优化等一系列有竞争力的行业解决方案。 使用要求 OptVerse以开放API(Application
租户采集原组件控制器采用salt方案,考虑到业务的发展,在设计上采用了agent的方式,需要将原有agent进行升级操作,即将租户采集salt-minion升级到isap-agent。 升级不影响数据面。 升级前准备 租户采集鉴权采用IAM鉴权,因此,需要创建拥有安全云脑接口访问权限,禁止开启MFA等校验规则的IAM最小权限用户。
登录管理控制台。 在服务列表中选择“数据库 > 云数据库 GeminiDB Cassandra 接口”。 在“实例管理”页面,选择指定的实例,单击“兼容接口”列的“补丁升级”。 图2 补丁升级 您也可以单击实例名称,进入基本信息页面,在“数据库信息 > 兼容接口”处单击“补丁升级”。
"APIG.1002", "error_msg" : "Incorrect token or token resolution failed" } 状态码: 403 Forbidden { "error_code" : "APIG.1005", "error_msg"
common.security.plain.PlainLoginModule required \ username="username" \ password="********"; #SASL鉴权方式 sasl.mechanism=PLAIN #加密协议,目前支持SASL_SSL协议
使用VRGlass连接的VR应用,需要使用VRGlass SDK开发吗? CVR服务支持集成了SteamVR插件的Unity或者UE4进行开发的VR应用。 因此,在使用VRGlass头显连接时,不需要专门适配VRGlass SDK进行开发应用。
应用侧开发 使用API对接 使用SDK对接 父主题: 设备侧开发
敏感配置项托管 由于业务的敏感配置不能明文地存放在版本包、配置中心、IaC代码中,因此业务可以借助STS敏感配置项的功能,存放业务的敏感配置。 操作步骤 使用STS的敏感配置项管理功能 ,需要在ACMS中录入敏感配置项,具体请参见录入敏感配置。 在IaC脚本中的业务配置项配置文件