检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
GP Vnt1裸金属服务器用PyTorch报错CUDA initialization:CUDA unknown error 问题现象 在Vnt1 GPU裸金属服务器(Ubuntu18.04系统),安装NVIDIA 470+CUDA 11.4后使用“nvidia-smi”和“nvcc
日志提示“max_pool2d_with_indices_out_cuda_frame failed with error code 0” 问题现象 pytroch1.3镜像中,去升级了pytroch1.4的版本,导致之前在pytroch1.3跑通的代码报错如下: “Runtim
Mysql到Mysql时源端报“Illegal mix of collations for operation 'UNION'”错误 原因分析 从源端数据源视图中查看,视图定义语句使用了union,但是union两边字段编码不一致,须统一编码。 解决方案 建议使用CONVERT转换为统一编码,如:CONVERT
Kafka集到Mysql目标端报“cannot find record mapping field”错误 原因分析 查看任务mapping配置,源端字段类型的长度超出目标端字段类型的长度限制,或者配置的映射字段中某个字段在源端的数据中不存在。 解决方案 检查字段映射配置的字段类型
我创建的微调数据集会被其他用户调用去训练他们的大模型吗? 用户个人创建的数据集是属于个人账号下的专属数据,未经本人许可不会被其他人员查看到,且不会被其他用户在大模型训练时调用。 父主题: AI原生应用引擎
如何在工作流中定制逻辑实现特定任务,比如时间格式转换、数组对象的push等 工作流提供了Code代码节点,通过Code代码节点可以在工作流中编写Python代码,根据具体需求定制逻辑以实现特定的任务,如图1所示,具体介绍请参见Code代码。 图1 Code代码节点配置 时间格式转换代码示例:
judge日志大小1KB,且不刷新日志内容 问题现象 judge日志大小1KB,且不刷新日志内容。 可能原因 告警原始表中存在字段值和字段类型不一致,导致解析失败。 解决方法 检查告警原始表中的数据是否有异常数据。 例如:数值类型的字段,值为NAN,可能是没有做除数为0的保护,修复异常,清理元数据,补数据后重新训练。
配置泳道组流量入口网关路由(基于流量配置) 根据实际业务需要,您可以基于流量配置泳道组流量入口网关路由。 前提条件 待操作泳道组已创建成功并关联流量入口网关,请参考创建泳道组。 待操作泳道组下已创建泳道。 创建基线泳道,请参考创建基线泳道。 创建灰度泳道,请参考创建灰度泳道。 配
使用微服务仪表盘 您可以通过仪表盘实时查看微服务运行相关的指标,根据丰富实时的仪表盘数据,对微服务做相应的治理动作。 约束与限制 如果微服务应用部署在ServiceStage上,部署应用时需要设置微服务引擎,应用会自动获取服务注册发现地址、配置中心地址和仪表盘地址,不需要配置monitor地址,就可以使用仪表盘功能。
查看微服务引擎操作日志 在“操作日志”区域,可以查看微服务引擎的操作日志信息。 查看微服务引擎操作日志 登录ServiceStage控制台,选择“微服务引擎 > 引擎实例”。 在页面上方“微服务引擎”下拉列表,选择待查看的微服务引擎。 在“操作日志”区域,查看微服务引擎的操作日志信息。
使用ma-cli obs-copy命令复制OBS数据 使用ma-cli obs-copy [SRC] [DST]可以实现本地和OBS文件或文件夹的相互复制。 $ma-cli obs-copy -h Usage: ma-cli obs-copy [OPTIONS ] SRC
训练脚本说明 训练启动脚本说明和参数配置 训练的数据集预处理说明 训练的权重转换说明 训练tokenizer文件说明 父主题: 主流开源大模型基于Standard+OBS适配ModelLink PyTorch NPU训练指导(6.3.911)
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Standard上的预训练和全量微调方案。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite Cluster上的训练方案。训练框架使用的是ModelLink。 本方案目前仅适用于企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。
查看日志和性能 单击作业详情页面,则可查看训练过程中的详细信息。 图1 查看训练作业 在作业详情页的日志页签,查看最后一个节点的日志,其包含“elapsed time per iteration (ms)”数据,可换算为tokens/s/p的性能数据。 吞吐量(tokens/s/p):global
LoRA微调训练 前提条件 已上传训练代码、训练权重文件和数据集到OBS中,具体参考代码上传至OBS。 Step1 创建训练任务 创建训练作业,并自定义名称、描述等信息。选择自定义算法,启动方式自定义,以及选择上传的镜像。 代码目录选择:OBS桶路径下的mllm_train/tr
在WiseDBA中永久删除Schema 永久删除是指从WiseDBA中彻底删除Schema同时在业务数据库中进行销毁,销毁后无法恢复。 约束与限制 GaussDB和RDS for PostgreSQL数据库不支持此功能。 前提条件 需要具备AppStage服务运维岗位权限或运维管理员权限,权限申请操作请参见申请权限。
推理精度测试 本章节介绍如何进行推理精度测试,数据集是ceval_gen、mmlu_gen。 前提条件 确保容器可以访问公网。 Step1 配置精度测试环境 获取精度测试代码。精度测试代码存放在代码包AscendCloud-LLM的llm_tools/llm_evaluation目录中,代码目录结构如下。
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令
场景介绍 方案概览 本文档利用训练框架PyTorch_npu+华为自研Ascend Snt9B硬件,为用户提供了常见主流开源大模型在ModelArts Lite DevServer上的预训练和全量微调方案。训练框架使用的是ModelLink。 本方案目前仅适用于部分企业客户,完成