检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用可视化分析运行日志 可视化提供对已完成结构化配置后的日志字段进行SQL查询与分析的功能。对原始日志结构化后,等待1~2分钟左右即可对结构化后的日志进行SQL查询与分析。 前提条件 日志流已完成结构化配置。 组件已关联LTS日志组,请参考关联LTS日志组。 使用可视化分析运行日志
附录:训练常见问题 问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF
常见错误原因和解决方法 显存溢出错误 网卡名称错误 父主题: 主流开源大模型基于Standard+OBS适配PyTorch NPU训练指导(6.3.909)
训练tokenizer文件说明 在训练开始前,需要针对模型的tokenizer文件进行修改,不同模型的tokenizer文件修改内容如下,您可在创建的Notebook中对tokenizer文件进行编辑。 ChatGLMv3-6B 在训练开始前,针对ChatGLMv3-6B模型中的
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
管理应用中的决策表 决策表是分析和表达多逻辑条件下,执行不同操作情况的工具。在AstroZero环境配置中,可管理当前账号下所有的决策表,包括查看、启用、禁用决策表。 约束与限制 在AstroZero沙箱环境和生产环境,才会显示此菜单。在沙箱环境和生产环境中,操作完全相同,本章节以在生产环境中操作为例。
管理应用中的配置态流程 配置态流程是对BPM(工作流)流程进行一定的封装,其中定义了流程的基本要素,使用户能够在配置态对流程进行定制修改。在AstroZero环境配置中,可管理当前账号下所有的配置态流程,包括查看、启用、禁用配置态流程等。 约束与限制 在AstroZero沙箱环境
SFT微调数据处理 SFT微调(Supervised Fine-Tuning)前需要对数据集进行预处理,转化为.bin和.idx格式文件,以满足训练要求。 这里以Qwen-14B为例,对于Qwen-7B和Qwen-72B,操作过程与Qwen-14B相同,只需修改对应参数即可。 下载数据
预训练数据处理 训练前需要对数据集进行预处理,转化为.bin和.idx格式文件,以满足训练要求。 Alpaca数据处理说明 数据预处理脚本preprocess_data.py存放在代码包的“llm_train/AscendSpeed/ModelLink/tools”目录中,脚本样
SFT全参微调训练 SFT全参微调数据处理 SFT全参微调权重转换 SFT全参微调任务 父主题: GLM3-6B模型基于DevServer适配PyTorch NPU训练指导(6.3.904)
255字符 bound_time String 绑定时间 状态码: 400 表6 响应Body参数 参数 参数类型 描述 error_code String 错误码 error_msg String 错误描述 状态码: 401 表7 响应Body参数 参数 参数类型 描述 error_code
9892951c620ec" } 状态码: 500 Internal Server Error { "error_code" : "APIG.9999", "error_msg" : "System error" } 状态码 状态码 描述 200 OK 400 Bad Request
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
推理性能测试 benchmark方法介绍 性能benchmark包括两部分。 静态性能测试:评估在固定输入、固定输出和固定并发下,模型的吞吐与首token延迟。该方式实现简单,能比较清楚的看出模型的性能和输入输出长度、以及并发的关系。 动态性能测试:评估在请求并发在一定范围内波动
使用SSH工具连接Notebook,服务器的进程被清理了,GPU使用率显示还是100% 原因是代码运行卡死导致被进程清理,GPU显存没有释放;或者代码运行过程中内存溢出导致程序被清理,需要释放下显存,清理GPU,然后重新启动。为了避免进程结束引起的代码未保存,建议您每隔一段时间保存下代码输出至OBS桶或者容器
两个训练作业的模型都保存在容器相同的目录下是否有冲突? ModelArts训练作业之间的存储目录相互不影响,每个环境之间彼此隔离,看不到其他作业的数据。 父主题: 查看作业详情
硬终端怎么自定义会场名? 在“华为云会议管理平台”的“终端管理”中修改该终端的“名称”,重启终端后生效。 父主题: 硬终端业务使用
简称IDC)机房的IP库进行访问控制,可选择的IP库平台,包括:鹏博士、谷歌公司、腾讯、美团网等其他平台。配置后,当目标IP库平台内的来源IP向域名下任意路径发起访问请求时,将触发控制规则,即拦截、放行或者仅记录请求。 前提条件 已添加防护网站。 约束条件 “云模式”仅专业版和铂金版支持威胁情报访问控制规则。
以上工作的有效开展,离不开组织管理、明确的责任人、考核体系、流程制度、数据治理政策和数据治理平台的支撑。 图2 DataArts Studio各模块之间的示意图 DataArts Studio平台提供了上述各个功能模块,满足数据接入、数据建模、标准化、质量监控、数据服务等全流程的数据管理动作。