检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
行故障诊断,得到诊断结果。 Ascend FaultDiag工具官方指导请见Ascend FaultDiag工具使用指导。 Ascend FaultDiag工具下载地址请见Ascend FaultDiag 故障诊断工具。 步骤一:日志采集 共需要采集6类日志:用户训练打屏日志,主机侧操作系统日志(Host日志),
最优配置参数。 --baseline <baseline>:<可选>GP-Ant8机器性能基线yaml文件路径,用户可自行修改,不填则使用工具自带基线配置,默认基线配置样例如下: --o <output_dir>: <可选>任务完成输出excel表格路径,默认为"./"当前所在路径。
最优配置参数。 --baseline <baseline>:<可选>GP-Ant8机器性能基线yaml文件路径,用户可自行修改,不填则使用工具自带基线配置,默认基线配置样例如下: --o <output_dir>: <可选>任务完成输出excel表格路径,默认为"./"当前所在路径。
最优配置参数。 --baseline <baseline>:<可选>GP-Ant8机器性能基线yaml文件路径,用户可自行修改,不填则使用工具自带基线配置,默认基线配置样例如下: --o <output_dir>: <可选>任务完成输出excel表格路径,默认为"./"当前所在路径。
使用MobaXterm工具SSH连接Notebook后,经常断开或卡顿,如何解决? 问题现象 MobaXterm成功连接到开发环境后,过一段时间会自动断开。 可能原因 配置MobaXterm工具时,没有勾选“SSH keepalive”或专业版MobaXterm工具的“Stop server
提示用户验收采样中。 synchronize_auto_labeling_data Boolean 团队标注任务是否同步智能标注结果。可选值如下: true:执行完智能标注后,将待确认结果同步至团队成员。 false:不同步智能标注结果(默认值)。 synchronize_data
最优配置参数。 --baseline <baseline>:<可选>GP-Ant8机器性能基线yaml文件路径,用户可自行修改,不填则使用工具自带基线配置,默认基线配置样例如下: --o <output_dir>: <可选>任务完成输出excel表格路径,默认为"./"当前所在路径。
修改权重保存路径 多机训练场景下,需要将CODE_DIR修改为OBS_CODE_DIR目录,则可以使用scripts/tools/sync_with_obs.py工具将其它节点的权重文件同步上传到主节点。修改代码如图3。 图3 多机同步权重文件 代码上传至OBS 将llm_train文件上传至OBS中。
修改权重保存路径 多机训练场景下,需要将CODE_DIR修改为OBS_CODE_DIR目录,则可以使用scripts/tools/sync_with_obs.py工具将其它节点的权重文件同步上传到主节点。修改代码如图3。 图3 多机同步权重文件 代码上传至OBS 将llm_train文件上传至OBS中。
在JupyterLab中使用TensorBoard可视化作业 ModelArts支持在开发环境中开启TensorBoard可视化工具。TensorBoard是TensorFlow的可视化工具包,提供机器学习实验所需的可视化功能和工具。TensorBoard能够有效地展示训练过程中的计算图、各种指标随时间的变化趋势以及训
推理精度测试 本章节介绍两个精度测评工具。如何使用opencompass工具开展语言模型的推理精度测试,数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen;以及使用lm-eval工具开展语言模型的推理精度测试,数据集包含
推理精度测试 本章节介绍两个精度测评工具。如何使用opencompass工具开展语言模型的推理精度测试,数据集是ceval_gen、mmlu_gen、math_gen、gsm8k_gen、humaneval_gen;以及使用lm-eval工具开展语言模型的推理精度测试,数据集包含
作业卡在sync-batch-norm中或者训练速度变慢。pytorch如果开了sync-batch-norm,多机会慢,因开了sync-batch-norm以后,每一个iter里面每个batch-norm层都要做同步,通信量很大,而且要所有节点同步。 解决方案2 关掉sync-b
使用PyCharm ToolKit创建并调试训练作业 由于AI开发者会使用PyCharm工具开发算法或模型,为方便快速将本地代码提交到ModelArts的训练环境,ModelArts提供了一个PyCharm插件工具PyCharm ToolKit,协助用户完成SSH远程连接Notebook、代
pip介绍及常用命令 pip常用命令如下: pip --help#获取帮助 pip install SomePackage==XXXX #指定版本安装 pip install SomePackage #最新版本安装 pip uninstall SomePackage #卸载软件版本
提示用户验收采样中。 synchronize_auto_labeling_data Boolean 团队标注任务是否同步智能标注结果。可选值如下: true:执行完智能标注后,将待确认结果同步至团队成员。 false:不同步智能标注结果(默认值)。 synchronize_data
使用PyCharm Toolkit插件连接Notebook 由于AI开发者会使用PyCharm工具开发算法或模型,为方便快速将本地代码提交到ModelArts的训练环境,ModelArts提供了一个PyCharm插件工具PyCharm ToolKit,协助用户完成SSH远程连接Notebook、代
本章节介绍如何使用SmoothQuant量化工具实现推理量化。 SmoothQuant量化工具使用到的脚本存放在代码包AscendCloud-LLM-x.x.x.zip的llm_tools目录下。 代码目录如下: AutoSmoothQuant #量化工具 ├── asc
kv-cache-int8量化支持的模型请参见表3。 Step1使用tensorRT量化工具进行模型量化,必须在GPU环境 使用tensorRT 0.9.0版本工具进行模型量化,工具下载使用指导请参见https://github.com/NVIDIA/TensorRT-LLM/tree/v0
推理精度测试 本章节介绍如何使用lm-eval工具开展语言模型的推理精度测试,数据集包含mmlu、ARC_Challenge、GSM_8k、Hellaswag、Winogrande、TruthfulQA等。 约束限制 确保容器可以访问公网。 当前的精度测试仅适用于语言模型精度验证