检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
该指标用于统计测量对象已使用的显存。 兆字节(Megabytes) ≥0 NA NA NA 共享GPU任务运行数据 node_gpu_share_job_count 针对一个GPU卡,当前运行的共享资源使用的任务数量。 个 ≥0 NA NA NA GPU温度 DCGM_FI_DEV_GPU_TEMP
查看诊断报告 Advisor分析profiling会输出html和xlsx两份文件。请优先查看html报告进行训练作业性能调优。xlsx中记录了html中全量数据,如集群计算、通信和下发的耗时,可以基于xlsx对计算耗时、下发耗时和带宽等列进行排序,从而快速过滤出计算慢卡、下发慢卡、带宽最小卡。
te”会舍弃标注框超出原始图片边界的图片。 输出目录结构如下所示。其中“Data”文件夹用于存放新生成的图片和标注信息,“manifest”文件存储文件夹中图片的结构,可直接导入到数据集中。 |----data_url |----Data |----xxx
如果需要在Notebook中,访问其他账号的OBS文件,前提是,需获取目标OBS桶的读写权限。 首先,请联系OBS桶的创建者,参考对其他账号授予桶的读写权限指导,授予当前账号OBS桶的读写权限。此操作指导是某一华为云账号将其OBS桶权限授予其他华为云账号。如果您的账号是IAM用户或其他场景时,请参见《OBS权限配置指南
sh,下载Miniconda3-py37-4.10.3安装文件(对应python 3.7.10)。 将上述pip源文件、*.run文件、*.whl文件、Miniconda3安装文件放置在context文件夹内,context文件夹内容如下。 context ├── Ascend-cann-nnae_6
est文件导入。 dataset.import_data(path=None, anntation_config=None, **kwargs) 不同类型的数据集支持的导入方式如表1所示。 表1 不同数据集支持的导入方式 数据集类型 OBS目录导入 Manifest文件导入 备注
模型的不同可以是文本,图片,语音,视频等内容。 当使用调用指南页签中显示的调用地址(华为云APIG网关服务的地址)预测时,对请求体的大小限制是12MB,超过12MB时,请求会被拦截。 如果是从ModelArts console的预测页签进行的预测,由于console的网络链路的不同,此时要求请求体的大小不超过8MB。
使用GP Ant8裸金属服务器, 完成单机单卡GPT-2 MEDIUM模型的训练。 创建预训练脚本文件。 执行以下命令,创建预训练脚本文件。 vim pretrain_gpt2.sh 在文件中添加以下信息。 #! /bin/bash # Runs the "345M" parameter
参数说明 表1 参数说明 参数 是否必选 参数类型 描述 data_type 是 String 当前支持三种格式:files、images、json, 即文本、图片、json格式。 data 是 String 针对files、images类型的数据, 该参数为其本地路径,如 :
install在Notebook或Terminal中安装依赖包。 在Notebook中安装 在总览页面进入CodeLab。 在“Notebook”区域下,新建一个ipynb文件。 在新建的Notobook中,在代码输入栏输入如下命令。 !pip install xxx 在Terminal中安装 在Terminal里激活需要的anaconda
max_model_len is greater than the drived max_model_len 解决方法: 修改config.json文件中的"seq_length"的值,"seq_length"需要大于等于 --max-model-len的值。config.json存在模型
max_model_len is greater than the drived max_model_len 解决方法: 修改config.json文件中的"seq_length"的值,"seq_length"需要大于等于 --max-model-len的值。config.json存在模型
如果当前Notebook还可以运行代码,但是无法保存,保存时会提示“save error”错误。 大多数原因是华为云WAF安全拦截导致的。当前页面,即用户的输入或者代码运行的输出有一些字符被华为云拦截,认为有安全风险。 出现此问题时,请提交工单,联系专业的工程师帮您核对并处理问题。 父主题:
查看OBS桶是否加密 检查OBS文件是否为加密文件 进入OBS管理控制台,单击桶名称进入概览页。 单击左侧菜单栏对象,进入对象列表。单击存放文件的对象名称,并找到具体的文件,可在文件列表的“加密状态”列查看文件是否加密。文件加密无法取消,请先解除桶加密,重新上传图片或文件。 检查OBS桶的ACLs设置
ynb文件,导入torch,可以看到安装的pytorch 1.8已经能够使用。 图9 创建一个ipynb文件 再打开一个Terminal,查看ffmpeg和gcc的版本,是Dockerfile中安装的版本。 图10 查看ffmpeg和gcc的版本 Dockerfile文件(基础镜像为ModelArts提供)
Turbo的数据存储方案,不适用于仅OBS存储方案。通过OBS对象存储服务(Object Storage Service)与SFS Turbo文件系统联动,可以实现灵活数据管理、高性能读取等。 约束限制 适配的CANN版本是cann_8.0.rc3,驱动版本是23.0.6。 本案例仅支
OBS管理 OBS管理概述 文件传输(推荐) 上传文件至OBS 上传文件夹至OBS 从OBS下载文件 从OBS下载文件夹
该目录下主要放置性能、精度任务的yaml配置文件,包含性能基线、精度基线、训练最佳实践参数等,以上配置文件仅供参考。 代码上传至OBS 本地完成代码包AscendCloud-LLM-xxx.zip的解压,将llm_train文件上传至OBS中。 结合准备数据、准备权重、准备代码,将数据集、原始权重、代码文件都上传至OBS后,OBS桶的目录结构如下。
Ascend PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具,通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。 Ascend PyTorch
Ascend PyTorch Profiler是针对PyTorch框架开发的性能数据采集和解析工具,通过在PyTorch训练脚本中插入Ascend PyTorch Profiler接口,执行训练的同时采集性能数据,完成训练后直接输出可视化的性能数据文件,提升了性能分析效率。 Ascend PyTorch