检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
directory'). update products failed! 原因分析 用户代码中设置的目标路径(local_path)有误。 处理方法 需要将local_path路径设置为文件夹且后缀必须以“/”结尾。 父主题: API/SDK
drived max_model_len 解决方法: 修改config.json文件中的"seq_length"的值,"seq_length"需要大于等于 --max-model-len的值。config.json存在模型对应的路径下,例如:/data/nfs/benchmark/t
drived max_model_len 解决方法: 修改config.json文件中的"seq_length"的值,"seq_length"需要大于等于 --max-model-len的值。config.json存在模型对应的路径下,例如:/data/nfs/benchmark/t
wf.AlgorithmParameters(name="save_model_secs", value=wf.Placeholder(name="save_model_secs", placeholder_type=wf.PlaceholderType.INT, default=60
循环体 debugger.stop() # 一般在训练循环末尾结束工具。 debugger.step() # 在训练循环的最后需要重置工具,非循环场景不需要。 具体的config.json的配置要求请参见介绍。 使用run_ut.py执行预检。 msprobe -f pytorch
E不支持挂载子目录)。 如果type为“evs”类型,该值不需要填写。 volume_size 否 Integer EVS存储盘大小,最小为5GB,最大为4096GB,缺省值为5GB;如果type为OBS类型,该值不需要填写。 mount_path 否 String Notebo
如果使用Server资源,请参考Lite Server资源开通,购买Server资源,并确保机器已开通,密码已获取,能通过SSH登录,不同机器之间网络互通。 当容器需要提供服务给多个用户,或者多个用户共享使用该容器时,应限制容器访问Openstack的管理地址(169.254.169.254),以防止容器
在ModelArts中如何将Notebook A的数据复制到Notebook B中? 目前不支持直接将Notebook A的数据复制到Notebook B,如果需要复制数据,可参考如下步骤操作: 将Notebook A的数据上传至OBS; 下载OBS中的数据至Notebook B。 文件的上传下载详细
no kernel image is available for execution on the device 原因分析 因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。 解决方法 对于GP Vnt1的显卡,GPU算力为-gencode arch=compute_70
值,并在后续节点中使用。 针对部署在公共资源池的服务,可以通过access_address属性从输出中获取注册在公网的推理地址。 针对部署在专属资源池的服务,除了可以获取注册在公网的推理地址,还能通过cluster_inner_access_address属性从输出中获取内部使用
在Notebook中如何实现IAM用户隔离? 开发环境如果需要实现IAM用户隔离,即多个IAM用户之间无法查看、修改和删除他人创建的Notebook。 目前有两种方案: 方案一:删除modelarts:notebook:listAllNotebooks细粒度权限。 方案二:使用工
profiler.profile采集方式介绍 配置完如图1所示代码后需要启动训练作业触发采集且只能采集指定的step,对于已经明确需要采集step的场景可以使用该采集方式,此时需要重点关注图1中schedule参数以确保采集到需要的step数据。对于schedule参数,请参考图2。ski
Loss对齐结果 在排查完精度偏差来源之后发现,Loss最大绝对偏差减少为0.0003,Loss结果对齐。 需要注意训练引入随机性的目的是为了增加结果的鲁棒性,理论上不会对训练模型的收敛与否造成影响。 此处做随机性固定主要的目的是为了训练结果可完全复现,从而实现NPU和标杆的精度对齐。
'/usr/tmp', 'home/ma-user/work/SR/RDN_train_base'] 图1 运行代码报错 原因分析 根据报错提示,需要排查是否将大量数据被保存在“/tmp”中。 处理方法 进入到“Terminal”界面。在“/tmp”目录下,执行命令du -sh *,查看该目录下的空间占用情况。
${image_name}为推理镜像名称,可自行指定。 运行完后,会生成推理所需镜像。 多模态场景下,如果推理需要使用NPU加速图片预处理(仅适配了llava-1.5模型),启动时需要设置export ENABLE_USE_DVPP=1,需要安装torchvision_npu,可放到镜像制作脚本./AscendCl
问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True
090端口。 如果使用Grafana对接Prometheus制作报表,可以将Grafana部署在集群内,这里不需要对Prometheus绑定公网IP和配置安全组,只需要对Grafana绑定公网IP和配置安全组即可。 图1 添加入方向规则 在浏览器地址栏输入http://<弹性公网
问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True
问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True
问题1:在训练过程中遇到NPU out of memory 解决方法: 容器内执行以下命令,指定NPU内存分配策略的环境变量,开启动态内存分配,即在需要时动态分配内存,可以提高内存利用率,减少OOM错误的发生。 export PYTORCH_NPU_ALLOC_CONF = expandable_segments:True