检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
odelArts界面上看不到。 普通日志说明 普通日志中包含训练进程日志、pip-requirement.txt安装日志和ModelArts Standard平台日志。 表1 普通日志类型 日志类型 说明 训练进程日志 用户训练代码的标准输出。 pip-requirement.txt安装日志
查看堆栈。py-spy工具的具体使用方法可参考py-spy官方文档。 # 找到训练进程的PID ps -ef # 查看进程12345的进程堆栈 # 如果是8卡的训练作业,一般用此命令依次去查看主进程起的对应的8个进程的堆栈情况 py-spy dump --pid 12345 父主题: 管理模型训练作业
Tool接口参考中的指导。 NPU上的网卡在哪里可以看到, 会健康检查吗? 8*NPU的网卡为机头上配置的四个2*100GE网卡。华为云有网卡健康状态监控机制。 父主题: Lite Server
日志出现ECC错误,导致训练作业失败 超过最大递归深度导致训练作业失败 使用预置算法训练时,训练失败,报“bndbox”错误 训练作业进程异常退出 训练作业进程被kill 父主题: 训练作业
单击服务名称,进入部署模型服务详情页面,可以查看服务信息。 “详情”:可以查看服务的基本信息,包括服务、模型、资源等设置信息。 “监控”:可以查看服务监控和资源监控信息。 “算力利用率”表示每分钟NPU的平均使用率,当请求率较低时,使用率会显示为0。 “事件”:可以查看服务的事件信息。事
可以访问云服务,保证租户之间的相互隔离。 提供可靠的备份和灾难恢复机制,以确保数据不会因为硬件故障或自然灾害等原因而丢失。 提供透明的安全监控和事件响应服务,及时的安全更新和漏洞修补。 而云服务客户则需要执行以下任务: 将数据和应用程序加密,以保护数据的机密性和完整性。 确保模型
查询服务详情,根据服务ID查询服务详情。 启动停止边缘节点服务实例 启动停止边缘节点服务实例。 更新服务配置 更新模型服务。 查询服务监控信息 查询服务监控信息。 查询服务更新日志 查询实时服务更新日志。 查询服务事件日志 查询服务事件日志,包含服务的操作记录及部署过程中的关键动作、部署失败原因。
回退版本、重装插件。 升级、卸载volcano插件。 可能导致作业调度异常。 中 回退版本、重装插件。 卸载ICAgent插件。 可能导致日志、监控功能异常。 中 回退版本、重装插件。 helm 升级、回退、卸载os-node-agent。 导致驱动升级、故障检测、指标采集、节点运维功能异常。
nd/ 图14 训练进程 查看卡占用情况,如图所示,此时0号卡被占用,说明进程正常启动。 npu-smi info //查看卡信息 图15 查看卡信息 训练任务大概会运行两小时左右,训练完成后自动停止。若想停止训练任务,可执行下述命令关闭进程,查询进程后显示已无运行中python进程。
npu-smi info 图7 查看卡信息 若想停止训练任务,可执行下述命令关闭进程,查询进程后显示已无运行中python进程。 pkill -9 python ps -ef 图8 关闭训练进程 limit/request配置cpu和内存大小,已知单节点Snt9B机器为:8张S
ModuleNotFoundError: No module named 'numba' JupyterLab中文件保存失败,如何解决? 用户结束kernelgateway进程后报错Server Connection Error,如何恢复? 父主题: 开发环境
单击Notebook的打开按钮时报“请求超时”错误? 使用CodeLab时报错kernel restart 使用SSH工具连接Notebook,服务器的进程被清理了,GPU使用率显示还是100% Notebook实例出现“Server Connection Error”错误 父主题: Standard
worker_num:所有进程个数。因为一个卡起一个进程,所以也表示使用总卡数。 local_worker_num:当前节点进程个数,即当前节点使用的卡数。 master_addr:msrun组网调度进程所在节点的IP地址,单机场景无需配置。 master_port:msrun组网调度进程的端口。
处理方法 如果是运行单卡模式,在训练脚本中加入export ASCEND_RT_VISIBLE_DEVICES=0(指定 0 号卡对当前进程可见)。多卡环境模式需要运行DDP并行模式。 父主题: 常见问题
定义镜像创建训练作业时,检查启动文件路径排查解决。 可能为多个进程或者worker读写同一个文件。如果使用了SFS,则考虑是否多个节点同时写同一个文件。分析代码中是否存在多进程写同一文件的情况。建议避免作业中存在多进程,多节点并发读写同一文件的情况。 检查报错的路径是否为OBS路径
池的任务中访问自己VPC上的资源,可通过“打通VPC”来实现。 更加完善的集群信息:全新改版的专属资源池详情页面中,提供了作业、节点、资源监控等更加全面的集群信息,可帮助您及时了解集群现状,更好的规划使用资源。 自助管理集群GPU/NPU驱动:每个用户对集群的驱动要求不同,在新版
sh脚本。 #查询nginx进程 ps -ef |grep nginx #关闭所有nginx相关进程 kill -9 {进程ID} #运行run.sh脚本 sh run.sh 也可以执行pkill nginx命令直接关闭所有nginx进程。 #关闭所有nginx进程 pkill nginx
advisor分析进程数,可选范围为1-8的任意整数。当LLM类模型训练的流水并行参数pp大于1时,advisor会对不同pp stage的训练profilingg数据进行分析。通过设置更大的进程数可以使能并行分析从而加快分析速度,但也会增大分析占用的cpu资源。通常单进程需要占用1U的cpu和一定cpu
通过ModelArts的Notebook,在JupyterLab中使用OBS上传下载数据。 建议配置。 开发环境监控功能 AOM aom:alarm:put 调用AOM的接口,获取Notebook相关的监控数据和事件,展示在ModelArts的Notebook中。 建议配置。 VPC接入 VPC vpc:ports:create
性维护,根据设备实时数据的分析,进行故障识别。 声音分类 声音分类项目,是识别一段音频中是否包含某种声音。可应用于生产或安防场景的异常声音监控。 文本分类 文本分类项目,识别一段文本的类别。可应用于情感分析或新闻分类等场景。 父主题: 使用自动学习实现零代码AI开发