检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
cripts文件夹,例如“c:\python\python**\Scripts”。 配置pip源。以Windows环境为例,配置pip源方法如下: 新建pip文件夹。启动cmd,输入set命令,查看APPDATA路径。并在APPDATA对应路径下创建pip文件夹。文件内容示例如下:
训练作业的日志出现detect failed(昇腾预检失败) 问题现象 训练启动的日志出现如下相关错误: time="2023-05-27T07:07:08Z" level=error msg="detect failed, error: dsmi-checker detect failed
如何上传本地文件至Notebook? Notebook中JupyterLab的文件上传方式请参见上传本地文件至JupyterLab。 父主题: 文件上传下载
callbacks suppressed 问题现象 弹性文件服务(Scalable File Service,SFS)提供按需扩展的高性能文件存储(NAS),可以在裸金属服务器中通过网络协议挂载使用,SFS支持NFS和CIFS的网络协议。在使用裸金属服务器时, 将数据放在SFS盘中, 并发建立多
erval-in-sshd-config-d 对于业务有影响的需要进行长链接保持的场景,尽量将日志写在单独的日志文件中,将脚本后台运行,例如: nohup train.sh > output.log 2>&1 & tail -f output.log 父主题: VS Code连接开发环境失败常见问题
训练输出的日志只保留3位有效数字,是否支持更改loss值? 在训练作业中,训练输出的日志只保留3位有效数字,当loss过小的时候,显示为0.000。具体日志如下: INFO:tensorflow:global_step/sec: 0.382191 INFO:tensorflow:step:
如何将git clone的py文件变为ipynb文件 在ipynb文件中,执行%load XXX.py命令,即可将py文件内容加载到ipynb中。以“test.py”文件为例,下图展示了如何将“test.py”的文件内容加载到ipynb文件中。 图1 test.py文件 图2 将“test
解析Manifest文件 解析Manifest文件,支持本地和OBS。如果是OBS,需要Session信息。 manifest.parse_manifest(manifest_path, encoding='utf-8') 示例代码 通过Manifest路径来解析获取Manifest的信息。
在线服务报错 原因分析 根据报错日志分析,模型目录下存在多余文件“/home/mind/model/v0432/cdn_short.pt”。 处理方法 在模型目录中删除“/home/mind/model/v0432/cdn_short.pt”文件,重新导入模型后进行部署在线服务即可正常预测。
MoXing如何访问文件夹并使用get_size读取文件夹大小? 问题现象 使用MoXing无法访问文件夹。 使用MoXing的“get_size”读取文件夹大小,显示为0。 原因分析 使用MoXing访问文件夹,需添加参数:“recursive=True”,默认为False。 处理方法
日志提示“RuntimeError: Cannot re-initialize CUDA in forked subprocess” 问题现象 在使用pytorch启动多进程的时候,出现如下报错: RuntimeError: Cannot re-initialize CUDA in
NCCL必须和CUDA版本相匹配,可单击此处可查看配套关系和安装方法。 使用该裸金属服务器制作自定义镜像时, 必须清除残留文件,请参考清理文件。 父主题: Lite Server
如何下载Notebook中的文件到本地? Notebook中JupyterLab下载文件到本地的方式,请参见从JupyterLab下载文件至本地。 父主题: 文件上传下载
lArts提供了卡死检测功能,能自动识别作业是否卡死,并在日志详情界面上展示,同时能配置通知及时提醒用户作业卡死。 检测规则 卡死检测主要是通过监控作业进程的状态和资源利用率来判定作业是否卡死。会启动一个进程来周期性地监控上述两个指标的变化情况。 进程状态:只要训练作业中存在进程
MindSpore日志提示“ retCode=0x91, [the model stream execute failed]” 问题现象 使用mindspore进行训练时,出现如下报错: [ERROR] RUNTIME(3002)model execute error, retCode=0x91
如何在Notebook中上传下载OBS文件? 在Notebook中可以通过调用ModelArts的Moxing接口或者SDK接口与OBS交互,将Notebook中的文件上传至OBS,或者下载OBS中的文件至Notebook中。 图1 Notebook中上传下载OBS文件 使用OBS客户端上传文件的操作指导:上传文件
同步Lite Server服务器状态 Lite Server为一台弹性裸金属服务器,当用户在云服务器页面修改了裸金属服务器状态后,您可通过“同步”功能,同步其状态至ModelArts。 登录ModelArts管理控制台。 在左侧导航栏中,选择“AI专属资源池 > 弹性节点 Server”,进入“节点”列表页面。
复制完整资产名称 获取待上传的文件名 获取待上传的文件在服务器的绝对路径。 上传单个文件 在服务器执行如下命令,可以将服务器上的文件上传到AI Gallery仓库里面。 gallery-cli upload {repo_id} {文件名} 如下所示,表示将服务器上的文件“D:\workpl
问题现象 用户进程被Kill表示用户进程因外部因素被Kill或者中断,表现为日志中断。 原因分析 CPU软锁 在解压大量文件可能会出现此情况并造成节点重启。可以适当在解压大量文件时,加入sleep。比如每解压1w个文件,就停止1s。 存储限制 根据规格情况合理使用数据盘,数据盘大小请参考训练环境中不同规格资源大小。
日志提示Custom op has no reg_op_name attr 问题现象 日志提示:Custom op has no reg_op_name attr。 图1 报错提示 原因分析 无。 处理方法 定义context时无需指定: context.ascend.provider