检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
VS Code中设置远端默认安装的插件 在VS Code的配置文件settings.json中添加remote.SSH.defaultExtensions参数,如自动安装Python和Maven插件,可配置如下。 "remote.SSH.defaultExtensions": [
物体检测标注时除了位置、物体名字,是否可以设置其他标签,比如是否遮挡、亮度等? 可以通过修改数据集给标签添加自定义属性来设置一些自定义的属性。 图1 修改数据集 父主题: Standard数据管理
适配断点续训,操作指导请参见设置断点续训练。 当训练过程中触发了自动重启,则系统会记录重启信息,在训练作业详情页可以查看故障恢复详情,具体请参见训练作业重调度。 开启无条件自动重启 开启无条件自动重启有2种方式:控制台设置或API接口设置。 控制台设置 在创建训练作业页面,开启“
自动学习中偏好设置的各参数训练速度大概是多少 偏好设置中: performance_first:性能优先,训练时间较短,模型较小。对于TXT、图片类训练速度为10毫秒。 balance:平衡 。对于TXT、图片类训练速度为14毫秒 。 accuracy_first:精度优先,训练
error”错误,可以运行代码,但是无法保存 如果当前Notebook还可以运行代码,但是无法保存,保存时会提示“save error”错误。大多数原因是华为云WAF安全拦截导致的。 当前页面,即用户的输入或者代码运行的输出有一些字符被华为云拦截,认为有安全风险。出现此问题时,请提交工单,联系专业的工程师帮您核对并处理问题。
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败常见问题
设置断点续训练 什么是断点续训练 断点续训练是指因为某些原因(例如容错重启、资源抢占、作业卡死等)导致训练作业还未完成就被中断,下一次训练可以在上一次的训练基础上继续进行。这种方式对于需要长时间训练的模型而言比较友好。 断点续训练是通过checkpoint机制实现。 checkp
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
error”错误,可以运行代码,但是无法保存 如果当前Notebook还可以运行代码,但是无法保存,保存时会提示“save error”错误。 大多数原因是华为云WAF安全拦截导致的。当前页面,即用户的输入或者代码运行的输出有一些字符被华为云拦截,认为有安全风险。 出现此问题时,请提交工单,联系专业的工程师帮您核对并处理问题。
设置在线服务故障自动重启 场景描述 当系统检测到Snt9b硬件故障时,自动复位Snt9B芯片并重启推理在线服务,提升了推理在线服务的恢复速度。 约束限制 仅支持使用Snt9b资源的同步在线服务。 只支持针对整节点资源复位,请确保部署的在线服务为8*N卡规格,请谨慎评估对部署在该节点的其他服务的影响。
并不是错误信息,可以通过设置环境变量来屏蔽INFO级别的日志信息。环境变量的设置一定要在import tensorflow或者import moxing之前。 处理方法 您需要通过在代码中设置环境变量“TF_CPP_MIN_LOG_LEVEL”来屏蔽INFO级别的日志信息。具体操作如下:
ModelArts SDK下载文件目标路径设置为文件名,部署服务时报错 问题现象 ModelArts SDK在OBS下载文件时,目标路径设置为文件名,在本地IDE运行不报错,部署为在线服务时报错。 代码如下: session.obs.download_file(obs_path,
AI引擎Scikit_Learn0.18.1的运行环境怎么设置? 在ModelArts的算法管理页面,创建算法时勾选“显示旧版镜像”,选择XGBoost-Sklearn引擎即可。 ModelArts创建算法操作请参见创建算法。 ModelArts创建训练作业操作请参见创建训练作业。
在ModelArts创建分布式训练时如何设置NCCL环境变量? ModelArts训练平台预置了部分NCCL环境变量,如表1所示。这些环境变量建议保持默认值。 表1 预置的环境变量 环境变量 说明 NCCL_SOCKET_IFNAME 指定通信的网卡名称。 NCCL_IB_GID_INDEX 系统设置的默认值为3,表示使用RoCE
为避免训练作业Pytorch Mox日志反复输出的问题,需要您在“启动文件”中添加如下代码,当“MOX_SILENT_MODE = “1””时,可在日志中屏蔽mox的版本信息: import os os.environ["MOX_SILENT_MODE"] = "1" 父主题: MoXing
使用样例的有标签的数据或者自己通过其他方式打好标签的数据放到OBS桶里,在modelarts中同步数据源以后看不到已标注,全部显示为未标注 OBS桶设置了自动加密会导致此问题,需要新建OBS桶重新上传数据,或者取消桶加密后,重新上传数据。 父主题: Standard数据管理
格”提高预测速度。例如使用GPU资源代替CPU资源。 部署在线服务时,您可以增加“计算节点个数”。 如果节点个数设置为1,表示后台的计算模式是单机模式;如果节点个数设置大于1,表示后台的计算模式为分布式的。您可以根据实际需求进行选择。 推理速度与模型复杂度强相关,您可以尝试优化模型提高预测速度。
device 原因分析 因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。 解决方法 对于GP Vnt1的显卡,GPU算力为-gencode arch=compute_70,code=[sm_70,compute_70],设置setup.py中的编译参数即可解决。
和数据层的安全入侵行为。 ModelArts服务涉及对互联网开放的Web应用,采用了统一推荐的Web安全组件防范Web安全风险,并且通过WAF进行安全防护。 所有承载ModelArts服务的主机部署了主机安全防护产品。包括不限于华为自研HSS或计算安全平台CSP。 ModelAr
device 原因分析 因为编译的时候需要设置setup.py中编译的参数arch和code和电脑的显卡匹配。 解决方法 对于GP Vnt1的显卡,GPU算力为-gencode arch=compute_70,code=[sm_70,compute_70],设置setup.py中的编译参数即可解决。