AI开发平台MODELARTS-华为云

AI开发平台ModelArts-使用MobaXterm工具SSH连接Notebook后，经常断开或卡顿，如何解决？:解决方案

解决方案打开MobaXterm，单击菜单栏“Settings”，如图1 打开“Settings”所示。图1 打开“Settings” 在打开的“MobaXterm Configuration”配置页面，选择“SSH”选项卡，勾选“SSH keepalive”，如图2 勾选“SSH keepalive”所示。图2 勾选“SSH keepalive” 如果使用的是专业版的MobaXterm工具，请执行步骤3。如果使用的是专业版的MobaXterm工具，请参考图3 设置“Stop server after”，此参数默认值为360s，将其设置为3600s或更大值。图3 设置“Stop server after”

AI开发平台ModelArts

AI开发平台ModelArts-在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的:处理方法

处理方法不管是用方式1还是方式2，要判断是否是模型服务返回的不合预期的结果都需要获取到本次推理请求的response header及response body。如果是方式1，可以通过浏览器的开发者工具获取到推理请求的response信息。以Chrome浏览器为例，可以使用快捷键F12打开开发者工具，然后选择“Network”页签，再单击“预测”，可以在Network页签窗口中看到本次推理请求的response信息如下图。图1 推理请求的response信息在name栏找到推理请求，其中推理请求的URL包含“/v1/infers”的关键字，可以在header栏中的url看到完整url，分别在Headers页签及Response页签中查看response的信息。如果是方式2可以根据不同的工具查看response header及body信息，比如CURL命令可以通过-I选项查看response header。如果查看到的response header中Server字段为ModelArts且response body中没有显示ModelArts.XXXX的错误码，此时收到的response信息为模型服务返回的response信息，如果不符合预期，可以判断为模型服务返回的结果不符合预期。

AI开发平台ModelArts

AI开发平台ModelArts-报错“An SSH installation couldn't be found”或者“Could not establish connection to instance xxx: 'ssh' ...”如何解决？:解决方法

解决方法如果当前环境未安装OpenSSH，请下载并安装OpenSSH。当通过“可选功能”未能成功安装时，请手动下载OpenSSH安装包，然后执行以下步骤：下载zip包并解压放入“C:\Windows\System32”。以管理员身份打开CMD，在“C:\Windows\System32\OpenSSH-xx”目录下，执行以下命令： powershell.exe -ExecutionPolicy Bypass -File install-sshd.ps1 添加环境变量：将“C:\Program Files\OpenSSH-xx”（路径中包含ssh可执行exe文件）添加到环境系统变量中。重新打开CMD，并执行ssh，结果如下图即说明安装成功，如果还未装成功则执行5和6。 OpenSSH默认端口为22端口，开启防火墙22端口号，在CMD执行以下命令： netsh advfirewall firewall add rule name=sshd dir=in action=allow protocol=TCP localport=22 启动OpenSSH服务，在CMD执行以下命令： Start-Service sshd 若OpenSSH未安装在默认路径下，打开命令面板（Windows： Ctrl+Shift+P，macOS：Cmd+Shift+P），搜索“Open settings”。然后将remote.SSH.path属性添加到settings.json中，例如："remote.SSH.path": "本地OpenSSH的安装路径"

AI开发平台ModelArts

AI开发平台ModelArts-在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的:原因分析

原因分析在线服务启动后，ModelArts提供两种方式的预测：方式1：在ModelArts的Console的预测页签进行预测；方式2：在ModelArts的Console的调用指南页签获取到调用地址，然后通过cURL或者Postman等工具进行预测。无论是方式1还是方式2，当推理请求发送出去后都有可能收到不符合预期的推理结果。推理请求经过一系列传递后最终是会进入到模型服务中，模型服务可能是以自定义镜像的方式导入的，可能是因为模型服务在处理推理请求时候出现了问题导致结果不符合预期，能准确判断出来是否是在模型服务中出的问题对于快速解决问题帮助很大。

AI开发平台ModelArts

AI开发平台ModelArts-在线服务运行中但是预测失败时，如何排查报错是不是模型原因导致的:建议与总结

建议与总结鉴于模型服务有从对象存储服务 (OBS)中导入，从容器镜像中导入，从AI Gallery中获取等多种途径，对于上述不同模型服务的来源所产生的常见问题及处理方法建议如下：从容器镜像中导入：由于此种方式镜像为用户完全自定义的镜像，错误原因会因自定义镜像的不同而不同，建议查看模型日志确定错误原因。从对象存储服务(OBS)中导入：如您收到的返回是MR系列错误码，如MR.0105，请查看在线服务详情页面的日志页签查看对应的错误日志。从AI Gallery中获取：请咨询该模型在AI Gallery中的发布者。

AI开发平台ModelArts

AI开发平台ModelArts-从AI Gallery下载到桶里的数据集，再在ModelArts里创建数据集，显示样本数为0

从AI Gallery下载到桶里的数据集，再在ModelArts里创建数据集，显示样本数为0 首先需要确认从AI Gallery下载的数据格式，比如压缩包、excel文件等会被忽略，支持格式详情：数据集类型标注类型创建数据集导入数据导出数据发布数据集修改数据集管理版本自动分组数据特征文件型图像分类支持支持支持支持支持支持支持支持物体检测支持支持支持支持支持支持支持支持图像分割支持支持支持支持支持支持支持 - 声音分类支持支持 - 支持支持支持 - - 语音内容支持支持 - 支持支持支持 - - 语音分割支持支持 - 支持支持支持 - - 文本分类支持支持 - 支持支持支持 - - 命名实体支持支持 - 支持支持支持 - - 文本三元组支持支持 - 支持支持支持 - - 视频支持支持 - 支持支持支持 - - 自由格式支持 - 支持支持支持支持 - - 表格型表格支持支持 - 支持支持支持 - - 父主题： Standard数据管理

AI开发平台ModelArts

AI开发平台ModelArts-配置了合理的服务部署超时时间，服务还是部署失败，无法启动

配置了合理的服务部署超时时间，服务还是部署失败，无法启动服务部署成功的标志是模型启动完成，如果没有配置健康检查，就无法检测到模型是否真实的启动。在自定义镜像健康检查接口中，用户可以实现实际业务是否成功的检测。在创建AI应用时配置健康检查延迟时间，保证容器服务的初始化。因此，推荐在创建AI应用时配置健康检查，并设置合理的延迟检测时间，实现实际业务的是否成功的检测，确保服务部署成功。父主题：在线服务

AI开发平台ModelArts

AI开发平台ModelArts-为什么资源充足还是在排队？

为什么资源充足还是在排队？如果是公共资源池，一般是由于其他用户占用资源导致，请耐心等待或根据训练作业一直在等待中（排队）？方法降低排队时间。如果是专属资源池，建议您进行以下排查：排查专属资源池中是否存在其他作业（包括推理作业、训练作业、开发环境作业等）。可通过总览页面，快速判断是否有其他模块的作业或实例在运行中，并进入到相关作业或实例上，判断是否使用了专属资源池。如判断相关作业或实例可停止，则可以停止，释放出更多的资源。图1 总览单击进入专属资源池详情页面，查看作业列表。观察队头是否有其他作业在排队，如果已有作业在排队，则新建的作业需要继续等待。图2 作业排队列表如果通过排查计算，发现资源确实足够，则考虑可能由于资源碎片化导致的。例如，集群共2个节点，每个节点都空闲了4张卡，总剩余卡数为8张卡，但用户的作业要求为1节点8张卡，因此无法调度上。父主题：一般性问题

AI开发平台ModelArts

AI开发平台ModelArts-在线服务处于运行中状态时，如何填写推理请求的request header和request body:原因分析

原因分析在线服务部署完成且服务处于运行中状态后，可以通过调用指南页签的调用地址对模型发起预测请求，出于安全考虑，ModelArts会通过相关的认证鉴权机制避免在线服务被无关人员非法调用。所以在预测请求的header信息中包含的是调用者的身份信息，在body部分是需要进行预测的内容。 header的部分需要按照华为云的相关机制进行认证，body部分需要根据模型的要求如前处理脚本的要求，如自定义镜像的要求进行输入。

AI开发平台ModelArts

AI开发平台ModelArts-在线服务处于运行中状态时，如何填写推理请求的request header和request body:处理方法

处理方法 Header：在调用指南页签上最多可以获取到两个api地址，分别是支持 IAM /AKSK认证的地址以及支持APP认证的地址，对于支持不同认证方式的地址，对header的组织也不同，具体如下： IAM/AKSK认证方式：需要在header的X-Auth-Token字段上填入该租户在该region的domain级别的token。具体指导参见连接：获取IAM用户Token。 APP认证的方式：APP认证方式又可以细分为AppCode认证和APP签名认证。 AppCode认证需要在header的X-Apig-AppCode字段上填入绑定给该在线服务的APP的AppCode。 APP签名认证需要在header的X-Sdk-Date和Authorization字段中填入通过sdk或者工具使用该在线服务绑定的APP的AppKey和AppSecret所生产的这两个字段的值，以完成对该请求的签名认证。具体指导参见链接：访问在线服务（APP认证）。 Body： body的组装和模型强相关，不同来源的模型body的组装方式不同。模型为从容器镜像中导入的：需要按照自定义镜像的要求组织，请咨询该镜像的制作人。模型为从对象存储(OBS)导入的：此时对body的要求会在推理代码中体现，具体在推理代码的_preprocess方法中，该方法将输入的http body转换成模型期望的输入，具体的指导可以查看文档：模型推理代码编写说明。模型从AI Gallery中获取的：请查看AI Gallery中的调用说明或者咨询该模型的提供方。

AI开发平台ModelArts

AI开发平台ModelArts-旧版训练迁移至新版训练需要注意哪些问题？:新旧版训练代码适配的差异

新旧版训练代码适配的差异旧版训练中，用户需要在输入输出数据上做如下配置： #解析命令行参数import argparseparser = argparse.ArgumentParser(description='MindSpore Lenet Example')parser.add_argument('--data_url', type=str, default="./Data", help='path where the dataset is saved')parser.add_argument('--train_url', type=str, default="./Model", help='if is test, must provide\ path where the trained ckpt file')args = parser.parse_args()...#下载数据参数至容器本地，在代码中使用local_data_path代表训练输入位置mox.file.copy_parallel(args.data_url, local_data_path)...#上传容器本地数据至obs路径mox.file.copy_parallel(local_output_path, args.train_url)

AI开发平台ModelArts

AI开发平台ModelArts-旧版训练迁移至新版训练需要注意哪些问题？:新旧版训练预置引擎差异

新旧版训练预置引擎差异新版的预置训练引擎默认安装Moxing2.0.0及以上版本。新版的预置训练引擎统一使用了Python3.7及以上版本。新版镜像修改了默认的HOME目录，由“/home/work”变为“/home/ma-user”，请注意识别训练代码中是否有“/home/work”的硬编码。提供预置引擎类型有差异。新版的预置引擎在常用的训练引擎上进行了升级。如果您需要使用旧版训练引擎，单击显示旧版引擎即可选择旧版引擎。新旧版支持的预置引擎差异请参考表1。详细的训练引擎版本说明请参考新版训练和旧版训练分别支持的AI引擎。表1 新旧版预置引擎差异工作环境预置训练I引擎与版本旧版训练新版训练 TensorFlow Tensorflow-1.8.0 √ x Tensorflow-1.13.1 √ 后续版本支持 Tensorflow-2.1.0 √ √ MXNet MXNet-1.2.1 √ x Caffe Caffe-1.0.0 √ x Spark_MLlib Spark-2.3.2 √ x Ray RAY-0.7.4 √ x XGBoost-Sklearn XGBoost-0.80-Sklearn-0.18.1 √ x PyTorch PyTorch-1.0.0 √ x PyTorch-1.3.0 √ x PyTorch-1.4.0 √ x PyTorch-1.8.0 x √ Ascend-Powered-Engine Mindspore-1.3.0 √ x Mindspore-1.7.0 x √ Tensorflow-1.15 √ √ MPI MindSpore-1.3.0 x √ Horovod horovod_0.20.0-tensorflow_2.1.0 x √ horovod_0.22.1-pytorch_1.8.0 x √ MindSpore-GPU MindSpore-1.1.0 √ x MindSpore-1.2.0 √ x

AI开发平台ModelArts

AI开发平台ModelArts-旧版训练迁移至新版训练需要注意哪些问题？:新旧版创建训练作业方式差异

新旧版创建训练作业方式差异旧版训练支持使用“算法管理”（包含已保存的算法和订阅的算法）、“常用框架”、“自定义”（即自定义镜像）方式创建训练作业。新版训练支持使用“自定义算法”、“我的算法”、“我的订阅”方式来创建训练作业。新版训练的创建方式有了更明确的类别划分，选择方式和旧版训练存在区别。旧版中使用“算法管理”中已保存的算法创建训练作业的用户，可以在新版训练中使用“我的算法”创建训练作业。旧版中使用“算法管理”中订阅的算法创建训练作业的用户，可以在新版训练中使用“我的订阅”创建训练作业。旧版中使用“常用框架”创建训练作业的用户，可以在新版训练中使用“自定义算法”创建训练作业（启动方式选择“预置框架”）。旧版中使用“自定义”（即自定义镜像）创建训练作业的用户，可以在新版训练中使用“自定义算法”创建训练作业（启动方式选择“自定义”）。

AI开发平台ModelArts

AI开发平台ModelArts-动态挂载OBS并行文件系统成功，但是在Notebook的JupyterLab中无法看到本地挂载点:原因分析

原因分析本地挂载目录是在Notebook容器的“~/data”目录下创建的demo-yf文件夹，而JupyterLab左侧导航默认路径为“~/work”目录，相当于/data和/work是同一层级，所以在JupyterLab中看不到。打开Terminal后，默认为~work目录，执行如下命令进入~data目录查看本地挂载路径： (PyTorch-1.8) [ma-user work]$cd(PyTorch-1.8) [ma-user ~]$cd /data(PyTorch-1.8) [ma-user data]$ls

AI开发平台ModelArts

AI开发平台ModelArts-什么是区域、可用区？:如何选择区域？

如何选择区域？选择区域时，您需要考虑以下几个因素：地理位置一般情况下，建议就近选择靠近您或者您的目标用户的区域，这样可以减少网络时延，提高访问速度。在除中国大陆以外的亚太地区有业务的用户，可以选择“中国-香港”、“亚太-曼谷”或“亚太-新加坡”区域。在非洲地区有业务的用户，可以选择“非洲-约翰内斯堡”区域。在欧洲地区有业务的用户，可以选择“欧洲-巴黎”区域。在拉丁美洲地区有业务的用户，可以选择“拉美-圣地亚哥”区域。 “拉美-圣地亚哥”区域位于智利。资源的价格不同区域的资源价格可能有差异，请参见华为云服务价格详情。

AI开发平台ModelArts

云服务器内容精选

AI开发平台MODELARTS

7*24

备案

专业服务

退订

建议反馈

售前咨询热线