检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
ModelArts-xxx port xxx: Connection timed out"如何解决? 问题现象 原因分析 原因分析一:实例配置的白名单IP与本地网络访问IP不符。 解决方法:请修改白名单为本地网络访问IP或者去掉白名单配置。 原因分析二:本地网络不通。 解决方法:检查本地网络以及网络限制。
ModelArts-xxx port xxx: Connection timed out"如何解决? 问题现象 原因分析 原因分析一:实例配置的白名单IP与本地网络访问IP不符。 解决方法:请修改白名单为本地网络访问IP或者去掉白名单配置。 原因分析二:本地网络不通。 解决方法:检查本地网络以及网络限制。
存储路径。 如果type为“obs”类型,该值必须填写,该值需为有效的OBS桶路径,且以“/”结束。不能指定为OBS桶的根目录,需指定为OBS桶下的具体目录。 如果type为“obsfs”类型,该值需为有效的OBS并行文件系统的桶名(当前CCE不支持挂载子目录)。 如果type为“evs”类型,该值不需要填写。
只支持布尔(bool)数据类型,或者为None。 query的shape仅支持 [B, N1, S1, D],其中N1≤ 2048,D≤ 512并且dim== 4。 对于GQA,key的shape是 [B, N2, S2, D],其中 N2 ≤ 2048,并且N1是N2的正整数倍。 不满足以上场景,则不能实现NPU_Flash_Attn功能。
只支持布尔(bool)数据类型,或者为None。 query的shape仅支持 [B, N1, S1, D],其中N1≤ 2048,D≤ 512并且dim== 4。 对于GQA,key的shape是 [B, N2, S2, D],其中 N2 ≤ 2048,并且N1是N2的正整数倍。 不满足以上场景,则不能实现NPU_Flash_Attn功能。
由于ECC错误,导致作业运行失败。 处理方法 当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。 父主题: 业务代码问题
购买ModelArts专属资源池 购买弹性云服务器ECS 基本配置: 权限配置 专属资源池VPC打通 ECS服务器挂载SFS Turbo存储 在ECS中创建ma-user和ma-group obsutils安装和配置 (可选)工作空间配置 训练: 上传数据至OBS(首次使用时需要) 上传算法至SFS
训练作业参数名称。限制为1-64位只含数字、字母、下划线或者中划线的名称。 config_desc 否 String 对训练作业的描述,默认为空,字符串的长度限制为[0,256]。 worker_server_num 是 Integer 训练作业worker的个数,最大值请从查询作业资源规格接口获取。
Code下载方式: 下载地址: https://code.visualstudio.com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求: 建议用户使用VS Code 1.85.2版本进行远程连接。 VS Code安装指导如下: 图2 Windows系统下VS
ModelArts平台从对象存储服务(OBS)中导入模型包适用于单模型场景。如果有多模型复合场景,推荐使用自定义镜像方式,通过从容器镜像(SWR)中选择元模型的方式创建AI应用部署服务。制作自定义镜像请参考从0-1制作自定义镜像并创建AI应用。 父主题: 导入模型
config_name 是 String 训练作业参数的名称。 请求消息 无请求参数。 响应消息 响应参数如表2所示。 表2 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_message String 调用失败时的错误信息。 调用成功时无此字段。 error_code
GPU A系列裸金属服务器无法获取显卡如何解决 问题现象 在A系列裸金属服务器上使用PyTorch一段时间后,出现获取显卡失败的现象,报错如下: > torch.cuda.is_available() /usr/local/lib/python3.8/dist-packages/torch/cuda/__init__
存储路径。 如果type为“obs”类型,该值必须填写,该值需为有效的OBS桶路径,且以“/”结束。不能指定为OBS桶的根目录,需指定为OBS桶下的具体目录。 如果type为“obsfs”类型,该值需为有效的OBS并行文件系统的桶名(当前CCE不支持挂载子目录)。 如果type为“evs”类型,该值不需要填写。
String 自定义镜像训练作业的自定义镜像的SWR-URL。如:“100.125.5.235:20202/jobmng/custom-cpu-base:1.0”。 user_command 否 String 自定义镜像训练作业的自定义镜像的容器的启动命令。形式为:“bash /home/work/run_train
print('start') kv_store = mxnet.kv.create('dist_async') print('end') 原因分析 worker阻塞的原因可能是连不上server。 处理方法 将如下代码放在“启动文件”里“import mxnet”之前可以看到节点间相互通信状态,同时ps能够重新发送。
Integer 指定每一页展示作业参数的总量,默认为10,“per_page”可选的范围为[1,100]。 page 否 Integer 指定要查询页的索引,默认为1。 sortBy 否 String 指定查询的排序方式,默认是根据引擎查找“engine”,目前支持的排序还有模型名称“mode
原因分析一:密钥文件未放在指定路径,详情请参考安全限制或VS Code文档。请参考解决方法一处理。 原因分析二:当操作系统为macOS/Linux时,可能是密钥文件或放置密钥的文件夹权限问题,请参考解决方法二处理。 解决方法 解决方法一: 请将密钥放在如下路径或其子路径下: Windows:C:\Users\{{user}}
同时该网络的解除关联SFS Turbo按钮置灰不可操作。 图3 关联SFS Turbo状态 原因分析 ModelArts缺少SFS Turbo委托权限导致关联或解除关联失败。 处理方法 需要您给ModelArts配置SFS Turbo委托权限,配置步骤请参考最佳实践的“委托授权ModelArts云服务使用SFS
resource_id String 可视化作业的计费资源ID。 job_id Long 可视化作业的ID。 job_desc String 可视化作业的具体描述。 duration Long 可视化作业的运行时长,单位为毫秒。 create_time Long 可视化作业的创建时间,时间戳格式。 train_url
job_desc 是 String 对可视化作业的描述,字符串的长度限制为[0,256]。 响应消息 响应参数如表3所示。 表3 响应参数 参数 参数类型 说明 is_success Boolean 请求是否成功。 error_code String 调用失败时的错误码,具体请参见错误码。 调用成功时无此字段。