检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
部署在线服务时,自定义预测脚本python依赖包出现冲突,导致运行出错 导入模型时,需同时将对应的推理代码及配置文件放置在模型文件夹下。使用Python编码过程中,推荐采用相对导入方式(Python import)导入自定义包。 如果ModelArts推理框架代码内部存在同名包,
客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置,权重使用表1 模型权重中指定的Huggingface地址,数据指定data.tgz里面提供的gsm8k数据。 查看精度结果 任务完成之后会在test-benchmark目录下生成excel表格: 精度结果
客户使用工具自带精度基线Yaml则需使用accuracy_cfgs.yaml文件中默认配置,权重使用表1 模型权重中指定的Huggingface地址,数据指定data.tgz里面提供的gsm8k数据。 查看精度结果 任务完成之后会在test-benchmark目录下生成excel表格: 精度结果
选择文件路径 此时,会在IDE左侧出现该开发环境下的目录结构,选择想要上传的代码及其他文件,拖拽至目录对应的文件夹内即完成本地代码上传至云端。 在VS Code中打开要执行的代码文件,在执行代码之前需要选择合适的Python版本路径,单击下方默认的Python版本路径,此时在上方会出现该远
可取消sudoers行的注释): v1训练作业环境变量迁移v2说明: v1的DLS_TASK_NUMBER环境变量,可以使用v2的MA_NUM_HOSTS环境变量替换,即选择的训练节点数。 v1的DLS_TASK_INDEX环境变量,当前可以使用v2的VC_TASK_INDEX
以及选不到Kernel。 图1 报错Server Connection Error截图 图2 选不到Kernel 原因分析 用户误操作引起的。 解决方案 打开Terminal窗口,执行以下命令启动kernelgateway服务。 API_TYPE=kernel_gateway.jupyter_websocket
Module named XXX,表示模型中没有导入对应依赖模块。 处理方法 依赖模块没有导入,需要您在模型推理代码中导入缺失依赖模块。 例如您的模型是Pytorch框架,部署为在线服务时出现告警:ModuleNotFoundError: No module named ‘model_service
Turbo的ID。 name String SFS Turbo的名称。 status String 与SFS Turbo的连接状态信息。可选值如下: Active:SFS连通状态正常 Abnormal:SFS连通状态异常 ipAddr String SFS Turbo的访问地址。
Code下载方式: 下载地址: https://code.visualstudio.com/updates/v1_85 图1 VS Code的下载位置 VS Code版本要求: 建议用户使用VS Code 1.85.2版本进行远程连接。 VS Code安装指导如下: 图2 Windows系统下VS
结束时间,需要与开始时间一起传入。 level 否 String 指定返回的事件级别,取值范围[Info Error Warning]。 pattern 否 String 指定事件信息包含的内容,最长256个字符。 source 否 String 指定返回的事件来源,取值范围为[K8S Job Task]。
镜像过大Push任务一直在运行,或实例节点有问题。 解决方法 以对应租户的华为云账号登录SWR服务,查看镜像是否已经Push成功。 如果Push成功,请重新注册镜像。 如果未Push成功,联系SRE查看对应实例的节点是否有问题。 父主题: 自定义镜像故障
只支持布尔(bool)数据类型,或者为None。 query的shape仅支持 [B, N1, S1, D],其中N1≤ 2048,D≤ 512并且dim== 4。 对于GQA,key的shape是 [B, N2, S2, D],其中 N2 ≤ 2048,并且N1是N2的正整数倍。 不满足以上场景,则不能实现NPU_Flash_Attn功能。
IsADirectoryError(21, 'Is a directory'). update products failed! 原因分析 用户代码中设置的目标路径(local_path)有误。 处理方法 需要将local_path路径设置为文件夹且后缀必须以“/”结尾。 父主题: API/SDK
工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表4 Apps 参数 是否必选 参数类型 描述 app_id 否 String APP的编号,可通过查询APP列表获取。 响应参数 状态码: 200 表5 响应Header参数
ct-Token的值)。 响应参数 状态码: 200 表4 响应Body参数 参数 参数类型 描述 models Array of ModelListItem objects 模型元数据信息。 total_count Integer 不分页的情况下符合查询条件的总模型数量。 count
Pair的key为难例原因出现的次数,Pair的value为难例原因HardDetail。 key_sample_stats Map<String,Integer> 难例统计信息。 label_stats Array of LabelStats objects 标签统计信息列表。
用户项目ID。获取方法请参见获取项目ID和名称。 表2 Query参数 参数 是否必选 参数类型 描述 limit 否 Integer 指定每一页返回的最大条目数,取值范围[1,100],默认为10。 offset 否 Integer 分页列表的起始页,默认为0。 请求参数 无 响应参数
*,查看该目录下的空间占用情况。 sh-4.3$cd /tmp sh-4.3$du -sh * 4.0K core-js-banners 0 npm-19-41ed4c62 6.7M v8-compile-cache-1000 请删除不用的大文件。 删除示例文件“test
由于ECC错误,导致作业运行失败。 处理方法 当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。 父主题: 业务代码问题
致磁盘空间不足。 磁盘配额不足。 处理方法 查看虚拟机所使用的存储空间,再查看回收站文件占用内存,根据实际删除回收站里不需要的大文件。 在Notebook实例详情页,查看实例的存储容量。 执行如下命令,排查虚拟机所使用的存储空间,一般接近存储容量,请排查回收站占用内存。 cd /home/ma-user/work