检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
--logdir ./命令,报错[Errno 13] Permission denied……。 原因分析 当前目录下包含没有权限的文件。 解决方法 建议用户新建一个文件夹(例如:tb_logs),将tensorboard的日志文件(例如:tb.events)放到新建的文件夹下,然后执行tensorboard命令。示例命令如下:
--logdir ./命令,报错[Errno 13] Permission denied……。 原因分析 当前目录下包含没有权限的文件。 解决方法 建议用户新建一个文件夹(例如:tb_logs),将tensorboard的日志文件(例如:tb.events)放到新建的文件夹下,然后执行tensorboard命令。示例命令如下:
cluster_id 否 String MRS集群ID。可登录MRS控制台查看。 cluster_mode 否 String MRS集群运行模式。可选值如下: 0:普通集群 1:安全集群 cluster_name 否 String MRS集群名称。可登录MRS控制台查看。 database_name
spec SpecResponce object 训练作业规格参数。 endpoints JobEndpointsResp object 远程接入训练作业时需要的相关配置。 表3 JobMetadata 参数 参数类型 描述 id String 训练作业ID,创建成功后由ModelArts生成返回,无需填写。
可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。 NT_NPU_NET NPU 链路 npu dcmi net异常。 NPU网络链接异常。 可能是亚健康,建议先重启节点,若重启节点后未恢复,发起维修流程。 NT_NPU_CARD_LOSE NPU 掉卡 NPU卡丢失。
specification 是 String 部署本地服务时,取值为“local”。 instance_count 是 Integer 模型部署的实例数,当前限制最大实例数为128,部署本地服务Predictor时,取值为1。 envs 否 Map<String, String> 运行模型需要的环境变量键值对,可选填,默认为空。
IsADirectoryError(21, 'Is a directory'). update products failed! 原因分析 用户代码中设置的目标路径(local_path)有误。 处理方法 需要将local_path路径设置为文件夹且后缀必须以“/”结尾。 父主题:
“A maximum of xxx real-time services are allowed.”,表示服务数量超限。 正常情况下,单个用户最多可创建20个在线服务。可采取以下方式处理: 删除状态为“异常”的服务。 删除长期不使用的服务。 因业务原因需申请更大配额,可提工单申请扩容。
权重文件存放目录。如果使用了量化功能,则使用推理模型量化章节转换后的权重。 --max-num-seqs:最大同时处理的请求数,超过后拒绝访问。 --max-model-len:推理时最大输入+最大输出tokens数量,输入超过该数量会直接返回。max-model-len的值必须小于config
object 训练作业规格参数。有此字段时,无需填写tasks字段。 endpoints 否 JobEndpointsReq object 远程接入训练作业时需要的相关配置。 表3 JobMetadata 参数 是否必选 参数类型 描述 name 是 String 训练作业名称。限制
如何在ModelArts上获得RANK_TABLE_FILE进行分布式训练? ModelArts会帮用户生成RANK_TABLE_FILE文件,可通过环境变量查看文件位置。 在Notebook中打开terminal,可以运行如下命令查看RANK_TABLE_FILE: 1 env
Kernel”如何处理? 问题现象 现象:创建Notebook文件后,右上角的Kernel状态为“No Kernel”。 原因分析 可能因为用户工作目录下的code.py和创建kernel依赖的import code文件名称冲突。 解决方案 查看“/home/ma-user/log
JupyterLab目录的文件、Terminal的文件和OBS的文件之间的关系 JupyterLab目录的文件与Terminal中work目录下的文件相同。即用户在Notebook中新建的,或者是从OBS目录中同步的文件。 挂载OBS存储的Notebook,JupyterLab目录的文件可以与OBS
是 String 用户项目ID。获取方法请参见获取项目ID和名称。 service_id 是 String 服务编号,可通过查询服务列表获取。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 X-Auth-Token 是 String 用户token。 表3
删除API 功能介绍 删除指定的API,只有对API所属服务有删除权限的用户才可以删除API。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI DELETE /v1/
解除API对APP的授权 功能介绍 解除指定的API对APP的授权,请求用户对API所属服务必须有更新权限。同URL:/v1/{project_id}/app-auth/{service_id}/apis/{api_id}/auths 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API
Content-Type 否 String 消息体的类型。设置为text/plain,返回临时预览链接。设置为application/octet-stream,返回临时下载链接。 X-Auth-Token 是 String 用户token。 响应参数 状态码: 401 表4 响应Body参数 参数 参数类型
project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 表2 请求Header参数 参数 是否必选 参数类型 描述 Content-Type 否 String 消息体的类型。设置为text/plain,返回临时预览链接。设置为application
--gpu-memory-utilization:NPU使用的显存比例,复用原vLLM的入参名称,默认为0.9。 --trust-remote-code:是否相信远程代码。 --distributed-executor-backend:多卡推理启动后端,可选值为"ray"或者"mp",其中"ray"表示
要修改代码内容。推荐使用软链接的方式解决该问题,用户只需提前建立好软链接,代码中的地址可保持不变。 新建软链接: # ln -s 源目录/文件 目标目录/文件 # 例如 ln -s /mnt/sfs_turbo/data/coco /coco 删除软链接: # rm 目标目录/文件