检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
使用从OBS选择的数据创建表格数据集如何处理Schema信息? Schema信息表示表格的列名和对应类型,需要跟导入数据的列数保持一致。 若您的原始表格中已包含表头,需要开启“导入是否包含表头”开关,系统会导入文件的第一行(表头)作为列名,无需再手动修改Schema信息。 若您的
解决方法 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size) 和PP流水线并行(pipeline-model-parallel-size),可以尝试增加
解决方法: 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size) 和PP流水线并行(pipeline-model-parallel-size),可以尝试增加
解决方法 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size) 和PP流水线并行(pipeline-model-parallel-size),可以尝试增加
解决方法 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size) 和PP流水线并行(pipeline-model-parallel-size),可以尝试增加
解决方法 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size) 和PP流水线并行(pipeline-model-parallel-size),可以尝试增加
解决方法: 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size) 和PP流水线并行(pipeline-model-paralle
解决方法: 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size) 和PP流水线并行(pipeline-model-paralle
解决方法 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size) 和PP流水线并行(pipeline-model-parallel-size),可以尝试增加
解决方法: 通过npu-smi info查看是否有进程资源占用NPU,导致训练时显存不足。解决可通过kill掉残留的进程或等待资源释放。 可调整参数:TP张量并行(tensor-model-parallel-size) 和PP流水线并行(pipeline-model-parallel-size),可以尝试增加
在线服务处于运行中状态时,如何填写推理请求的request header和request body 问题现象 部署在线服务完成且在线服务处于“运行中”状态时,通过ModelArts console的调用指南tab页签可以获取到推理请求的地址,但是不知道如何填写推理请求的header及body。
两个训练作业的模型都保存在容器相同的目录下是否有冲突? ModelArts训练作业之间的存储目录相互不影响,每个环境之间彼此隔离,看不到其他作业的数据。 父主题: 查看作业详情
如何解决训练过程中出现的cudaCheckError错误? 问题现象 Notebook中,运行训练代码出现如下错误。 cudaCheckError() failed : no kernel image is available for execution on the device
数据标注中,难例集如何定义?什么情况下会被识别为难例? 难例是指难以识别的样本,目前只有图像分类和检测支持难例。 父主题: Standard数据管理
使用SSH连接,报错“Connection reset”如何解决? 问题现象 原因分析 可能是用户网络限制原因。比如部分企业网络的SSH是默认屏蔽的。 解决方法 用户重新进行申请SSH权限。 父主题: VS Code连接开发环境失败故障处理
创建训练作业时提示“对象目录大小/数量超过限制”,如何解决? 问题分析 创建训练作业选择的代码目录有大小和文件个数限制。 解决方法 将代码目录中除代码以外的文件删除或存放到其他目录,保证代码目录大小不超过128MB,文件个数不超过4096个。 父主题: 创建训练作业
invalid format”如何解决? 问题现象 原因分析 密钥文件内容不正确或格式不正确。 解决方法 请使用正确的密钥文件进行远程访问,如果本地没有正确的密钥文件或文件已损坏,可以尝试: 登录控制台,搜索“数据加密服务 DEW”,选择“密钥对管理 > 账号密钥对”页签,查看并下载正确的密钥文件。
如何将开发环境Notebook A的数据复制到Notebook B中? 目前不支持直接将Notebook A的数据复制到Notebook B,如果需要复制数据,可参考如下步骤操作: 将Notebook A的数据上传至OBS; 下载OBS中的数据至Notebook B。 文件的上传
如何保证训练和调试时文件路径保持一致 云上挂载路径 Notebook中挂载SFS后,SFS默认在“/home/ma-user/work”路径下。在创建训练作业时,设置SFS Turbo的“云上挂载路径”为“/home/ma-user/work”,使得训练环境下SFS也在“/home/ma-user/work”路径下。
的推理接口是vllm。 --host:服务IP地址,如127.0.0.1。 --port:服务端口,和推理服务端口8080。 --url:API接口公网地址与"/v1/completions"拼接而成,部署成功后的在线服务详情页中可查看API接口公网地址。 图1 API接口公网地址