-
日志提示“cuda runtime error (10) : invalid device ordinal at xxx” - AI开发平台ModelArts
如果cuda相关运算设置的卡ID号在所选规格范围内,但是依旧出现了上述报错。可能是该资源节点中存在GPU卡损坏的情况,导致实际能检测到的卡少于所选规格。 处理方法 建议直接根据系统分卡情况下传进去的CUDA_VISIBLE_DEVICES去设置,不用手动指定默认的。 如果发现资源节点中存在GPU卡损坏,请联系技术支持处理。
-
GitHub开源仓库Clone - AI开发平台ModelArts
com/jupyterlab/extension-examples.git测试网络连通情况。 图6 Clone仓库失败 如果克隆时遇到Notebook当前目录下已有该仓库,系统给出提示仓库名称重复,此时可以单击“覆盖”继续克隆仓库,也可以单击取消。 父主题: 上传文件至JupyterLab
-
从AI Gallery订阅的Workflow如何使用 - AI开发平台ModelArts
Gallery的Workflow案例库。 从AI Gallery的Workflow资产页面,选择并订阅一个Workflow,勾选“我已阅读 《数据安全与隐私风险承担条款》和《华为云AI Gallery服务协议》”后,单击“继续订阅”。 订阅完成后,单击“运行”后跳转到ModelArts控制台界面,选择资产版本、Wo
-
推理基础镜像详情TensorFlow(CPU/GPU) - AI开发平台ModelArts
04-x86_64-20221121111529-d65d817 镜像构建时间:20220713110657(yyyy-mm-dd-hh-mm-ss) 镜像系统版本:Ubuntu 18.04.4 LTS cuda:10.1.243 cudnn:7.6.5.32 Python解释器路径及版本:/ho
-
数据校验 - AI开发平台ModelArts
默认值 -1 表示不做裁剪。 输入要求 算子输入分为两种,“数据集”或“OBS目录”。 选择“数据集”,请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。 选择“OBS目录”,存放结构又分两种情况,“仅包含图片”或“包含图片和标注信息”。
-
进阶用法的样例代码 - AI开发平台ModelArts
file支持的接口,那么可以利用已有的接口先实现这个新接口,然后覆盖原API。如os.path.isfile不在支持的接口范围内,当用户调用mox.file.shift('os', 'mox')后,os.path.isfile调用的依然是Python的原生builtin方法,按如下代码将该方法覆盖:
-
场景介绍 - AI开发平台ModelArts
部署的详细过程,利用适配昇腾平台的大模型推理服务框架vLLM和华为自研昇腾Snt9B硬件,为用户提供推理部署方案,帮助用户使能大模型业务。 本方案目前仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 约束限制 推理部署使用的服务框架是vLLM(官网地址:https://github
-
场景说明 - AI开发平台ModelArts
本文详细介绍如何将本地已经制作好的模型包导入ModelArts的开发环境Notebook中进行调试和保存,然后将保存后的镜像部署到推理。本案例仅适用于华为云北京四和上海一站点。 操作流程如下: 在Notebook中拷贝模型包 在Notebook中调试模型 在Notebook中保存镜像 使用保存成功的镜像用于推理部署
-
日志提示“Please upgrade numpy to >= xxx to use this pandas version” - AI开发平台ModelArts
重新进行安装需要的版本。 import os os.system("pip uninstall -y numpy") os.system('rm -rf /home/work/anaconda/lib/python3.6/site-packages/numpy/') os.system("pip
-
创建和修改工作空间 - AI开发平台ModelArts
Content-Type →application/json 请求Body: { "name": "test_workspace", "description": "It is my workspace", "enterprise_project_id": "0", "auth_type":
-
无法导入模块 - AI开发平台ModelArts
path”中,再导入: import os import sys # __file__为获取当前执行脚本main.py的绝对路径 # os.path.dirname(__file__)获取main.py的父目录,即project_dir的绝对路径 current_path = os.path.dirname(__file__)
-
训练前卡死 - AI开发平台ModelArts
训练前卡死 作业为多节点训练,且还未开始训练时发生卡死,可以在代码中加入os.environ["NCCL_DEBUG"] = "INFO",查看NCCL DEBUG信息。 问题现象1 日志中还未出现NCCL DEBUG信息时已卡死。 解决方案1 检查代码,检查是否有参数中未传入“
-
推理基础镜像详情MindSpore(CPU/GPU) - AI开发平台ModelArts
04-x86_64-20220702120711-8590b76 镜像构建时间:20220702120711(yyyy-mm-dd-hh-mm-ss) 镜像系统版本:Ubuntu 18.04.4 LTS Python解释器路径及版本:/home/ma-user/anaconda3/envs/MindSpore/bin/python,
-
GPU A系列裸金属服务器RoCE带宽不足问题解决方法 - AI开发平台ModelArts
(Peer-to-Peer)的NVIDIA GPU直接进行内存访问(DMA)。这意味着数据可以直接在多个GPU之间传输,而无需经过CPU或系统内存,这可以显著降低延迟并提高带宽。 所以既然nccl-tests能正常测试, 但是达不到预期,可能是nv_peer_mem异常。 处理方法
-
大量数据文件,训练过程中读取数据效率低? - AI开发平台ModelArts
import os import moxing as mox TMP_CACHE_PATH = '/cache/data' mox.file.copy_parallel('FLAGS.data_url', TMP_CACHE_PATH) zip_data_path = os.path
-
场景介绍 - AI开发平台ModelArts
架Pytorch_npu+华为自研Ascend Snt9b硬件,为用户提供了开箱即用的预训练和全量微调方案。 本方案目前配套的是AscendCloud-3rdLLM-6.3.T041版本,仅适用于部分企业客户,完成本方案的部署,需要先联系您所在企业的华为方技术支持。 操作流程 图1
-
在Workflow中使用大数据能力(DLI/MRS) - AI开发平台ModelArts
理、模型训练等场景。 应用场景 需要使用MRS Spark组件进行大量数据的计算时,可以根据已有数据使用该节点进行训练计算。 使用案例 在华为云MRS服务下查看自己账号下可用的MRS集群,如果没有,则需要创建,当前需要集群有Spark组件,安装时,注意勾选上。 您可以使用MrsS
-
服务预测请求体大小限制是多少? - AI开发平台ModelArts
模型的不同可以是文本,图片,语音,视频等内容,这些内容的大小ModelArts是否有限制? 原因分析 当使用调用指南页签中显示的调用地址(华为云APIG网关服务的地址)预测时,对请求体的大小限制是12MB,超过12MB时,请求会被拦截。 如果是从ModelArts console
-
如何安装第三方包,安装报错的处理方法 - AI开发平台ModelArts
on this platform”报错,具体解决方法请参见2。 处理方法 安装第三方包 pip中存在的包,使用如下代码: import os os.system('pip install xxx') pip源中不存在的包,此处以“apex”为例,请您用如下方式将安装包上传到OBS桶中。
-
推理基础镜像详情Pytorch(CPU/GPU) - AI开发平台ModelArts
04-x86_64-20221118143845-d65d817 镜像构建时间:20220713110657 (yyyy-mm-dd-hh-mm-ss) 镜像系统版本:Ubuntu 18.04.4 LTS cuda:10.2.89 cudnn:7.6.5.32 Python解释器路径及版本:/hom