检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
下载Megatron-LM、MindSpeed、ModelLink源码,并将以上源码打包至镜像环境中。 若用户希望修改源码,则需要使用新镜像创建容器,在容器内的/home/ma-user工作目录中访问并编辑以上源码文件。编辑完成后重新构建新镜像。 注意:训练作业的资源池以及ECS都需要联通外网,否则会安装和下载失败。
Server,请手动安装。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Comm
name_cn String 配额名称(中文)。 unit_cn String 数量单位(中文)。 name_en String 工作空间ID,系统生成的32位UUID,不带橫线。默认的工作空间id为'0'。 unit_en String 数量单位(英文)。 请求示例 PUT http
2版本进行远程连接。 VS Code安装指导如下: 图2 Windows系统下VS Code安装指导 Linux系统下,执行命令sudo dpkg -i code_1.85.2-1705561292_amd64.deb安装。 Linux系统用户,需要在非root用户进行VS Code安装。 父主题:
e_path。 import os current_path = os.path.dirname(os.path.realpath(__file__)) # BootfileDirectory, 启动文件所在的目录 project_root = os.path.dirname(current_path)
节点资源,不同机型的节点对应的操作系统、适用的CCE集群版本等不相同,为了便于您制作镜像、升级软件等操作,本文对不同机型对应的软件配套版本做了详细介绍。 裸金属服务器的对应的软件配套版本 表1 裸金属服务器 类型 卡类型 RDMA网络协议 操作系统 适用范围、约束 依赖插件 NPU
Snt9裸金属服务器支持的镜像详情 镜像名称:ModelArts-Euler2.8_Aarch64_Snt9_C78 表1 镜像详情 软件类型 版本详情 操作系统 EulerOS 2.0 (SP8) 内核版本 4.19.36-vhulk1907.1.0.h619.eulerosv2r8.aarch64
下载ComfyUI软件包。 下载ComfyUI源码并切换分支。 git clone https://github.com/comfyanonymous/ComfyUI.git cd ComfyUI git checkout a82fae23757 如果上述方法无法下载ComfyUI源码,可参考如下操作,手
Server时间过长。 解决方法 打开VS Code,选择“Help>About”,并记下“Commit”的ID码。 确认创建Notebook实例使用的镜像的系统架构,可以在Notebook中打开Terminal,通过命令uname -m查看。 下载对应版本的vscode-server,根据Comm
在Windows上安装配置Grafana 适用场景 本章节适用于在Windows操作系统的PC中安装配置Grafana。 操作步骤 下载Grafana安装包。 进入下载链接,单击Download the installer,等待下载成功即可。 安装Grafana。 双击安装包,按照指示流程安装完成即可。
(可选)本地安装ma-cli 使用场景 本文以Windows系统为例,介绍如何在Windows环境中安装ma-cli。 Step1:安装ModelArts SDK 参考本地安装ModelArts SDK完成SDK的安装。 Step2:下载ma-cli 下载ma-cli软件包。 完成软件包签名校验。
创建工作空间 功能介绍 创建工作空间("default"为系统预留的默认工作空间名称,不能使用)。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v1/
uncorrectable ECC error encountered 原因分析 由于ECC错误,导致作业运行失败。 处理方法 当ECC错误且计数超过64时,系统会自动隔离故障节点,重启训练作业确认故障是否解决。如果未隔离的节点导致训练作业再次失败或卡死,请联系技术支持处理。 父主题: 业务代码问题
创建导入任务 功能介绍 创建数据集的导入任务:从存储系统导入样本、标签到数据集。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI POST /v2/{project_
Cluster监控指标 Prometheus是一款开源监控工具,ModelArts支持Exporter功能,方便用户使用Prometheus等第三方监控系统获取ModelArts采集到的指标数据。 本章节主要介绍如何通过Prometheus查看Lite Cluster监控指标。 约束限制 需要在ModelArts
在ModelArts控制台界面上单击VS Code接入并在新界面单击打开,VS Code打开后未进行远程连接 如果本地为Linux系统,见原因分析二。 原因分析一 自动安装VS Code插件ModelArts-HuaweiCloud失败。 解决方法一 方法一:检查VS Code网络是否正常。在VS
在ModelArts中使用边缘节点部署边缘服务时能否使用http接口协议? 系统默认使用https。如果您想使用http,可以采取以下两种方式: 方式一:在部署边缘服务时添加如下环境变量: MODELARTS_SSL_ENABLED = false 图1 添加环境变量 方式二:在
点续训 企业在具体使用大模型接入企业应用系统的时候,不仅要考虑模型体验情况,还需要考虑模型具体的精度效果,和实际应用成本。 MaaS提供灵活的模型开发能力,同时基于昇腾云的算力底座能力,提供了若干保障客户商业应用的关键能力。 保障客户系统应用大模型的成本效率,按需收费,按需扩缩的
Error 802原因为缺少fabricmanager,可能由于以下原因导致nvidia-fabricmanager.service不工作: 可能系统资源不足、如内存不足、内存泄露。 硬件故障、如IB网络或者GPU互联设备故障等。 没安装nvidia-fabricmanager组件或被误卸载。
UnrecognizedFlagError:Unknown command line flag 'task_index' 原因分析 运行参数中未定义该参数。 在训练环境中,系统可能会传入在Python脚本里没有定义的其他参数名称,导致参数无法解析,日志报错。 处理方法 参数定义中增加该参数的定义,代码示例如下: parser