检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在统一身份认证服务页面的左侧导航选择“用户组”,在用户组页面查找待授权的用户组名称,在右侧的操作列单击“授权”,勾选步骤2创建的自定义策略,单击“下一步”,选择授权范围方案,单击“确定”。 此时,该用户组下的所有用户均有权限通过Cloud Shell登录运行中的训练作业容器。 如果没有用户
0”更换为“NVIDIA 515+CUDA 11.7”。 操作步骤 卸载原有版本的NVIDIA和CUDA。 查看使用apt包管理方式安装的nvidia软件包, 执行如下命令实现查看和卸载。 dpkg -l | grep nvidia dpkg -l | grep cuda sudo apt-get
Server算力资源和镜像版本配套关系章节查看已安装的软件。下面为常见的软件安装步骤,您可针对需要安装的软件查看对应的内容: 安装NVIDIA驱动 安装CUDA驱动 安装Docker 安装nvidia-fabricmanager 以下提供常见的配置场景,您可查看相关文档方便您快速配置: GP
name)和用户ID(user_id)。获取步骤如下: 注册并登录管理控制台。 鼠标移动至用户名,在下拉列表中单击“我的凭证”。 在“API凭证”页面,查看“IAM用户名”和“IAM用户ID”。 图1 获取用户名和ID 父主题: 公共参数
/home/ma-user/ascend_cloud_ops-1.0.0-py3-none-any.whl /home/ma-user/cann_ops-1.0.0-py3-none-any.whl RUN pip install /home/ma-user/ascend_cloud_ops-1.0.0-py3-none-any
Gallery中,您可以查找共享的镜像并用于AI开发。 使用镜像 登录“AI Gallery”。 选择“资产集市 > 镜像”,进入镜像页面,该页面展示了所有共享的镜像。 搜索业务所需的镜像,请参见查找和收藏资产。 单击目标镜像进入详情页面。 在详情页面您可以查看镜像的AI引擎框架、使
带有版本信息的数据集对象。 属性总览 您可以使用DatasetImportStep来构建数据集导入节点,DatasetImportStep结构如下。 表1 DatasetImportStep 属性 描述 是否必填 数据类型 name 数据集导入节点的名称,命名规范(只能包含英文字
日志”支持简单查询。 如果开启此功能,批量服务的运行日志会输出存放到云日志服务LTS。LTS自动创建日志组和日志流,默认缓存7天内的运行日志。如需了解LTS专业日志管理功能,请参见云日志服务。 说明: “运行日志输出”开启后,不支持关闭。 LTS服务提供的日志查询和日志存储功能涉
在左侧导航栏,单击“鉴权管理”。 在“鉴权管理”页面,单击“创建API Key”,填写描述信息后,单击“确认”会返回“您的密钥”,请复制保存密钥,单击“关闭”后将无法再次查看密钥。 最多支持创建5个密钥,密钥只会在新建后显示一次,请妥善保存。当密钥丢失将无法找回,请新建API Key获取新的访问密钥。 选择常驻模型API。
应卡数已经挂载 npu-smi info -t board -i 1 | egrep -i "software|firmware" #查看驱动和固件版本 如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。
docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
String 用户项目ID。获取方法请参见获取项目ID和名称。 training_job_id 是 String 训练作业ID。获取方法请参见查询训练作业列表。 表2 Query参数 参数 是否必选 参数类型 描述 offset 否 Integer 数据条目偏移量。 limit 否 Integer
connection to xxx 问题现象 原因分析 执行VS Code Remote SSH连接失败。 解决方法 单击弹窗右上角关闭弹窗,查看OUTPUT中的具体报错信息,并参考后续章节列举的几种常见报错解决问题。 父主题: VS Code连接开发环境失败故障处理
docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
docker-engine-selinux.noarch docker-runc.aarch64 配置IP转发,用于容器内的网络访问。执行以下命令查看net.ipv4.ip_forward配置项的值,如果为1,可跳过此步骤。 sysctl -p | grep net.ipv4.ip_forward
String 用户指定的network名称。 os.modelarts/workspace.id String 工作空间ID。获取方法请参见查询工作空间列表。未创建工作空间时默认值为“0”,存在创建并使用的工作空间,以实际取值为准。 表5 NetworkMetadataAnnotations
型训练 > 训练作业”。 在训练作业列表中,单击作业名称进入训练作业详情页面。 在训练作业详情页面,单击“故障恢复详情”页签查看故障恢复信息。 图1 查看故障恢复详情 父主题: 模型训练高可靠性
资源不足:跳转到BMS页面,查看要购买的规格是否售罄,如果该规格售罄,说明无该规格资源,需要联系客户经理获取到资源后再进行购买。 配额不足:查看账户的资源配额是否满足,若该账号下资源配额,包括核心数、RAM等,如果未满足也会导致创建失败,需要申请配额后再进行购买。 BMS机器内部错误:查看BMS界面