检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
E}" 2>&1 & chmod 640 ${KERNEL_GATEWAY_LOG_FILE} 执行命令ps -ef检查进程是否启动。 图3 检查进程是否启动 父主题: 环境配置故障
s集群。请参见弹性集群k8s Cluster。 ModelArts Lite Cluster主要支持以下功能: 同一昇腾算力资源池中,支持存在不同订购周期的服务器 同一昇腾算力资源池中,支持资源池中订购不同计费类型/计费周期的资源,解决如下用户的使用场景: 用户在包长周期的资源池中无法扩容短周期的节点。
禁等相关敏感词,否则发布审核无法通过。 可见范围 “所有用户可见”:表示公开资产,所有用户都可以查看该资产。 “指定用户可见”:输入账号名、账号ID或用户昵称搜索并选择用户,使其可见该资产。 可用范围 选择是否启用“申请用户可用”。 勾选启用:当用户要使用该模型时需要提交申请,只
tance_id}/storage/{storage_id} 表1 路径参数 参数 是否必选 参数类型 描述 instance_id 是 String Notebook实例ID,可通过调用查询Notebook实例列表接口获取。 project_id 是 String 用户项目ID,获取方法请参见获取项目ID和名称。
raining_job_id}/autosearch-parameter-analysis/{parameter_name} 表1 路径参数 参数 是否必选 参数类型 描述 parameter_name 是 String 搜索参数名称 project_id 是 String 用户
_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 pool_name 是 String 资源池名称。 nodepool_name 是 String 节点池名称。 表2 Query参数
//bucket-name/dir1/ma-user/”。其中,桶名称和文件夹的名称均可以按照业务需求自定义。 参数说明 表1 请求参数说明 参数 是否必选 参数类型 描述 session 是 Object 会话对象。 src_local_dir 是 String 本地需要上传的文件夹路径。
/v2/{project_id}/workflows/{workflow_id}/subscriptions/{subscription_id} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 workflow_id
开页面,表示当前用户具备SFS的操作权限。 验证ECS权限。 在左上角的服务列表中,选择ECS服务,进入ECS管理控制台。 在ECS管理控制台,单击右上角的“购买弹性云服务器”,如果能正常打开页面,表示当前用户具备ECS的操作权限。 验证VPC权限。 在左上角的服务列表中,选择VPC服务,进入VPC管理控制台。
URI GET /v1/{project_id}/plugintemplates/{plugintemplate_name} 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 plugintemplate_name
出现该问题的可能原因如下: 用户/训练系统,将CUDA_VISIBLE_DEVICES传错了,检查CUDA_VISIBLE_DEVICES变量是否正常。 用户选择了1/2/4卡这些规格的作业,然后设置了CUDA_VISIBLE_DEVICES=‘1’这种类似固定的卡ID号,与实际选择的卡ID不匹配。
s的数量对应。 --benchmark-csv:结果保存路径,如benchmark_parallel.csv。 脚本运行完成后,测试结果保存在benchmark_parallel.csv中,示例如下图所示。 图1 静态benchmark测试结果(示意图) 动态benchmark
s的数量对应。 --benchmark-csv:结果保存文件,如benchmark_parallel.csv。 脚本运行完成后,测试结果保存在benchmark_parallel.csv中,示例如下图所示。 图1 静态benchmark测试结果(示意图) 动态benchmark
--install-for-all 安装完成后再使用如下命令查看是否安装正确。 npu-smi info -t board -i 1 | egrep -i "software|firmware" 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。
utosearch/yaml-templates 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 用户项目ID。获取方法请参见获取项目ID和名称。 请求参数 无 响应参数 状态码:200 表2 响应Body参数 参数 参数类型 描述 yaml_templates
如出现错误,可能是机器上的NPU设备没有正常安装,或者NPU镜像被其他容器挂载。请先正常安装固件和驱动,或释放被挂载的NPU。 检查docker是否安装。 docker -v #检查docker是否安装 如尚未安装,运行以下命令安装docker。 yum install -y docker-engine.aarch64
推荐使用“西南-贵阳一”Region上的Server资源和Ascend Snt9B单机。 表1 环境要求 名称 版本 CANN cann_8.0.rc3 驱动 24.1.rc1 PyTorch 2.1.0 获取软件和镜像 表2 获取软件和镜像 分类 名称 获取路径 插件代码包 AscendCloud-6
bs/autosearch/yaml-templates/{algorithm_type}/{algorithm_name} 表1 路径参数 参数 是否必选 参数类型 描述 algorithm_type 是 String 搜索算法类型。 algorithm_name 是 String
9.0训练环境中tf-1.12训练会报该错。 编译环境和训练环境的cuda版本不一致时,可参考如下处理方法: 在业务执行前加如下命令,检查是否能找到so文件。如果已经找到so文件,执行2;如果没有找到,执行3。 import os; os.system(find /usr -name
但是达不到预期,可能是nv_peer_mem异常。 处理方法 查看nv_peer_mem是否已安装。 dpkg -i | grep peer 如果未安装则需要安装,安装方法参考装机指导。 如果已安装则进入下一检测项。 查看该软件是否已经加载至内核。 lsmod | grep peer 如果没有则需要重新加载至内核,执行如下命令进行加载: