检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
obsutil安装和配置 obsutil是用于访问、管理对象存储服务OBS的命令行工具,使用该工具可以对OBS进行常用的配置管理操作,如创建桶、上传文件/文件夹、下载文件/文件夹、删除文件/文件夹等。 obsutil安装和配置的具体操作指导请参见obsutils快速入门。 操作命
安装ToolKit工具时出现错误,如何处理? 问题现象 在安装ToolKit工具过程中,出现如下错误。 图1 错误提示 解决措施 此问题是因为插件版本和PyCharm版本不一致导致的,需要获取和PyCharm同一版本的插件安装,即2019.2或以上版本。 父主题: PyCharm
如何保证训练和调试时文件路径保持一致 云上挂载路径 Notebook中挂载SFS后,SFS默认在“/home/ma-user/work”路径下。在创建训练作业时,设置SFS Turbo的“云上挂载路径”为“/home/ma-user/work”,使得训练环境下SFS也在“/home/ma-user/work”路径下。
租户可见域名:指租户可访问的域名,需要格外重视安全性和合规性。 租户不可见域名:指华为云服务在内网相互调用使用的域名,外部用户无法访问到对应的权威DNS服务器;或者Internet受限访问域名,只允许华为办公网络黄&绿区华为员工及合作方或外包人员访问的域名。 华为云基础域名安全使用,避免直接为租户分配基础域名。
cuda版本不一致。 处理方法 编译环境的cuda版本与训练环境不一致,训练作业运行就会报错。例如:使用cuda版本为10的开发环境tf-1.13中编译生成的so包,在cuda版本为9.0训练环境中tf-1.12训练会报该错。 编译环境和训练环境的cuda版本不一致时,可参考如下处理方法:
2:'orange', 3:'banana'} 原因分析 训练集中的标签个数与验证集中的个数不一致,导致该错误发生。 例如,训练集中的标签共有4个,验证集中的标签只有3个。 处理方法 请您保持数据中训练集和验证集的标签数量一致。 父主题: 预置算法运行故障
若通过内网使用kubectl工具,需要将kubectl工具安装在和集群在相同vpc下的某一台机器上。单击kubectl后的“配置”按钮。按照界面提示步骤操作即可。 图3 通过内网使用kubectl工具 通过公网使用kubectl工具,可以将kubectl安装在任一台可以访问公网的机器。 首先需要绑
(可选)配置驱动 当专属资源池中的节点含有GPU/Ascend资源时,为确保GPU/Ascend资源能够正常使用,需要配置好对应的驱动。 Cluster支持两种配置驱动的方式: 方式一:购买资源池时通过自定义驱动参数进行配置 方式二:通过驱动升级功能对已有的资源池驱动版本进行升级
部署后的AI应用是如何收费的? ModelArts支持将AI应用按照业务需求部署为服务。训练类型不同,部署后的计费方式不同。 将AI应用部署为服务时,根据数据集大小评估模型的计算节点个数,根据实际编码情况选择计算模式。 具体计费方式请参见ModelArts产品价格详情。部署AI应
部署后的AI应用是如何收费的? ModelArts支持将AI应用按照业务需求部署为服务。训练类型不同,部署后的计费方式不同。 将AI应用部署为服务时,根据数据集大小评估模型的计算节点个数,根据实际编码情况选择计算模式。 具体计费方式请参见ModelArts产品价格详情。部署AI应
'NoneType' object has no attribute 'dtype'。 原因分析 训练镜像的numpy版本与Notebook中不一致。 处理方法 在代码中打印出numpy的版本,查看是否为1.18.5版本,若非该版本号则在代码开始处执行: import os os.system('pip
识。 配置流程 图1 Lite Cluster资源配置流程图 表1 Cluster资源配置流程 配置顺序 配置任务 场景说明 1 配置Lite Cluster网络 购买资源池后,需要弹性公网IP并进行网络配置,配置网络后可通过公网访问集群资源。 2 配置kubectl工具 kub
训练作业中如何判断文件夹是否复制完毕? 您可以在训练作业启动文件的脚本中,通过如下方式获取复制和被复制文件夹大小,根据结果判断是否复制完毕: import moxing as mox mox.file.get_size('obs://bucket_name/obs_file',recursive=True)
配置Lite Cluster存储 如果没有挂载任何外部存储,此时可用存储空间根据dockerBaseSize的配置来决定,可访问的存储空间比较小,因此建议通过挂载外部存储空间解决存储空间受限问题。 容器中挂载存储有多种方式,不同的场景下推荐的存储方式不一样,详情如表1所示。容器存
l后。出现Grafana登录页面即代表在Notebook中安装和配置Grafana成功。首次登录用户名和密码为admin,登录成功后请根据提示修改密码。 父主题: 安装配置Grafana
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过统一的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。
训练启动脚本说明和参数配置 本代码包中集成了不同模型的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。 如果用户进行自定义数据集预处理以及权重转换,可通过编辑 1_preprocess_data
训练启动脚本说明和参数配置 本代码包中集成了不同模型(包括llama2、llama3、Qwen、Qwen1.5 ......)的训练脚本,并可通过不同模型中的训练脚本一键式运行。训练脚本可判断是否完成预处理后的数据和权重转换的模型。如果未完成,则执行脚本,自动完成数据预处理和权重转换的过程。