检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
在Notebook中安装依赖包时报错,报错截图如下: 原因分析 pypi源没有这个包或源不可用。 解决方案 使用别的源下载。 pip install -i 源地址 包名 父主题: 环境配置故障
创建Workflow数据集版本发布节点 功能介绍 通过对ModelArts数据集能力进行封装,实现数据集的版本自动发布的功能。数据集版本发布节点主要用于将已存在的数据集或者标注任务进行版本发布,每个版本相当于数据的一个快照,可用于后续的数据溯源。主要应用场景如下: 对于数据标注这种操作,
指导:JupyterLab常用功能介绍。 由于CodeLab的存储为系统默认路径,在使用“上传文件”或“下载文件至本地”时,只能使用JupyterLab页面提供的功能。 如需使用大文件上传和下载的功能,建议您前往Notebook,创建一个收费的实例进行使用。 切换规格。 Code
th kv_cache_scales.json #输入Step2 抽取kv-cache量化系数生成的json文件路径; 如果只测试推理功能和性能,不需要此json文件,此时scale系数默认为1,但是可能会造成精度下降。 父主题: 推理模型量化
Workflow数据集标注节点代码样例 主要包含三种场景的用例: 场景一:基于用户指定的数据集创建标注任务,并等待用户标注完成。 使用场景: 用户只创建了一个未标注完成的数据集,需要在工作流运行时对数据进行人工标注。 可以放在数据集导入节点之后,对导入的新数据进行人工标注。 数据准备:提
发布免费模型 数据集的分享和下载 AI Gallery的资产集市提供了数据集的分享和下载。订阅者可在AI Gallery搜索并下载满足业务需要的数据集,存储至当前帐号的OBS桶或ModelArts的数据集列表。分享者可将已处理过的数据集发布至AI Gallery。 下载数据集 AI Gallery发布数据集
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
在资源池详情页面,单击“配置管理”,在配置管理页面,可以修改设置监控的命名空间、修改集群配置,配置镜像预热信息。 单击监控的图标,可以开启或关闭监控信息,并设置监控的命名空间。监控使用请参考使用Prometheus查看Lite Cluster监控指标。 单击集群配置的图标,可以设置绑核、Dropcache、大页
对于不支持断点训练的模型,如果选择训练输出路径不是空目录,会出现该报错。 处理方法 对于不支持断点训练的模型,请您将模型的输出路径train_url设置为空目录。 父主题: 预置算法运行故障
default="True", description="是否进行数据清洗, 数据格式异常会导致训练失败,建议开启,保证训练稳定性。数据量过大时,数据清洗可能耗时较久,可自行线下清洗(支持BMP.JPEG,PNG格式, RGB三通道)。建议用JPEG格式数据")), wf.Al
kpoints中最大迭代次数(iter_000xxxx)Megatron格式权重文件。 lora微调不支持断点续训 启动前需检查latest_checkpointed_iteration.txt文件中内容是否与所需iter_000xxxx数字(表示训练后保存权重对应迭代次数)保持
查找搜索节点池 在节点池管理页面的搜索栏中,支持通过节点池名称、规格 、容器引擎空间大小、可用区等关键字搜索节点池。 设置节点池列表显示信息 在节点池管理页面中,单击右上角的设置图标,支持对节点池列表中显示的信息进行自定义。 父主题: Lite Cluster资源管理
如何安装第三方包,安装报错的处理方法 下载代码目录失败 训练作业日志中提示“No such file or directory” 训练过程中无法找到so文件 ModelArts训练作业无法解析参数,日志报错 训练输出路径被其他作业使用 PyTorch1.0引擎提示“RuntimeError: std:exception”
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行install.sh文件,来安装依赖以及下载完整代码。命令如下:
使用基础镜像 通过ECS获取和上传基础镜像将镜像上传至SWR服务后,可创建训练作业,在“选择镜像”中选择SWR中基础镜像。 由于基础镜像内需要安装固定版本依赖包,如果直接使用基础镜像进行训练,每次创建训练作业时,训练作业的图1中都需要执行 install.sh文件,来安装依赖以及下载完整代码。
参数类型 描述 file_name String yaml文件名称。 content String yaml文件内容。 请求示例 如下查询algorithm_type为hpo且algorithm_name为Bayes的yaml配置文件内容。 GET https://endpoint/v