-
准备数据 - AI开发平台ModelArts
准备数据 本教程使用到的训练数据集是Alpaca数据集。您也可以自行准备数据集。 Alpaca数据集 本教程使用Alpaca数据集,数据集的介绍及下载链接如下。 Alpaca数据集是由OpenAI的text-davinci-003引擎生成的包含52k条指令和演示的数据集。这些指令
-
查询模型列表 - AI开发平台ModelArts
三种状态执行查询。 description 否 String 描述信息,可支持模糊匹配。 offset 否 Integer 指定要查询页的索引,默认为“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为“280”。 sort_by 否 String 指定排
-
数据生成 - AI开发平台ModelArts
do_validation True 是否做数据校验,默认为True,表示数据生成前需要进行数据校验,否则只进行数据生成。 数据输入 算子输入分为两种,“数据集”或“OBS目录”。 选择“数据集”,请从下拉框中选择ModelArts中管理的数据集及其版本。要求数据集类型与您在本任务中选择的场景类别一致。
-
开发环境如何实现IAM用户隔离? - AI开发平台ModelArts
目前有两种方案: 方案一:删除modelarts:notebook:listAllNotebooks细粒度权限。 方案二:使用工作空间功能:目前工作空间功能是“受邀开通”状态,作为企业用户您可以通过您对口的技术支持申请开通。 父主题: 更多功能咨询
-
报错“Failed to install the VS Code Server.”或“tar: Error is not recoverable: exitng now.”如何解决? - AI开发平台ModelArts
not recoverable: exitng now.”如何解决? 问题现象 或 原因分析 可能为/home/ma-user/work磁盘空间不足。 解决方法 删除/home/ma-user/work路径下无用文件。 父主题: VS Code连接开发环境失败常见问题
-
推理基础镜像详情TensorFlow(CPU/GPU) - AI开发平台ModelArts
libgoogle-glog-dev liblmdb-dev libatlas-base-dev librdmacm1 libcap2-bin libpq-dev mysql-common net-tools nginx openslide-tools openssh-client openssh-server
-
KV表转普通表 - AI开发平台ModelArts
输出结果表 output_keymap_dataframe 输出索引表 参数说明 参数名称 是否必选 参数描述 默认值 input_dataframe 是 输入df 无 input_keymap_dataframe 否 输入索引表对应的df,非必须 无 kv_col_name 是 KV列名
-
训练的数据集预处理说明 - AI开发平台ModelArts
ta.sh 。 预训练数据集预处理参数说明 预训练数据集预处理脚本scripts/llama2/1_preprocess_data.sh 中的具体参数如下: --input:原始数据集的存放路径。 --output-prefix:处理后的数据集保存路径+数据集名称(例如:moss-003-sft-data)。
-
设置元数据 - AI开发平台ModelArts
设置元数据 概述 设置数据集的元数据信息。 输入 参数 子参数 参数说明 inputs dataframe inputs为字典类型,dataframe为pyspark中的DataFrame类型对象 输出 数据集 参数说明 参数 子参数 参数说明 column_type_map_str
-
OBS目录导入数据规范说明 - AI开发平台ModelArts
OBS目录导入数据规范说明 导入数据集时,使用存储在OBS的数据时,数据的存储目录以及文件名称需满足ModelArts的规范要求。 当前只有“图像分类”、“物体检测”、“图像分割”、“文本分类”和“声音分类”标注类型支持按标注格式导入。 其中,“表格”类型的数据集,支持从OBS、
-
发布数据版本 - AI开发平台ModelArts
发布数据版本 登录ModelArts管理控制台,在左侧菜单栏中选择“数据管理 > 数据集”,进入“数据集”管理页面 在数据集列表中,单击操作列的“发布”。或者,您可以单击数据集名称,进入数据集“概览”页,在页面右上角单击“发布”。 在“发布新版本”弹出框中,填写发布数据集的相关参数,然后单击“确定”。
-
Notebook运行代码报错,在'/tmp'中到不到文件 - AI开发平台ModelArts
e'] 图1 运行代码报错 原因分析 根据报错提示,需要排查是否将大量数据被保存在“/tmp”中。 处理方法 进入到“Terminal”界面。在“/tmp”目录下,执行命令du -sh *,查看该目录下的空间占用情况。 sh-4.3$cd /tmp sh-4.3$du -sh *
-
推理基础镜像详情MindSpore(CPU/GPU) - AI开发平台ModelArts
libgoogle-glog-dev liblmdb-dev libatlas-base-dev librdmacm1 libcap2-bin libpq-dev mysql-common net-tools nginx openslide-tools openssh-client openssh-server
-
训练的数据集预处理说明 - AI开发平台ModelArts
a.sh 。 预训练数据集预处理参数说明 预训练数据集预处理脚本 scripts/llama2/1_preprocess_data.sh 中的具体参数如下: --input:原始数据集的存放路径。 --output-prefix:处理后的数据集保存路径+数据集名称(例如:alpaca_gpt4_data)。
-
查询Notebook资源类型下的标签 - AI开发平台ModelArts
查询Notebook资源类型下的标签 功能介绍 查询用户当前project下Notebook实例类型下的标签,默认查询所有工作空间,无权限不返回标签数据。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。
-
查询模型对象列表 - AI开发平台ModelArts
三种状态执行查询。 description 否 String 描述信息,可支持模糊匹配。 offset 否 Integer 指定要查询页的索引,默认为“0”。 limit 否 Integer 指定每一页返回的最大条目数,默认为“280”。 sort_by 否 String 指定排
-
使用ma-cli image get-image查询ModelArts已注册镜像 - AI开发平台ModelArts
查询指定镜像名称的镜像详情。 -wi / --workspace-id String 否 查询指定工作空间下的镜像信息。 -pn / --page-num Int 否 镜像页索引,默认是第1页。 -ps / --page-size Int 否 每页显示的镜像数量,默认是20。 示例
-
训练作业自定义镜像规范 - AI开发平台ModelArts
自定义镜像的大小推荐15GB以内,最大不要超过资源池的容器引擎空间大小的一半。镜像过大会直接影响训练作业的启动时间。 ModelArts公共资源池的容器引擎空间为50G,专属资源池的容器引擎空间的默认为50G,支持在创建专属资源池时自定义容器引擎空间。 自定义镜像的默认用户必须为“uid”为“1000”的用户。
-
推理基础镜像详情Pytorch(CPU/GPU) - AI开发平台ModelArts
libgoogle-glog-dev liblmdb-dev libatlas-base-dev librdmacm1 libcap2-bin libpq-dev mysql-common net-tools nginx openslide-tools openssh-client openssh-server
-
查询推理服务标签 - AI开发平台ModelArts
查询推理服务标签 功能介绍 查询当前项目下的推理服务标签,默认查询所有工作空间,无权限不返回标签数据。 调试 您可以在API Explorer中调试该接口,支持自动认证鉴权。API Explorer可以自动生成SDK代码示例,并提供SDK代码示例调试功能。 URI GET /v1