云服务器内容精选

  • 图像分类数据集标注文件说明 该说明适用于表1中的图片分类标注文件格式。 图像分类数据集支持格式为ModelArts image classification 1.0。 要求用户将标注对象和标注文件存储在同一目录,并且一一对应,标注文件txt中可以放单标签,也可以放多标签。 当目录下存在对应的txt文件时,以txt文件内容作为图像的标签。 示例如下所示,import-dir-1和import-dir-2为导入子目录。 dataset-import-example ├─import-dir-1 │ 10.jpg │ 10.txt │ 11.jpg │ 11.txt │ 12.jpg │ 12.txt └─import-dir-2 1.jpg 1.txt 2.jpg 2.txt 单标签的标签文件示例,如1.txt文件内容如下所示。 猫 多标签的标签文件示例,如2.txt文件内容如下所示。 猫 狗
  • 异常检测数据集标注文件说明 该说明适用于表1中的异常检测标注文件格式。 要求用户将标注文件和图片存于同一文件夹,正常和异常分文件夹创建。 当目录下存在对应的txt文件时,以txt文件内容作为正常或异常的标签。 示例如下所示,import-dir-1和import-dir-2为导入子目录。 dataset-import-example ├─abnormal │ IMG_20180919_114732.jpg │ IMG_20180919_114732.txt │ IMG_20180919_114745.jpg │ IMG_20180919_114745.txt └─normal │ IMG_20180919_114945.jpg │ IMG_20180919_114945.txt │ IMG_20180919_114949.jpg │ IMG_20180919_114949.txt 异常标签的标签文件示例,如IMG_20180919_114732.txt文件内容如下所示。 abnormal 正常标签的标签文件示例,如IMG_20180919_114945.txt文件内容如下所示。 normal
  • 姿态估计标注json文件说明 该说明适用于表1中的姿态估计标注文件格式。 姿态估计标注基于开源coco人物关键点标注格式对数据集进行标注,需包含annotations,train,val文件夹。annotations文件夹下用train.json和val.json记录训练集和验证集标注,train和val文件夹下保存具体的图片,示例如下所示: ├─annotations │ train.json │ val.json ├─train │ IMG_20180919_114745.jpg ├─val │ IMG_20180919_114945.jpg 具体的json标注文件具体示例: { "images": [ { "license": 2, "file_name": "000000000139.jpg", "coco_url": "", "height": 426, "width": 640, "date_captured": "2013-11-21 01:34:01", "flickr_url": "", "id": 139 } ], "annotations": [ { "num_keypoints": 15, "area": 2913.1104, "iscrowd": 0, "keypoints": [ 427, 170, 1, 429, 169, 2, 0, 0, 0, 434, 168, 2, 0, 0, 0, 441, 177, 2, 446, 177, 2, 437, 200, 2, 430, 206, 2, 430, 220, 2, 420, 215, 2, 445, 226, 2, 452, 223, 2, 447, 260, 2, 454, 257, 2, 455, 290, 2, 459, 286, 2 ], "image_id": 139, "bbox": [ 412.8, 157.61, 53.05, 138.01 ], "category_id": 1, "id": 230831 }, ], "categories": [ { "supercategory": "person", "id": 1, "name": "person", "keypoints": [ "nose", "left_eye", "right_eye", "left_ear", "right_ear", "left_shoulder", "right_shoulder", "left_elbow", "right_elbow", "left_wrist", "right_wrist", "left_hip", "right_hip", "left_knee", "right_knee", "left_ankle", "right_ankle" ], "skeleton": [ [ 16, 14 ], [ 14, 12 ], [ 17, 15 ], [ 15, 13 ], [ 12, 13 ], [ 6, 12 ], [ 7, 13 ], [ 6, 7 ], [ 6, 8 ], [ 7, 9 ], [ 8, 10 ], [ 9, 11 ], [ 2, 3 ], [ 1, 2 ], [ 1, 3 ], [ 2, 4 ], [ 3, 5 ], [ 4, 6 ], [ 5, 7 ] ] } ] } 表4 COCO格式说明 字段 是否必选 说明 images 是 图片信息。 license 否 图像的许可证标识符。 file_name 是 图像的文件名。 coco_url 否 图像在COCO官方数据集中的URL。 height 是 图像的高度,以像素为单位。 width 是 图像的宽度,以像素为单位。 date_captured 否 图像捕获的日期和时间。 flickr_url 否 图像在Flickr网站上的URL。 id 是 图像的唯一标识符。 annotations 是 标注信息。 num_keypoints 是 标注的关键点数量。 area 是 边界框的面积,以像素平方为单位。 iscrowd 是 表示标注是否为复杂的群体场景(如拥挤的人群)。0表示不是拥挤场景,1表示是拥挤场景。 keypoints 是 标注的关键点坐标及其可见性,按顺序列出所有关键点,每个关键点用三个数值表示 [x, y, v]。x和y是关键点的像素坐标,v是可见性(0:不可见且不在图像中;1:不可见但在图像中;2:可见且在图像中)。 image_id 是 与该标注相关联的图像的ID,必须与images字段中的id对应。 bbox 是 目标物体的边界框,用[x, y, width, height]表示,其中,x,y是边界框左上角的坐标,width和height是边界框的宽度和高度。 category_id 是 标注类别的ID,对于人体姿态估计,通常为1(表示person)。 id 是 标注的唯一标识符。 categories 是 标注类型信息。 supercategory 是 类别的上级分类,通常为person。 id 是 类别的唯一标识符,对于人体姿态估计,通常为1。 name 是 类别的名称,通常为person。 keypoints 是 关键点的名称列表,COCO格式中通常定义了17个关键点,如nose、left_eye、right_eye、left_ear、right_ear、left_shoulder、right_shoulder、left_elbow、right_elbow、left_wrist、right_wrist、left_hip、right_hip、left_knee、right_knee、left_ankle、right_ankle。 skeleton 是 定义骨架连接的列表,用于表示关键点之间的连接关系。每个连接用一对关键点索引表示,如 [1, 2],表示鼻子(nose)到左眼(left_eye)的连线。
  • 文本类数据集格式要求 ModelArts Studio大模型开发平台支持创建文本类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 网页 html 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 预训练文本 jsonl jsonl格式:text表示预训练所使用的文本数据,具体格式示例如下: {"text":"盘古大模型,是华为推出盘古系列AI大模型,包括NLP大模型、多模态大模型、CV大模型、科学计算大模型、预测大模型。"} 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 单轮问答 jsonl、csv jsonl格式:数据由问答对构成,context、target分别表示问题、答案,具体格式示例如下: {"context": "你好,请介绍自己", "target": "我是盘古大模型"} csv格式:csv文件的第一列对应context,第二列对应target,具体格式示例如下: "你好,请介绍自己","我是盘古大模型" 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 单轮问答(人设) jsonl、csv jsonl格式:system表示人设,context、target分别表示问题、答案。 {"system":"你是一个机智幽默问答助手","context":"你好,请介绍自己","target":"哈哈,你好呀,我是你的聪明助手。"} csv格式:csv文件的第一列对应system,第二三列分别对应context、target。 "你是一个机智幽默问答助手","你好,请介绍自己","哈哈,你好呀,我是你的聪明助手。" 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 多轮问答 jsonl jsonl格式:数组格式,至少由一组问答对构成。形式为[{"context":"context内容1","target":"target内容1"},{"context":"context内容2","target":"target内容2"}],其中context、target分别表示问题、答案。 [{"context":"你好","target":"你好,请问有什么可以帮助你的?"},{"context":"请介绍一下华为云的产品。","target":"华为云提供包括但不限于计算、存储、网络等产品服务。"}] 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 多轮问答(人设) jsonl jsonl格式:数组格式,至少由一组问答对构成。system表示人设,context、target分别表示问题、答案。 [{"system":"你是一位书籍推荐专家"},{"context":"你好","target":"嗨!你好,需要点什么帮助吗?"},{"context":"能给我推荐点书吗?","target":"当然可以,基于你的兴趣,我推荐你阅读《自动驾驶的未来》。"}] 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 问答排序 jsonl、csv jsonl格式:context表示问题,targets答案1、2、3表示答案的优劣顺序,最好的答案排在最前面。 { "context":"context内容","targets":["回答1","回答2","回答3"]} csv格式:csv文件的第一列对应context,其余列为答案。 "问题","回答1","回答2","回答3" 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 父主题: 数据集格式要求
  • 预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不同,回归分类数据不要求数据具有时间顺序。 具体格式要求详见表1。 表1 预测类数据集格式要求 文件内容 文件格式 文件样例 时序 csv 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。 目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。文件的命名不能同时包含train、eval和test中的两个或三个。 时序预测必须要包含一个时间列,时间列值的格式示例为 2024-05-27 或 2024/05/27 或 2024-05-27 12:00:00 或 2024/05/27 12:00:00 。 示例如下: timestamp,feature1,feature2,target 2024-05-27 12:00:00,10.5,20.3,100 2024-05-27 12:01:00,10.6,20.5,101 2024-05-27 12:02:00,10.7,20.7,102 2024-05-27 12:03:00,10.8,20.9,103 2024-05-27 12:04:00,10.9,21.0,104 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 回归分类 csv 数据为结构化数据,包含列和行,每一行表示一条数据,每一列表示一个特征,并且必须包含预测目标列,预测目标列要求为连续型数据。 目录下只有1个数据文件时,文件无命名要求。 目录下有多个数据文件时,需要通过命名的方式指定数据是训练数据集、验证数据集还是测试数据集。训练数据名称需包含train字样,如train01.csv;验证数据名称需包含eval字样;测试数据名称需包含test字样。文件的命名不能同时包含train、eval和test中的两个或三个。 示例如下: feature1,feature2,target 10.5,20.3,100 10.6,20.5,101 10.7,20.7,102 10.8,20.9,103 10.9,21.0,104 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 父主题: 数据集格式要求
  • 气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针对特定区域,旨在提供完整、一致且高精度的气象数据。 再分析数据为二进制格式,具体格式要求详见表1。 表1 气象类数据集格式要求 文件内容 文件格式 文件样例 气象-天气数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 天气数据通常包含全球或区域性的气象变量,如温度(T)、气压(P)、风速(U、V)等。在文件中,这些变量可能按时间、地理范围和气压层次进行组织。示例如下: {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["P", "T", "U", "V"], "upper_air_layers": ["1000hPa", "100hPa", "150hPa", "175hPa", "200hPa", "250hPa", "300hPa", "400hPa", "500hPa", "50hPa", "600hPa", "700hPa", "850hPa", "925hPa"], "upper_air_features": ["Q", "T", "U", "V", "Z"]} geo_range:定义了数据覆盖的地理范围,纬度(lat)从-90.0到90.0,经度(lon)从0.0到360.0。 time_range:数据的时间范围,时间戳格式为毫秒数。 total_size:数据文件的总大小,单位为字节。 surface_features:地表特征变量列表,例如气压(P)、温度(T)、风速(U、V)。 upper_air_layers:高空气压层列表,例如1000hPa、100hPa等。 upper_air_features:高空特征变量列表,例如湿度(Q)、温度(T)、风速(U、V)、高度(Z)。 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 气象-海洋数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 海洋数据通常包含全球或区域性的海洋变量,如温度(T)、气压(P)、风速(U、V)等,具体格式示例如下: {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["SSH", "T", "P", "U", "V"], "under_sea_layers": ["0m", "6m", "10m", "20m", "30m", "50m", "70m", "100m", "125m", "150m", "200m", "250m", "300m", "400m", "500m"], "under_sea_features": [ "T", "U", "V", "S"]} geo_range:定义了数据覆盖的地理范围,纬度(lat)从-90.0到90.0,经度(lon)从0.0到360.0。 time_range:数据的时间范围,时间戳格式为毫秒数。 total_size:数据文件的总大小,单位为字节。 surface_features:海表特征变量列表,例如海表高度(SSH)、温度(T)、风速(U、V)。 under_sea_layers:深海层列表,例如500m、400mPa等。 under_sea_features:高空特征变量列表,例如海盐(S)、温度(T)、海流速率(U、V)。 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 气象-生态数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 生态数据通常包含总叶绿素浓度(Tca)、叶绿素浓度(Chl)、硅藻浓度(Dia)等生态变量。示例如下: {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["Tca“,”Chl“,”Dia“,”Coc“,”Cya“,”Irn“,”Nit“,”MLD“]} geo_range:定义了数据覆盖的地理范围,纬度(lat)从-90.0到90.0,经度(lon)从0.0到360.0。 time_range:数据的时间范围,时间戳格式为毫秒数。 total_size:数据文件的总大小,单位为字节。 surface_features:生态特征列表,例如总叶绿素浓度(Tca)、叶绿素浓度(Chl)、硅藻浓度(Dia)。 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 气象-海浪数据 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 海浪数据通常包有效波高(SWH)。示例如下: {"geo_range": {"lat": ["-90.0", "90.0"], "lon": ["0.0", "360.0"]}, "time_range": ["1640995200000", "1641164400000"], "total_size": 7376211808, "surface_features": ["SWH"]} geo_range:定义了数据覆盖的地理范围,纬度(lat)从-90.0到90.0,经度(lon)从0.0到360.0。 time_range:数据的时间范围,时间戳格式为毫秒数。 total_size:数据文件的总大小,单位为字节。 surface_features:海浪特征:有效波高(SWH)。 单个文件大小不超过5GB,文件数量最多100个,所有文件大小不超过500GB。 父主题: 数据集格式要求
  • 管理盘古工作空间 盘古工作空间支持用户查看当前空间详情,修改空间名称与描述,还可以对不需要的空间实现删除操作。 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 单击左侧导航栏的“空间管理”,在“空间设置”页签可执行如下操作: 修改当前空间名称与描述。 可查看当前空间的创建时间。 单击右上角“删除”,可删除当前空间。 删除空间属于高危操作,删除前请确保当前空间不再进行使用。
  • 扩缩容资源 ModelArts Studio大模型开发平台支持数据资源、训练资源、推理资源的扩缩容,即在当前资源的基础上扩充或缩小对应的资源。 资源扩缩容的步骤如下: 登录ModelArts Studio大模型开发平台,单击页面右上角“订购管理”。 在“订购管理”页面,单击“资源订购”页签,在资源列表单击操作列“扩缩容”。 在“扩缩容”页面完成当前资源的扩缩容操作,平台将根据扩缩容前后的规格差异支付或退还费用差价。 缩容可能会影响进行中的任务以及后续任务的创建,缩容前,请先确认需要缩容的资源已释放。
  • 订购模型与资源 ModelArts Studio大模型开发平台支持订购模型资产、数据资源、训练资源、推理资源,支持模型资产的包年/包月订购、资源的包年/包月和按需计费订购。 模型资产:模型资产可用于模型开发、应用开发等模块。当前支持订购NLP大模型、CV大模型、预测大模型、科学计算大模型和专业大模型的模型资产。 数据资源:数据通算单元适用于数据加工,用于正则类算子加工、数据智算单元适用于数据加工,用于AI类算子加工,数据托管单元适用于数据工程,用于存储数据集。 训练资源:训练单元可用于所有大模型的模型训练、模型压缩功能。 推理资源:推理单元可用于NLP、CV、专业大模型的模型推理功能, 模型实例可用于预测、科学计算大模型的模型推理功能。 具体订购步骤如下: 使用主账户登录ModelArts Studio大模型开发平台,单击“立即订购”进入“订购”页面。 在“开发场景”中勾选需要订购的大模型(可多选),页面将根据勾选情况适配具体的订购项。 图1 选择开发场景 在“模型资产”页面,参考表1完成模型资产的订购。 表1 模型资产订购说明 模型分类 模型订阅 计费方式 NLP大模型 盘古-NLP-N1-基模型 盘古-NLP-N1-基础功能模型 包年/包月(1~9个月,包年为1年) 盘古-NLP-N2-基模型 盘古-NLP-N2-基础功能模型 包年/包月(1~9个月,包年为1年) 盘古-NLP-N4-基模型 盘古-NLP-N4-基础功能模型 包年/包月(1~9个月,包年为1年) CV大模型 盘古-CV-基础模型 包年/包月(1~9个月,包年为1年) 预测大模型 盘古-预测-模型 包年/包月(1~9个月,包年为1年) 科学计算大模型 盘古-天气气象-基础版 包年/包月(1~9个月,包年为1年) 盘古-天气气象-专业版 包年/包月(1~9个月,包年为1年) 专业大模型 盘古-NLP-N2-BI专业大模型 包年/包月(1~9个月,包年为1年) 参考表2,分别完成数据资源、训练资源和推理资源的订购。 表2 资源订购说明 资源名称 订购项 计费方式 数据资源 ModelArts Studio-数据托管单元 包年/包月 ModelArts Studio-数据通算单元 按需(时长)计费、包年/包月 ModelArts Studio-数据智算单元 按需(时长)计费、包年/包月 训练资源 ModelArts Studio-训练单元 按需(时长)计费、包年/包月 推理资源 ModelArts Studio-推理单元(NLP、多模态、专业) 包年/包月 ModelArts Studio-推理单元(CV) 包年/包月 ModelArts Studio-模型实例(预测) 包年/包月 ModelArts Studio-模型实例(科学计算) 包年/包月
  • 科学计算大模型开发流程 ModelArts Studio大模型开发平台提供了科学计算大模型的全流程开发支持,涵盖了从数据处理到模型训练、部署、调用的各个环节。 科学计算大模型开发流程见图7、表7。 图7 科学计算大模型开发流程图 表7 科学计算大模型开发流程表 流程 子流程 说明 操作指导 准备工作 申请试用盘古大模型服务 盘古大模型为用户提供了服务试用,用户可根据所需提交试用申请,申请通过后才可以试用盘古大模型功能。 申请试用盘古大模型服务 订购盘古大模型服务 正式使用盘古大模型服务前,需要完成服务的订购操作。 订购盘古大模型服务 配置服务访问授权 为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。 配置服务访问授权 创建并管理盘古工作空间 平台支持用户自定义创建工作空间,并进行空间的统一管理。 创建并管理盘古工作空间 使用数据工程构建科学计算大模型数据集 导入数据至盘古平台 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工气象类数据集 对气象类数据集进行加工,包括清洗操作。 加工气象类数据集 发布气象类数据集 对气象类数据集进行发布,包括流通操作。 发布气象类数据集 开发盘古科学计算大模型 训练科学计算大模型 进行模型的训练,如预训练、微调等训练方式。 训练科学计算大模型 部署科学计算大模型 将模型部署用于后续模型的调用操作。 部署科学计算大模型 调用科学计算大模型 支持“能力调测”功能与API两种方式调用大模型。 调用科学计算大模型 管理盘古大模型空间资产 管理盘古数据资产 管理从AI Gallery订阅或已发布的数据集。 管理盘古数据资产 管理盘古模型资产 管理预置或训练后发布的模型。 管理盘古模型资产
  • 专业大模型开发流程 ModelArts Studio大模型开发平台提供了专业大模型的部署功能。 专业大模型开发流程见图8、表8。 图8 专业大模型开发流程图 表8 专业大模型开发流程表 流程 子流程 说明 操作指导 准备工作 申请试用盘古大模型服务 盘古大模型为用户提供了服务试用,用户可根据所需提交试用申请,申请通过后才可以试用盘古大模型功能。 申请试用盘古大模型服务 订购盘古大模型服务 正式使用盘古大模型服务前,需要完成服务的订购操作。 订购盘古大模型服务 配置服务访问授权 为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。 配置服务访问授权 创建并管理盘古工作空间 平台支持用户自定义创建工作空间,并进行空间的统一管理。 创建并管理盘古工作空间 开发盘古专业大模型 部署专业大模型 支持专业大模型的部署操作。 部署专业大模型 管理盘古大模型空间资产 管理盘古模型资产 管理预置的专业大模型。 管理盘古模型资产
  • 预测大模型开发流程 ModelArts Studio大模型开发平台提供了预测大模型的全流程开发支持,涵盖了从数据处理到模型训练、部署环节。 预测大模型开发流程见图6、表6。 图6 预测大模型开发流程图 表6 预测大模型开发流程表 流程 子流程 说明 操作指导 准备工作 申请试用盘古大模型服务 盘古大模型为用户提供了服务试用,用户可根据所需提交试用申请,申请通过后才可以试用盘古大模型功能。 申请试用盘古大模型服务 订购盘古大模型服务 正式使用盘古大模型服务前,需要完成服务的订购操作。 订购盘古大模型服务 配置服务访问授权 为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。 配置服务访问授权 创建并管理盘古工作空间 平台支持用户自定义创建工作空间,并进行空间的统一管理。 创建并管理盘古工作空间 使用数据工程构建预测大模型数据集 导入数据至盘古平台 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 发布预测类数据集 对预测类数据集进行发布,包括流通操作。 发布预测类数据集 开发盘古预测大模型 训练预测大模型 进行模型的训练,如微调训练方式。 训练预测大模型 部署预测大模型 模型训练完成后,执行模型的部署操作。 部署预测大模型 管理盘古大模型空间资产 管理盘古数据资产 管理从AI Gallery订阅或已发布的数据集。 管理盘古数据资产 管理盘古模型资产 管理预置或训练后发布的模型。 管理盘古模型资产
  • CV大模型开发流程 ModelArts Studio大模型开发平台提供了CV大模型的全流程开发支持,涵盖了从数据处理到模型训练、部署环节。 CV大模型开发流程见图5、表5。 图5 CV大模型开发流程图 表5 CV大模型开发流程表 流程 子流程 说明 操作指导 准备工作 申请试用盘古大模型服务 盘古大模型为用户提供了服务试用,用户可根据所需提交试用申请,申请通过后才可以试用盘古大模型功能。 申请试用盘古大模型服务 订购盘古大模型服务 正式使用盘古大模型服务前,需要完成服务的订购操作。 订购盘古大模型服务 配置服务访问授权 为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。 配置服务访问授权 创建并管理盘古工作空间 平台支持用户自定义创建工作空间,并进行空间的统一管理。 创建并管理盘古工作空间 使用数据工程构建CV大模型数据集 导入数据至盘古平台 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工图片、视频类数据集 对图片、视频类数据集进行加工,包括清洗、标注操作。 加工图片类数据集、加工视频类数据集 发布图片、视频类数据集 对图片、视频类数据集进行发布,包括评估、配比、流通操作。 发布图片类数据集、发布视频类数据集 开发盘古CV大模型 训练CV大模型 进行模型的训练,如微调等训练方式。 训练CV大模型 部署CV大模型 模型训练完成后,执行模型的部署操作。 部署CV大模型 管理盘古大模型空间资产 管理盘古数据资产 管理从AI Gallery订阅或已发布的数据集。 管理盘古数据资产 管理盘古模型资产 管理预置或训练后发布的模型。 管理盘古模型资产
  • NLP大模型开发流程 ModelArts Studio大模型开发平台提供了NLP大模型的全流程开发支持,涵盖了从数据处理到模型训练、压缩、部署、评测、调用的各个环节。 NLP大模型开发流程见图4、表4。 图4 NLP大模型开发流程图 表4 NLP大模型开发流程表 流程 子流程 说明 操作指导 准备工作 申请试用盘古大模型服务 盘古大模型为用户提供了服务试用,用户可根据所需提交试用申请,申请通过后才可以试用盘古大模型功能。 申请试用盘古大模型服务 订购盘古大模型服务 正式使用盘古大模型服务前,需要完成服务的订购操作。 订购盘古大模型服务 配置服务访问授权 为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。 配置服务访问授权 创建并管理盘古工作空间 平台支持用户自定义创建工作空间,并进行空间的统一管理。 创建并管理盘古工作空间 使用数据工程构建NLP大模型数据集 导入数据至盘古平台 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工文本类数据集 对文本类数据集进行加工,包括清洗、合成、标注操作。 加工文本类数据集 发布文本类数据集 对文本类数据集进行发布,包括评估、配比、流通操作。 发布文本类数据集 开发盘古NLP大模型 训练NLP大模型 进行模型的训练,如预训练、微调训练方式。 训练NLP大模型 压缩NLP大模型 通过模型压缩可以降低推理显存占用,节省推理资源提高推理性能。 压缩NLP大模型 部署NLP大模型 将模型部署用于后续模型的调用操作。 部署NLP大模型 评测NLP大模型 评测NLP大模型的效果。 评测NLP大模型 调用NLP大模型 支持“能力调测”功能与API两种方式调用大模型。 调用NLP大模型 盘古NLP大模型应用开发 开发盘古大模型提示词工程 辅助用户进行提示词撰写、比较和评估等操作,并对提示词进行保存和管理。 开发盘古大模型提示词工程 开发盘古大模型Agent应用 基于NLP大模型,致力打造智能时代集开发、调测和运行为一体的AI应用平台。无论开发者是否拥有大模型应用的编程经验,都可以通过Agent平台快速创建各种类型的智能体。 开发盘古大模型Agent应用 管理盘古大模型空间资产 管理盘古数据资产 管理从AI Gallery订阅或已发布的数据集。 管理盘古数据资产 管理盘古模型资产 管理预置或训练后发布的模型。 管理盘古模型资产
  • 数据工程使用流程 ModelArts Studio大模型开发平台提供了数据工程能力,帮助用户构造高质量的数据集,助力模型进行更好地预测和决策。 数据工程使用流程见图3、表3。 图3 数据工程使用流程图 表3 数据工程使用流程表 流程 子流程 说明 准备工作 申请试用盘古大模型服务 盘古大模型为用户提供了服务试用,用户可根据所需提交试用申请,申请通过后才可以试用盘古大模型功能。 订购盘古大模型服务 正式使用盘古大模型服务前,需要完成服务的订购操作。 配置服务访问授权 为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。 创建并管理盘古工作空间 平台支持用户自定义创建工作空间,并进行空间的统一管理。 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 加工数据集 清洗数据集 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 合成数据集 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数据。该过程能够在一定程度上扩展数据集,增强训练模型的多样性和泛化能力。 标注数据集 为无标签数据集添加准确的标签,确保模型训练所需的高质量数据。平台支持人工标注和AI预标注两种方式,用户可根据需求选择合适的标注方式。数据标注的质量直接影响模型的训练效果和精度。 发布数据集 评估数据集 平台预置了多种数据类型的基础评估标准,包括NLP、视频和图片数据,用户可根据需求选择预置标准或自定义评估标准,从而精确优化数据质量,确保数据满足高标准,提升模型性能。 配比数据集 数据配比是将多个数据集按特定比例组合并发布为“发布数据集”的过程。通过合理的配比,确保数据集的多样性、平衡性和代表性,避免因数据分布不均而引发的问题。 流通数据集 数据流通是将单个数据集发布为特定格式的“发布数据集”,用于后续模型训练等操作。 平台支持发布的数据集格式为默认格式、盘古格式。 默认格式:平台默认的格式。 盘古格式:训练盘古大模型时,需要发布为该格式。当前仅文本类、图片类数据集支持发布为盘古格式。