检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
为了帮助用户更好地管理和优化Token消耗,平台提供了Token计算器工具。Token计算器可以帮助用户在模型推理前评估文本的Token数量,提供费用预估,并优化数据预处理策略。 URI POST /v1/{project_id}/deployments/{deployment_id}/caltokens
Studio大模型开发平台,支持的数据类型包括文本、图片、视频、气象、预测数据以及用户自定义的其他类型数据。平台提供灵活的数据接入方式以及支持多种文件格式导入,确保不同业务场景下的数据获取需求得到满足。 数据清洗:平台提供强大的数据清洗功能,可以对文本、视频、图片、气象类型的数据进行数据提取、过滤、转
使用数据工程构建预测大模型数据集 预测大模型支持接入的数据集类型 盘古预测大模型仅支持接入预测类数据集,不同模型所需数据见表1,该数据集格式要求请参见预测类数据集格式要求。 表1 预测大模型与数据集类型对应关系 基模型 模型分类 数据集内容 文件格式 预测大模型 时序预测模型 时序数据
使用数据工程构建CV大模型数据集 CV大模型支持接入的数据集类型 盘古CV大模型支持接入图片类、视频类、其他类数据集,,不同模型所需数据见表1,数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。 表1 训练CV大模型数据集类型要求 基模型 训练场景
于正则类算子加工、数据智算单元适用于数据加工,用于AI类算子加工,数据托管单元适用于数据工程,用于存储数据集。 训练资源:训练单元可用于所有大模型的模型训练、模型压缩功能。 推理资源:推理单元可用于NLP、CV、专业大模型的模型推理功能, 模型实例可用于预测、科学计算大模型的模型推理功能。
使用数据工程构建科学计算大模型数据集 科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 训练科学计算大模型训练数据要求所需数据量 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求
图片类数据集格式要求 ModelArts Studio大模型开发平台支持创建图片类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 仅图片 tar、图片目录 图片:支持jpg、jpeg、png、bmp类型。 ta
上传文件限xlsx格式。 数据行数不小于10行,不大于50行。 数据不允许相同表头,表头数量小于20个。 数据单条文本长度不超过1000。 创建数据集时会对相关限制条件进行校验。 数据参考格式如下: 图1 数据参考格式 图2 数据示例 创建提示词评估数据集 登录ModelArts
nction或者API通过配置方式快速创建为一个插件,并供Agent调用。 自定义知识库:平台提供了知识库功能来管理和存储数据,支持为AI应用提供自定义数据,并与之进行互动。多种格式的本地文档(支持docx、pptx、pdf等)都可以导入至知识库。 灵活的工作流设计:平台提供灵活
在完成数据清洗后,如果无需使用数据标注功能,可直接在“数据清洗”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 父主题: 加工视频类数据集
节至创建文本类数据集评估任务。 创建文本类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”,在“人工评估标准”页签,平台预置了文本类数据集评估标准“NLP数据质量标准
节至创建视频类数据集评估任务。 创建视频类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”,在“人工评估标准”页签,平台预置了视频类数据集评估标准“视频数据质量标准
在“创建流通任务”页面,选择数据集模态,如“其他 > 自定义”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。当前其他类数据集仅支持发布默认格式。 填写数据集名称、描述,设置数据集“资产可见性”,设置扩展信息后,单击“确定”执行数据集流通操作。 当任
Studio大模型开发平台使用对象存储服务(Object Storage Service,简称OBS)进行数据存储,实现安全、高可靠和低成本的存储需求。因此,为了能够顺利进行存储数据、训练模型等操作,需要用户配置访问OBS服务的权限。 配置OBS访问授权步骤如下: 登录ModelArts
节至创建图片类数据集评估任务。 创建图片类数据集评估标准步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据评估”,在“人工评估标准”页签,平台预置了图片类数据集评估标准“图片数据质量标准
配比图片类数据集 数据配比是将多个数据集按照特定比例关系组合并发布为“发布数据集”的过程,确保数据的多样性、平衡性和代表性。 如果单个数据集已满足您的需求,可跳过此章节至流通图片类数据集。 创建图片类数据集配比任务 创建图片类数据集配比任务步骤如下: 登录ModelArts St
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
在完成数据清洗后,在“数据清洗”页面单击操作列“生成”,生成加工数据集。 加工后的数据集可在“数据工程 > 数据加工 > 加工数据集”中查看。 父主题: 加工气象类数据集
在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“文本 > 预训练文本”类型的数据集。 图1 选择数据集模态 选择数据集,单击“下一步”。 在“格式配置”选择发布格式。由于数据工程需要支持对接盘