检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
据处理的各个环节都能紧密协作,快速响应不断变化的业务需求和技术要求。 平台支持的数据类型 ModelArts Studio大模型开发平台支持的数据类型见表1。 表1 平台支持的数据类型 数据类型 数据内容 数据文件格式要求 文本类 文档 支持txt、mobi、epub、docx、pdf,详见文本类数据集格式要求。
模型资产:平台提供的模型资产涵盖了预置或训练后发布的模型,所有这些模型将存放于空间资产中进行统一管理。用户可查看预置模型的历史版本和操作记录,还可以执行模型的进一步操作,包括训练、压缩、部署等。此外,平台支持导出和导入盘古大模型的功能,使用户能够将其他局点的盘古大模型迁移到本局点,便于模型资源共享。
全球 该模型类型主要用于天气基础要素预测,支持训练的模型清单见表2,您可根据具体使用场景选择合适的模型。例如天气基础要素预测,需要时间分辨率为1小时的场景下,您可以选择Pangu-AI4S-Weather_1h-20241030模型。 表2 中期天气要素预测模型的类型 模型支持区域
在左侧导航栏中选择“数据工程 > 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“气象”类型的数据集,当前可选“海洋气象”类型的数据。 图2 创建气象类数据集发布任务 当前气象类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。
进入操作空间 在左侧导航栏中选择“数据工程 > 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“其他”类型的数据集,当前可选“自定义”类型的数据。 图2 创建其他类数据集发布任务 当前其他类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。
在左侧导航栏中选择“数据工程 > 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“预测”类型的数据集。并根据训练任务场景选择“时序”、“回归分类”类型的数据。 图2 创建预测类数据集发布任务 当前预测类数据集仅支持发布默认格式,选择好数据集的发布格式后,单击“下一步”。
的高标准,从而为后续的模型训练和优化打下坚实基础,帮助提升大模型的精度和可靠性。 支持数据评估的数据集类型 ModelArts Studio大模型开发平台支持评估操作的数据集类型如下: 文本类数据集,详见创建文本类数据集评估任务。 视频类数据集,详见创建视频类数据集评估任务。 图
数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择待发布内容,如“文本 > 单轮问答”类型的数据集。 图2 创建文本数据集发布任务 设置发布方式。除“问答排序”类型外,其余数据类型可选两种发布方式:“单个数据集”、“混合数据集”。选择数据集时,默认选择当前空间数据集,如果用
dataset file type does not match standard file type. 请检查上传的数据集文件类型与平台要求的标准文件类型是否一致。 data management query dataset data invalid. 请检查数据集中是否有异常格式的数据。
定制化的解决方案,确保数据质量,助力后续模型训练和优化,推动AI技术的成功应用。 支持数据标注的数据集类型 ModelArts Studio大模型开发平台支持标注操作的数据集类型如下: 文本类数据集,详见创建文本类数据集标注任务。 视频类数据集,详见创建视频类数据集标注任务。 图
标签设置。通过标签设置,可以给数据集添加行业、语言、标签信息。 数据版权设置。训练模型的数据集除用户自行构建外,也可能会使用开源的数据集。数据版权功能主要用于记录和管理数据集的版权信息,确保数据的使用合法合规,并清晰地了解数据集的来源和相关的版权授权。通过填写这些信息,可以追溯数据的来源,明确数据使
发布格式,保证数据的兼容性与一致性,从而为后续的模型训练和应用部署奠定坚实基础。 支持数据发布的数据集类型 ModelArts Studio大模型开发平台支持发布操作的数据集类型如下: 文本类数据集,详见发布文本类数据集。 视频类数据集,详见发布视频类数据集。 图片类数据集,详见发布图片类数据集。
NLP大模型支持接入的数据集类型 盘古NLP大模型仅支持接入文本类数据集,该数据集格式要求请参见文本类数据集格式要求。 构建NLP大模型所需数据量 使用数据工程构建盘古NLP大模型数据集进行模型训练时,所需数据量见表1。 表1 构建NLP大模型所需数据量 模型规格 训练类型 推荐数据量 最小数据量(数据条数)
在“创建训练任务”页面,模型类型选择“NLP大模型”,训练类型选择“微调”。模型选择完成后,参考表1完成训练参数设置。 表1 NLP大模型微调参数说明 参数分类 训练参数 参数说明 训练配置 模型来源 选择“盘古大模型” 模型类型 选择“NLP大模型”。 训练类型 选择“微调”。 训练目标
使用API调用Token计算器,详见《API参考》“API > Token计算器”。 NLP大模型训练类型选择建议 平台针对NLP大模型提供了两种训练类型,包括预训练和微调,二者区别详见表3。 表3 预训练和微调训练类型区别 训练方式 训练目的 训练数据 模型效果 应用场景举例 预训练 关注通用性:预
状态码 HTTP状态码为三位数,分成五个类别:1xx:相关信息;2xx:操作成功;3xx:重定向;4xx:客户端错误;5xx:服务器错误。 状态码如下所示。 状态码 编码 状态说明 100 Continue 继续请求。 这个临时响应用来通知客户端,它的部分请求已经被服务器接收,且仍未被拒绝。
从TXT文件中提取所有文本内容。 CSV内容提取 从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。 PDF内容提取 从PDF中提取内容转换为结构化数据。 JSON内容提取 从JSON文件(键值对类型文件)中提取出内容。 HTML内容提取 基于标签路径提取HTML数据
配置插件,详见配置插件。 配置知识,详见配置知识。 配置对话,详见配置开场白和推荐问题。 调试Agent应用,详见调试Agent应用。 Agent应用支持的模型类型为NLP大模型。 父主题: 手工编排Agent应用
上下文:包含外部信息或额外的上下文信息,引导语言模型更好地响应。 输入数据:用户输入的内容或问题。 输出指示:指定输出的类型或格式。 提示词所需的格式取决于您希望语言模型完成的任务类型,并非所有以上要素都是必须的。 提示词工程使用流程 ModelArts Studio大模型开发平台可以辅助用
在左侧导航栏中选择“数据工程 > 数据发布”,单击界面右上角“创建发布数据集”。 在“创建发布数据集”页面,选择“图片”类型的数据集,并根据训练任务场景选择“图片+Caption”、“图片+QA对”类型的数据。 图2 创建图片类数据集发布任务 设置发布方式。图片类数据集可选两种发布方式:“单个数据集”