检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
} ], "temperature": 0.9, "max_tokens": 600 } 父主题: 大模型使用类问题
使用数据工程构建NLP大模型数据集 NLP大模型支持接入的数据集类型 盘古NLP大模型仅支持接入文本类数据集,数据集文件内容包括:预训练文本、单轮问答、多轮问答、带人设单轮问答、带人设多轮问答等,不同训练方式所需要使用的数据见表1,该数据集格式要求请参见文本类数据集格式要求。 表1
使用数据工程构建CV大模型数据集 CV大模型支持接入的数据集类型 盘古CV大模型支持接入图片类、视频类、其他类数据集,,不同模型所需数据见表1,数据集格式要求请参见图片类数据集格式要求、视频类数据集格式要求、其他类数据集格式要求。 表1 训练CV大模型数据集类型要求 基模型 训练场景
发布其他类数据集 其他类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“其他
使用数据工程构建科学计算大模型数据集 科学计算大模型支持接入的数据集类型 盘古科学计算大模型仅支持接入气象类数据集,该数据集格式要求请参见气象类数据集格式要求。 训练科学计算大模型训练数据要求所需数据量 构建科学计算大模型进行训练的数据要求见表1。 表1 科学计算大模型训练数据要求
质量评估和合理的比例组合,确保数据满足大模型训练的多样性、平衡性和代表性需求,促进数据的高效流通和应用。 数据发布不仅包括将数据发布为适合使用的格式,还要求根据任务需求评估数据集效果,并科学调整数据比例,确保数据集在规模、质量和内容上符合模型训练的标准。 数据评估 平台预置了多种
发布气象类数据集 气象类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“气象
发布预测类数据集 预测类数据集当前仅支持发布为“默认格式”,操作步骤如下: 登录ModelArts Studio大模型开发平台,在“我的空间”模块,单击进入所需空间。 在左侧导航栏中选择“数据工程 > 数据发布 > 数据流通”,单击界面右上角“创建流通任务”。 在“创建流通任务”页面,选择数据集模态,如“预测
使用“能力调测”调用NLP大模型 能力调测功能支持用户调用预置或训练后的NLP大模型。使用该功能前,请完成模型的部署操作,步骤详见创建NLP大模型部署任务。 使用“能力调测”调用NLP大模型可实现文本对话能力,即在输入框中输入问题,模型将基于问题输出相应的回答,具体步骤如下: 登录ModelArts
如果需要彻底删除数据集,可单击数据集名称进入详情页,确认数据集内容后彻底删除该数据集。 删除原始数据集属于高危操作,删除前,请确保该数据集不再使用。 父主题: 发布数据集
其他类数据集格式要求 除文本、图片、视频、气象、预测类数据集外,平台还支持导入其他类数据集,即用户训练模型时使用的自定义数据集。 其他类数据集支持发布其他类数据集操作,不支持数据加工操作。 其他类数据集要求单个文件大小不超过50GB,单个压缩包大小不超过50GB,文件数量最多1000个。
视频类数据集格式要求 ModelArts Studio大模型开发平台支持创建视频类数据集,创建时可导入多种形式的数据,具体格式要求详见表1。 表1 视频类数据集格式要求 文件内容 文件格式 文件要求 视频 mp4或avi 支持mp4、avi视频格式上传,所有视频可以放在多个文件夹
如果需要彻底删除数据集,可单击数据集名称进入详情页,确认数据集内容后彻底删除该数据集。 删除原始数据集属于高危操作,删除前,请确保该数据集不再使用。 父主题: 加工数据集
效果评估与优化 在低代码构建多语言文本翻译工作流中,优化和评估的关键在于如何设计和调整prompt(提示词)。prompt是与大模型或其他节点(如翻译插件)交互的核心,它直接影响工作流响应的准确性和效果。因此,效果评估与优化应从以下几个方面进行详细分析: 评估工作流响应的准确性:
使用“能力调测”调用科学计算大模型 能力调测功能支持用户调用预置或训练后的科学计算大模型。使用该功能前,请完成模型的部署操作,步骤详见创建科学计算大模型部署任务。 使用“能力调测”调用科学计算大模型可实现包括全球中期天气要素预测、全球中期降水预测、全球海洋要素、区域海洋要素、全球
训练的标准,是数据工程中的核心环节。 数据清洗 通过专用的清洗算子对数据进行预处理,确保数据符合模型训练的标准和业务需求。不同类型的数据集使用专门设计的算子,例如去除噪声、冗余信息等,提升数据质量。 数据合成 利用预置或自定义的数据指令对原始数据进行处理,并根据设定的轮数生成新数
气象类数据集格式要求 ModelArts Studio大模型开发平台支持导入气象类数据集,该数据集当前包括海洋气象数据。 海洋气象数据通常来源于气象再分析。气象再分析是通过现代气象模型和数据同化技术,重新处理历史观测数据,生成高质量的气象记录。这些数据既可以覆盖全球范围,也可以针
预测类数据集格式要求 平台支持创建预测类数据集,创建时可导入时序数据、回归分类数据。 时序数据:时序预测数据是一种按时间顺序排列的数据序列,用于预测未来事件或趋势,过去的数据会影响未来的预测。 回归分类数据:回归分类数据包含多种预测因子(特征),用于预测连续变量的值,与时序数据不
type String 存储类型。 data Array of ObsStorageDto objects 输入数据的OBS信息。 表4 ObsStorageDto 参数 参数类型 描述 bucket String 输入数据的OBS桶名称。 path String 初始场数据的存放路径。
其中,conversation_id参数为会话ID,唯一标识每个会话的标识符,可将会话ID设置为任意值,使用标准UUID格式。 图2 获取应用调用路径-2 使用Postman调用API 获取Token。参考《API参考》文档“如何调用REST API > 认证鉴权”章节获取Token。 在Postman中新