检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据工程介绍 数据工程简介 数据工程是ModelArts Studio大模型开发平台为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、标注、评估和发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。
流,开发者可通过拖、拉、拽可视化组件等方式添加更多的组件,实现复杂业务流程的编排,从而快速构建Agent。 工作流方式主要面向目标任务包含多个复杂步骤、对输出结果成功率和准确率有严格要求的复杂业务场景。 父主题: 创建与管理工作流
平台支持多种数据发布格式,包括“默认格式”、“盘古格式”和“自定义格式”,以满足不同训练任务的需求。通过这些格式的转换,用户可以确保数据与特定模型(如盘古大模型)兼容,并优化训练效果。 灵活的定制化服务:对于文本类、图片类数据集,用户自定义数据格式,用户可以使用脚本灵活调整数据格式,以满足特定业务场景的需求。
单击“确认”。 图4 选择导入的数据 数据集信息设置完成后,填写“数据集名称”和“描述”,并设置“拓展信息”。 拓展信息包括“标签设置”与“数据版权”: 标签设置。通过标签设置,可以给数据集添加行业、语言、标签信息。 数据版权设置。训练模型的数据集除用户自行构建外,也可能会使用
请求什么类型的操作。 GET:请求服务器返回指定资源。 PUT:请求服务器更新指定资源。 POST:请求服务器新增资源或执行特殊操作。 DELETE:请求服务器删除指定资源,如删除对象等。 HEAD:请求服务器资源头部。 PATCH:请求服务器更新资源的部分内容。当资源不存在的时
与其他服务的关系 与对象存储服务的关系 盘古大模型使用对象存储服务(Object Storage Service,简称OBS)存储数据和模型,实现安全、高可靠和低成本的存储需求。 与ModelArts服务的关系 盘古大模型使用ModelArts服务进行算法训练部署,帮助用户快速创建和部署模型。
安全可靠。而且,它的面料柔软舒适,采用透气网布设计,不仅排汗透气,而且可根据你的身体曲线自主调节,提供全方位的支撑和舒适度。\n\n亲爱的朋友们,快来选购这款轻便折叠户外椅,让你的户外生活更加舒适、随心随行!赶快单击下方链接,实现你的户外梦想!"} {"context":"产
配置服务访问授权 配置OBS访问授权 盘古大模型服务使用对象存储服务(Object Storage Service,简称OBS)进行数据存储,实现安全、高可靠和低成本的存储需求。因此,为了能够顺利进行存储数据、训练模型等操作,需要用户配置访问OBS服务的权限。 登录ModelArts
用于优化模型的指标)时增加对重复输出的惩罚来实现的。如果模型生成了重复的文本,它的损失会增加,从而鼓励模型寻找更多样化的输出。 提示词工程相关概念 表4 提示词工程相关概念说明 概念名 说明 提示词 提示词(Prompt)是一种用于与AI人工智能模型交互的语言,用于指示模型生成所需的内容。
格式的数据集,instruction对应问题,input对应上下文或者背景信息,output对应答案,用户可以上传自定义的python脚本实现数据集格式的转换。平台页面中会提供脚本示例,可下载作为参考。 如果使用该数据集训练盘古大模型,请将发布格式配置为盘古格式。 设置数据集的“
应用提示词生成面试题目 应用场景说明:将面试者的简历信息输入给大模型,基于简历生成面试问题,用于辅助人工面试或实现自动化面试。 父主题: 提示词应用示例
格式的数据集,instruction对应问题,input对应上下文或者背景信息,output对应答案,用户可以上传自定义的python脚本实现数据集格式的转换。平台页面中会提供脚本示例,可下载作为参考。 如果使用该数据集训练盘古大模型,请将发布格式配置为盘古格式。 设置数据集的“
数据标注意义 数据标注在数据工程中的作用是不可忽视的。它不仅是模型训练的基础,还直接影响到训练结果的准确性与有效性。通过标注,平台帮助用户提高数据的可用性,确保数据集与业务需求高度契合。数据标注的意义主要体现在以下几个方面: 提升训练数据的质量:通过高质量的标注,用户能够获得准
补说明 对任务进行补充说明,如补充任务要求、规范输出的格式等。将想要的逻辑梳理表达出来,会让生成效果更加符合预期。说明需要逻辑清晰、无歧义。 设计任务要求 要求分点列举: 要求较多时需要分点列举,可以使用首先\然后,或1\2\3序号分点提出要求。每个要求步骤之间最好换行(\n)分隔断句,单个要求包含一项内容,不能太长。
应用中提供准确的预测结果。 应用与部署:当大模型训练完成并通过验证后,进入应用阶段。主要包括以下几个方面: 模型优化与部署:将训练好的大模型部署到生产环境中,可能通过云服务或本地服务器进行推理服务。此时要考虑到模型的响应时间和并发能力。 模型监控与迭代:部署后的模型需要持续监控其
管理盘古工作空间成员 如果您需要为企业员工设置不同的访问权限,以实现功能使用权限和资产的权限隔离,可以为不同员工配置相应的角色,以确保资产的安全和管理的高效性。 如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户(子用户)进行权限管理,您可以跳过本章节,不影响您使用盘古的其他功能。
生成模型的回复,从而实现自然流畅的对话体验。 表1 推理SDK清单 SDK分类 SDK功能 支持语言 使用场景 推理SDK 对话问答(/chat/completions) Java、Python、Go、.NET、NodeJs 基于对话问答功能,用户可以与模型进行自然而流畅的对话和交流。
使用盘古预置NLP大模型进行文本对话 场景描述 此示例演示了如何使用盘古能力调测功能与盘古NLP大模型进行对话问答。您将学习如何通过调试模型超参数,实现智能化对话问答功能。 准备工作 请确保您有预置的NLP大模型,并已完成模型的部署操作,详见《用户指南》“开发盘古NLP大模型 > 部署NLP大模型
创建盘古多语言文本翻译工作流流程 操作步骤 说明 步骤1:创建并配置插件 本样例场景实现文本翻译插件的创建与配置。 步骤2:创建并配置工作流 本样例场景实现多语言文本翻译工作流的创建与配置。 步骤3:试运行工作流 本样例场景实现工作流的试运行。 步骤1:创建并配置插件 登录ModelArts S
在ModelArts Studio大模型开发平台的空间资产中,包括数据和模型两类资产。这些资产为用户提供了集中管理和高效操作的基础,便于用户实现统一查看和操作管理。 数据资产:用户已发布的数据集将作为数据资产存放在空间资产中。用户可以查看数据集的详细信息,包括数据格式、大小、配比比