检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
针对Token转换比,平台提供了Token计算器功能,可以根据您输入的文本计算Token数量,您可以通过以下方式使用该功能: 在左侧导航栏选择“能力调测”,单击右下角“Token计算器”使用该功能。 使用API调用Token计算器,详见《API参考》“API > Token计算器”。 NLP大模型训练类型选择建议
型在不同环境中的高效应用。 应用开发工具链 应用开发工具链是盘古大模型平台的关键模块,支持提示词工程和智能Agent应用创建。该工具链提供提示词设计和管理工具,优化大模型的输入提示,提升输出的准确性和相关性。通过丰富的开发SDK,应用开发工具链加速大模型应用的开发,满足复杂业务需求。
从数据源导入到数据质量控制的全流程管理。该模块涵盖数据获取、加工、标注、评估和发布等关键环节,帮助用户高效构建高质量的训练数据集,推动AI应用的成功落地。具体功能如下: 数据获取:用户可以轻松将多种类型的数据导入ModelArts Studio大模型开发平台,支持的数据类型包括文
avi或.mp4格式,标注格式为.json。必须包含两个及以上后缀名字为avi或mp4的文件。 每个视频时长要大于128s,FPS>=10,且测试集训练集都要有视频。数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 支持视频的格式包括常见的mp4和或avi格式文
够满足不同场景的需求。通过灵活的API接口,模型可以无缝集成到各类应用中。 模型调用:在模型部署后,用户可以通过模型调用功能快速访问模型的服务。平台提供了高效的API接口,确保用户能够方便地将模型嵌入到自己的应用中,实现智能对话、文本生成等功能。 父主题: 产品功能
数据工程使用流程 高质量数据是推动大模型不断迭代和优化的根基,它的质量直接决定了模型的性能、泛化能力以及应用场景的适配性。只有通过系统化地准备和处理数据,才能提取出有价值的信息,从而更好地支持模型训练。因此,数据的采集、清洗、标注、评估、发布等环节,成为数据开发中不可或缺的重要步骤。
以查看模型的所有历史版本及操作记录,从而追踪模型的演变过程。同时,平台支持一系列便捷操作,包括模型训练、压缩和部署,帮助用户简化模型开发及应用流程。这些功能有助于用户高效管理模型生命周期,提高资产管理效率。 管理模型资产 登录ModelArts Studio大模型开发平台,进入所需空间。
功能强,Agent开发“好” Agent开发提供便捷搭建大模型应用功能,并提供功能强大的插件配置,让Agent能力更强,更专业。 统一管,资产管理“全” ModelArts Studio大模型开发平台数据、模型、Agent应用在统一的入口进行管理,可以快速的掌握资产的使用情况、版本情况和溯源信息等。
提示词写作实践 提示词工程介绍 提示词写作常用方法论 提示词写作进阶技巧 提示词应用示例
本文的方法论及技巧部分使用了较为简单的任务作为示例,以便简明易懂地说明这些技巧在提示工程中的应用。随着模型的进化和理解能力的提升,尽管在简单任务中模糊的指示也会取得较好的效果,但对于规则越复杂的任务,越需要应用这些技巧来输出一个逻辑自洽、清晰明了的指令。 提示词是什么 提示词也称为Promp
头中X-Subject-Token的值即为Token。 Content-Type 是 String 发送的实体的MIME类型,参数值为“application/json”。 表3 请求Body参数 参数 是否必选 参数类型 描述 messages 是 Array of message
权限。 模型开发工程师 可以执行模型开发工具链模块的所有操作,但是不能创建或者删除计算资源,也不能修改所在空间本身。 应用开发工程师 应用开发工程师具备执行应用开发工具链模块所有操作的权限,其余角色不具备。 标注管理员 拥有数据工程数据标注-标注管理模块的所有权限,其余角色不具备。
通过灵活调整数据集的比例配比,用户能够保证数据的均衡性,避免因数据分布不均可能引发的问题,从而构建高质量、适应性强的数据集,为后续的模型训练、验证和应用提供坚实的数据支持。 数据发布意义 数据发布不仅包括数据的格式转换,还涉及数据比例的调整,以确保数据在规模、质量和内容上满足训练标准。具体而言,数据集发布具有以下重要意义:
安全责任在于保障其所提供的IaaS、PaaS和SaaS类云服务自身的安全,涵盖华为云数据中心的物理环境设施和运行其上的基础服务、平台服务、应用服务等。这不仅包括华为云基础设施和各项云服务技术的安全功能和性能本身,也包括运维运营安全,以及更广义的安全合规遵从。 租户:负责云服务内部
看模型的所有历史版本及操作记录,从而了解模型的演变过程。同时,平台支持一系列便捷的模型操作,如模型训练、压缩和部署,帮助用户简化模型开发和应用流程。此外,平台还提供了导入和导出功能,支持用户将其他局点的盘古大模型迁移到本地局点,这使得模型资产在不同局点间的共享和管理变得更加灵活高效。
ModelArts Studio大模型开发平台为用户提供了灵活、定制化的解决方案,确保数据质量,助力后续模型训练和优化,推动AI技术的成功应用。 支持数据标注的数据集类型 ModelArts Studio大模型开发平台支持标注操作的数据集类型如下: 文本类数据集,详见创建文本类数据集标注任务。
不同场景和需求。不同模型在处理上下文token长度和功能上有所差异,以下是当前支持的模型清单,您可以根据实际需求选择最合适的模型进行开发和应用。 表1 盘古NLP大模型规格 模型支持区域 模型名称 可处理最大Token长度 说明 西南-贵阳一 Pangu-NLP-N1-Chat-32K-20241030
在实际流程中,通过设定训练指标对模型进行监控,以确保效果符合预期。在微调后,评估用户模型,并进行最终优化,确认其满足业务需求后,进行部署和调用,以便实际应用。 科学计算大模型选择建议 科学计算大模型支持训练的模型类型有:中期天气要素预测模型、区域中期海洋智能预测模型。 中期天气要素预测模型选择建议:
Studio大模型开发平台为用户提供了多种规格的科学计算大模型,以满足不同场景和需求。以下是当前支持的模型清单,您可以根据实际需求选择最合适的模型进行开发和应用。 表1 盘古科学计算大模型规格 模型支持区域 模型名称 说明 西南-贵阳一 Pangu-AI4S-Ocean_24h-20241030
越强,但同时也可能会降低模型的拟合能力。取值范围:[0,1]。 优化器种类 优化器种类 优化器是用于更新模型参数的算法,目前支持ADAM优化器。 第一个动量矩阵的指数衰减率(beta1) 用于定义ADAM优化器中的一阶矩估计的指数衰减率。一阶矩估计相当于动量,可以加速梯度在相关方向的下降并抑制震荡。取值范围:(0