检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据转换 图文异常字符过滤 将文本数据中携带的异常字符替换为空值,数据条目不变。 不可见字符,比如U+0000-U+001F 表情符六 网页标签符号<p> 特殊符号,比如● █ ◆ 乱码和无意义的字符����� 图片类加工算子能力清单 表2 图片类加工算子功能表 算子分类 算子名称
数据集中若存在异常数据,可通过数据集加工功能去除异常字符、表情符号、个人敏感内容等。 说明: 盘古NLP大模型仅支持接入文本类数据集。 若数据类型为文档、网页,则加工数据集为必选项,否则为可选项。 创建文本类数据集加工任务 上线加工后的数据集 对加工后的数据集执行上线操作。 上线加工后的文本类数据集
文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 网页 html 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 预训练文本 jsonl jsonl格式:text表示预
查找数据集每一条数据中携带的异常字符,并将异常字符替换为空值,数据条目不变。 不可见字符,比如U+0000-U+001F。 表情符六。 网页标签符号<p>。 特殊符号,比如● █ ◆。 乱码和无意义的字符�����。 自定义正则过滤 删除符合自定义正则表达式的数据。 自定义关键词过滤
平台支持的数据类型 数据类型 数据内容 数据文件格式要求 文本类 文档 支持txt、mobi、epub、docx、pdf,详见文本类数据集格式要求。 网页 支持html,详见文本类数据集格式要求。 预训练文本 支持jsonl,详见文本类数据集格式要求。 单轮问答 支持jsonl、csv,详见文本类数据集格式要求。
Token计算器 功能介绍 为了帮助用户更好地管理和优化Token消耗,平台提供了Token计算器工具。Token计算器可以帮助用户在模型推理前评估文本的Token数量,提供费用预估,并优化数据预处理策略。 URI POST /v1/{project_id}/deployment
来源一:互联网开源数据集,如政府网站网页、政府在线问答公开数据、政务百科等。 来源二:特定的私域数据,针对于具体场景和项目需求,收集相关的文本数据。比如通过与当地政府的政数局进行合作,获取政府部门提供的内部脱敏数据等。相关的数据格式包括但不限于:在线网页、离线word文档、离线txt文
Agent开发平台概述 Agent开发平台简介 Agent开发平台是基于NLP大模型,致力打造智能时代集开发、调测和运行为一体的AI应用平台。无论开发者是否拥有大模型应用的编程经验,都可以通过Agent平台快速创建各种类型的智能体。Agent开发平台旨在帮助开发者高效低成本的构建
Agent开发 Agent开发平台为开发者提供了一个全面的工具集,帮助您高效地开发、优化和部署应用智能体。无论您是新手还是有经验的开发者,都能通过平台提供的提示词工程、插件扩展、灵活的工作流设计和全链路调测功能,快速实现智能体应用的开发与落地,加速行业AI应用的创新与应用。 对于零码开发者(无代码开发经验的用户):
云容器引擎-成长地图 | 华为云 盘古大模型 盘古大模型服务(PanguLargeModels)致力于深耕行业,打造多领域行业大模型和能力集。盘古大模型能力通过ModelArts Studio大模型开发平台承载,它提供了包括盘古大模型在内的多种大模型服务,提供覆盖全生命周期的大模型工具链。
状态码 HTTP状态码为三位数,分成五个类别:1xx:相关信息;2xx:操作成功;3xx:重定向;4xx:客户端错误;5xx:服务器错误。 状态码如下所示。 状态码 编码 状态说明 100 Continue 继续请求。 这个临时响应用来通知客户端,它的部分请求已经被服务器接收,且仍未被拒绝。
审计 云审计服务(Cloud Trace Service,CTS)是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建、配置追踪器后,CTS可记录用户使用盘古的管理事件和数据事件用于审计。
什么是盘古大模型 盘古大模型服务致力于深耕行业,打造多领域行业大模型和能力集。ModelArts Studio大模型开发平台是盘古大模型服务推出的集数据管理、模型训练和模型部署为一体的一站式大模型开发平台及大模型应用开发平台,盘古NLP、科学计算模型能力通过ModelArts S
创建科学计算大模型训练任务 创建科学计算大模型训练任务步骤如下: 登录ModelArts Studio大模型开发平台,进入所需操作空间。 图1 进入操作空间 在左侧导航栏中选择“模型开发 > 模型训练”,单击界面右上角“创建训练任务”。 在“创建训练任务”页面,模型类型选择“科学
功能总览 功能总览 全部 数据工程工具链 模型开发工具链 应用开发工具链 能力调测 应用百宝箱 数据工程工具链 数据是大模型训练的基础,为大模型提供了必要的知识和信息。数据工程工具链作为盘古大模型服务的重要组成部分,具备数据获取、清洗、配比和管理等功能。 该工具链能够高效收集和处
构造请求 本节介绍REST API请求的组成,并以调用服务的获取用户Token接口说明如何调用API。 您还可以通过这个视频教程了解如何构造请求调用API:https://bbs.huaweicloud.com/videos/102987 。 请求示例如下图所示,一个请求主要由请
API NLP大模型 科学计算大模型 Token计算器
创建工作流 支持开发者基于Agent平台创建工作流。创建工作流时,工作流默认包含了开始、结束和大模型组件。开发者可基于该工作流,添加更多的组件,实现业务流程的编排。 登录ModelArts Studio大模型开发平台,进入所需空间。 在左侧导航栏中选择“Agent开发”,将跳转至Agent开发平台。
创建盘古多语言文本翻译工作流 场景描述 该示例演示了如何创建多语言文本翻译工作流,示例将调用华为云文本翻译API,详见文本翻译。 准备工作 提前开通“文本翻译”服务。登录自然语言处理控制台,在总览页面下方开通“文本翻译”服务,单击“开通服务”。 图1 开通文本翻译服务 提前获取文
NLP大模型训练流程与选择建议 NLP大模型训练流程介绍 NLP大模型专门用于处理和理解人类语言。它能够执行多种任务,如对话问答、文案生成和阅读理解,同时具备逻辑推理、代码生成和插件调用等高级功能。 NLP大模型的训练分为两个关键阶段:预训练和微调。 预训练阶段:在这一阶段,模型