检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
见表1。 表1 文本类数据集格式要求 文件内容 文件格式 文件要求 文档 txt、mobi、epub、docx、pdf 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 网页 html 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 预训练文本
数据集,创建时可导入图片、图片+Caption、图片+QA对三种类型的数据,具体格式要求详见表1。 表1 图片类数据集格式要求 文件内容 文件格式 文件要求 图片 tar、图片目录 图片:支持jpg、jpeg、png、bmp类型,单张图片大小不能超过5M,图片总大小不能超过500MB。
再分析数据为二进制格式,具体格式要求详见表1。 表1 气象类数据集格式要求 文件内容 文件格式 文件要求 海洋气象 nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2 数据集最大100万个文件,单文件最大10GB,整个数据集最大10TB。 海洋数据
获取政府部门提供的内部脱敏数据等。相关的数据格式包括但不限于:在线网页、离线word文档、离线txt文件、离线excel表格、离线PDF文件、扫描版word文档、扫描版PDF文件等。 微调数据要求: 数据格式样例:JSONL格式,每行是一条JSON,包含“context”和“target”两个字段。示例如下:
TXT内容提取 从TXT文件中提取所有文本内容。 CSV内容提取 从CSV文件中读取所有文本内容,并按该文件内容类型模板KEY值生成匹配的JSON格式数据。 PDF内容提取 从PDF中提取内容转换为结构化数据。 JSON内容提取 从JSON文件(键值对类型文件)中提取出内容。 HTML内容提取
同时提高计算速度。当前,平台支持对NLP大模型进行压缩。 模型部署:平台提供了一键式模型部署功能,用户可以轻松将训练好的模型部署到云端或本地环境中。平台支持多种部署模式,能够满足不同场景的需求。通过灵活的API接口,模型可以无缝集成到各类应用中。 模型调用:在模型部署后,用户可
”,表示数据已经完成加工,加工完成的数据集支持上线、编辑与删除操作。 平台支持查看加工后的数据集。单击加工完成的数据集名称,在“数据文件”页签的文件操作列单击“下载”,再单击“确定”,下载完成后即可查看。 父主题: 加工视频类数据集
、850、700、600、500、400、300、250、200、150、100、50hPa高空层次)0点、6点、12点、18点时刻的数据文件,下载步骤示例如下: 注册并登录数据下载平台,在高空变量数据下载链接中: Product type选择Reanalysis。 Variab
”,表示数据已经完成加工,加工完成的数据集支持上线、编辑与删除操作。 平台支持查看加工后的数据集。单击加工完成的数据集名称,在“数据文件”页签的文件操作列单击“下载”,再单击“确定”,下载完成后即可查看。 父主题: 加工文本类数据集
”,表示数据已经完成加工,加工完成的数据集支持上线、编辑与删除操作。 平台支持查看加工后的数据集。单击加工完成的数据集名称,在“数据文件”页签的文件操作列单击“下载”,再单击“确定”,下载完成后即可查看。 父主题: 加工气象类数据集
”,表示数据已经完成加工,加工完成的数据集支持上线、编辑与删除操作。 平台支持查看加工后的数据集。单击加工完成的数据集名称,在“数据文件”页签的文件操作列单击“下载”,再单击“确定”,下载完成后即可查看。 父主题: 加工图片类数据集
平台支持气象类数据集的加工操作,气象类加工算子能力清单见表1。 表1 气象类加工算子能力清单 算子分类 算子名称 算子描述 科学计算 气象预处理 将二进制格式的气象数据文件转换成结构化json数据。 父主题: 数据集加工算子介绍
表1 安装推理SDK SDK语言 安装方法 Java 在您的操作系统中下载并安装Maven,安装完成后您只需要在Java项目的pom.xml文件中加入相应的依赖项即可。 <dependency> <groupId>com.huaweicloud.sdk</groupId>
Studio大模型开发平台,进入所需空间。 选择左侧“数据工程 > 数据获取”,单击右上角“创建原始数据集”。 在“创建原始数据集”页面,选择“文本 > 单轮问答”,选择文件格式、文件来源,填写数据集名称及描述,单击“立即创建”。 图1 创建原始数据集 单击“选择路径”,在“存储位置”弹窗中选择需导入的数据,单击“确认”。
时刻开始,可以逐6h往后进行降水情况的预测。 结果存储路径 用于存放模型推理结果的OBS路径。 输入数据 支持选择用于存放作为初始场数据的文件路径。 预报天数 支持选择以起报时间点为开始,对天气要素或降水进行预报的天数,范围为1~14天。 起报时间 支持选择多个起报时间作为推理作
个插件,并供Agent调用。 自定义知识库:平台提供了知识库功能来管理和存储数据,支持为AI应用提供自定义数据,并与之进行互动。多种格式的本地文档(支持docx、pptx和pdf等)都可以导入至知识库。 灵活的工作流设计:平台提供灵活的工作流设计,用于开发者处理逻辑复杂、且有较高稳定性要求的任务流。
户的安全责任在于对使用的IaaS、PaaS和SaaS类云服务内部的安全以及对租户定制配置进行安全有效的管理,包括但不限于虚拟网络、虚拟主机和访客虚拟机的操作系统,虚拟防火墙、API网关和高级安全服务,各项云服务,租户数据,以及身份账号和密钥管理等方面的安全配置。 《华为云安全白皮
以轻松创建Agent应用,快速体验智能化应用的便捷性。 平台提供导入知识功能,支持用户存储和管理数据,并与AI应用进行互动。支持多种格式的本地文档(如docx、pptx、pdf等),方便导入至知识,为Agent应用提供个性化数据支持。 平台还提供全链路信息观测和调试工具,支持开发
标注管理”,单击页面右上角“创建标注任务”。 图2 标注管理 在“创建标注任务”页面选择需要标注的加工后的文本类数据集,并设置标注项。 设置标注项时,不同类型的数据文件对应的标注项也有所差异,可基于页面提示进行设置。 图3 创建标注任务 单击“下一步”设置标注人员及信息,单击“完成创建”。 分配标注任务时
的模型操作,如模型训练、压缩和部署,帮助用户简化模型开发和应用流程。此外,平台还提供了导入和导出功能,支持用户将其他局点的盘古大模型迁移到本地局点,这使得模型资产在不同局点间的共享和管理变得更加灵活高效。 通过统一管理空间资产,平台不仅帮助用户高效组织和利用资源,还保障了资产的安