检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如何将本地的数据上传至平台 ModelArts Studio平台支持从OBS服务导入数据。您可以将本地数据上传至OBS(对象存储服务),然后通过平台提供的“数据导入”功能,将存储在OBS中的数据导入至平台进行使用。 具体操作步骤如下: 上传数据至OBS:将本地数据上传至OBS服务,请详见通过控制台快速使用OBS。
训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。 模型开发工具链 模型开发工具链是盘古大模型服务的核心组件,提供从模型创建到部署的一站式解决方案。
位训练失败的原因。典型训练报错和解决方案请参见NLP大模型训练常见报错与解决方案。 训练日志可以按照不同的节点(训练阶段)进行筛选查看。分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如wor
训练失败的原因。典型训练报错和解决方案请参见科学计算大模型训练常见报错与解决方案。 训练日志可以按照不同的节点(训练阶段)进行筛选查看。分布式训练时,任务被分配到多个工作节点上进行并行处理,每个工作节点负责处理一部分数据或执行特定的计算任务。日志也可以按照不同的工作节点(如wor
Studio大模型开发平台为用户提供了丰富的训练工具与灵活的配置选项。用户可以根据实际需求选择合适的模型架构,并结合不同的训练数据进行精细化训练。平台支持分布式训练,能够处理大规模数据集,从而帮助用户快速提升模型性能。该模块提供预训练、全量微调、LoRA微调等。 模型评测:为了确保模型的实际应用效
管理盘古模型资产 模型资产介绍 用户在平台中可试用、已订购或训练后发布的模型,将被视为模型资产并存储在空间资产内,方便统一管理与操作。用户可以查看模型的所有历史版本及操作记录,从而追踪模型的演变过程。同时,平台支持一系列便捷操作,包括模型训练、压缩和部署,帮助用户简化模型开发及应
盘古大模型服务通过多种数据保护手段和特性,保障存储在服务中的数据安全可靠。 表1 盘古大模型的数据保护手段和特性 数据保护手段 简要说明 传输加密(HTTPS) 盘古服务使用HTTPS传输协议保证数据传输的安全性。 基于OBS提供的数据保护 基于OBS服务对用户的数据进行存储和保护。请参考OBS数据保
常见问题 使用java sdk出现第三方库冲突 当出现第三方库冲突的时,如Jackson,okhttp3版本冲突等。可以引入如下bundle包(3.0.40-rc版本后),该包包含所有支持的服务和重定向了SDK依赖的第三方软件,避免和业务自身依赖的库产生冲突: <dependency>
B,文件数量最多1000个。 图片+Caption 图片支持tar,Caption支持jsonl 图片:图片以tar包格式存储,可以多个tar包。tar包存储原始的图片,每张图片命名要求唯一(如abc.jpg)。图片支持jpg、jpeg、png、bmp格式。 jsonl:图片描述
过程中,您需要用到账号、用户和密码等信息。 区域(Region) 从地理位置和网络时延维度划分,同一个Region内共享弹性计算、块存储、对象存储、VPC网络、弹性公网IP、镜像等公共服务。Region分为通用Region和专属Region,通用Region指面向公共租户提供通用
单个评测集:由用户指定评测指标(F1分数、准去率、BLEU、Rouge)并上传评测数据集进行评测。 选择“单个评测集”时需要上传待评测数据集。 评测结果存储位置 模型评测结果的存储位置。 基本信息 评测任务名称 填写评测任务名称。 描述 填写评测任务描述。 参数填写完成后,单击“立即创建”,回退至“模型评测
古NLP大模型数据集流程见表3。 表3 盘古NLP大模型数据集构建流程 流程 子流程 说明 操作指导 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 导入数据至盘古平台 加工文本类数据集 加工文本类数据集 通过专用的加工算
知识库介绍 平台提供了知识库功能来管理和存储数据,支持为应用提供自定义数据,并与之进行互动。 知识库支持导入以下格式的本地文档: 文本文档数据。支持上传常见文本格式,包括:txt、doc、docx、pdf、ppt、pptx格式。 表格数据。支持上传常见的表格文件格式,便于管理和分
域项目中的资源。 可以选择“全局服务资源”,即服务部署时不区分区域,访问全局级服务,不需要切换区域,全局服务不支持基于区域项目授权。如对象存储服务(OBS)、内容分发网络(CDN)等。 选择完成后,单击“确定”。 图4 设置最小授权范围 单击“完成”,完成用户组授权。 图5 完成授权
审计 云审计服务(Cloud Trace Service,CTS)是华为云安全解决方案中专业的日志审计服务,提供对各种云资源操作记录的收集、存储和查询功能,可用于支撑安全分析、合规审计、资源跟踪和问题定位等常见应用场景。 用户开通云审计服务并创建、配置追踪器后,CTS可记录用户使用盘古的管理事件和数据事件用于审计。
与其他服务的关系 与对象存储服务的关系 盘古大模型使用对象存储服务(Object Storage Service,简称OBS)存储数据和模型,实现安全、高可靠和低成本的存储需求。 与ModelArts服务的关系 盘古大模型使用ModelArts服务进行算法训练部署,帮助用户快速创建和部署模型。
正式使用盘古大模型服务前,需要完成服务的订购操作。 配置服务访问授权 为了能够正常的存储数据、训练模型,需要用户配置盘古访问OBS的权限。 创建并管理盘古工作空间 平台支持用户自定义创建工作空间,并进行空间的统一管理。 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。
训练和评测任务的需求。通过提供自动化的质量检测和数据清洗能力,对原始数据进行优化,确保其质量和一致性。同时,数据工程工具链还提供强大的数据存储和管理能力,为大模型训练提供高质量的数据支撑。 支持区域: 西南-贵阳一 数据工程介绍 数据工程使用流程 数据集格式要求 导入数据至盘古平台
配置OBS访问授权 ModelArts Studio大模型开发平台使用对象存储服务(Object Storage Service,简称OBS)进行数据存储,实现安全、高可靠和低成本的存储需求。因此,为了能够顺利进行存储数据、训练模型等操作,需要用户配置访问OBS服务的权限。 配置OBS访问授权步骤如下:
数据工程操作流程见图1、表1。 图1 数据集构建流程图 表1 数据集构建流程表 流程 子流程 说明 导入数据至盘古平台 创建导入任务 将存储在OBS服务中的数据导入至平台统一管理,用于后续加工或发布操作。 加工数据集 加工数据集 通过专用的加工算子对数据进行预处理,确保数据符合