云服务器内容精选

  • 平台支持的数据类型 ModelArts Studio大模型开发平台支持的数据类型见表1。 表1 平台支持的数据类型 数据类型 数据内容 数据文件格式要求 文本类 文档 支持txt、mobi、epub、docx、pdf,详见文本类数据集格式要求。 网页 支持html,详见文本类数据集格式要求。 预训练文本 支持jsonl,详见文本类数据集格式要求。 单轮问答 支持jsonl、csv,详见文本类数据集格式要求。 单轮问答(人设) 支持jsonl、csv,详见文本类数据集格式要求。 多轮问答 支持jsonl,详见文本类数据集格式要求。 多轮问答(人设) 支持jsonl,详见文本类数据集格式要求。 问答排序 支持jsonl、csv,详见文本类数据集格式要求。 图片类 图片 支持图片、tar,详见图片类数据集格式要求。 图片+Caption 图片支持tar,Caption支持jsonl,详见图片类数据集格式要求。 图片+QA对 图片支持tar,QA对支持jsonl,详见图片类数据集格式要求。 视频类 视频 支持mp4、avi,详见视频类数据集格式要求。 气象类 海洋气象 支持nc、cdf、netcdf、gr、gr1、grb、grib、grb1、grib1、gr2、grb2、grib2,详见气象类数据集格式要求。 预测类 时序 支持csv,详见预测类数据集格式要求。 回归分类 支持csv,详见预测类数据集格式要求。 其他类 用户自定义 支持构建CV场景中包含图片和标注文件的图像分类数据集,如图片+CV标注、视频+CV标注等类型,详见其他类数据集格式要求。
  • 数据工程简介 数据工程是ModelArts Studio大模型开发平台为用户提供的一站式数据处理与管理功能,旨在通过系统化的数据获取、加工、标注、评估和发布等过程,确保数据能够高效、准确地为大模型的训练提供支持,帮助用户高效管理和处理数据,提升数据质量和处理效率,为大模型开发提供坚实的数据基础。 数据工程所包含的具体功能如下: 数据获取:数据获取是数据工程的第一步,涉及从不同来源和格式的数据导入到平台。ModelArts Studio大模型开发平台提供多种高效灵活的数据接入方式,支持本地上传、通过OBS服务将数据导入平台。平台支持的多种数据类型包括文本、图片、视频等,能够满足不同行业和业务需求的多样化数据接入方式。用户还可以根据业务需求上传自定义格式的数据,极大地提升了数据获取的灵活性和可扩展性。通过这一功能,用户能够方便快捷地将大量数据导入平台,为后续的数据处理和模型训练打下良好的基础。 数据加工:数据加工是确保数据质量的关键步骤。平台提供一系列数据清洗、过滤、转换等加工操作,旨在确保原始数据能够满足各种业务需求和模型训练的标准。针对不同类型的数据集,平台设计了专用的加工算子(即为特定数据处理任务预定义的操作模块,如文本去重、格式转换、异常处理等),通过这些算子能够高效地处理各类数据。对于文本类数据集,平台还支持用户自定义加工算子,以进一步满足特定场景下的需求。目前这一自定义算子功能仅适用于文本类数据集。通过加工操作,平台能够有效清理噪声数据、标准化数据格式,提升数据集的整体质量。 数据标注:在大模型的训练中,数据标注至关重要。平台不仅支持对无标签数据进行手动标注或重新标注,还支持对图片、视频类数据集通过AI预标注技术提升标注效率。AI预标注功能通过自动化的方式为数据集生成初步的标签,用户可以在此基础上进行人工审核和修正,从而大幅度减少人工标注的工作量和时间成本。此外,AI预标注不仅提高了标注效率,还能减少人为错误,提高标注的一致性和准确性。标注质量的提高直接增强了训练数据的有效性,确保训练模型时能获得更高质量的学习数据,从而推动模型性能的提升。 数据评估:数据的质量直接决定了大模型的表现,因此,数据质量评估在整个数据工程中占有重要地位。ModelArts Studio大模型开发平台提供了强大的数据质量评估工具,能够对处理后的数据集进行深入分析,评估其准确性、完整性和一致性。平台生成详细的数据质量评估报告,帮助用户全面了解数据的健康状况。数据评估结果能够为后续的数据优化提供明确指导,帮助用户在数据发布前进行最后的质量把关,确保数据集的可靠性,为大模型的训练提供高质量的基础数据。 数据发布:数据发布是数据工程流程的最后一步。平台支持将经过加工、标注和评估的数据集以多种格式进行发布,包括默认格式、盘古格式(适用于训练盘古大模型时)。这些格式支持用户在不同的AI平台和业务场景中使用,确保数据在不同模型训练系统中的兼容性与流畅使用。目前,发布多种数据集格式的功能仅支持文本类和图片类数据集。 数据工程架构图如下: 图1 数据工程架构图 通过集成数据获取、加工、标注、评估和发布的完整流程,在大规模数据集的构建过程中,ModelArts Studio大模型开发平台的数据工程功能为用户提供了极大的灵活性和高效性,确保了数据处理的各个环节都能紧密协作,快速响应不断变化的业务需求和技术要求。
  • 操作步骤 登录Fabric工作空间管理台,单击“服务授权”。 图1 服务授权界面 在服务授权页面配置授权委托。用户可以根据实际需要参照委托策略进行配置委托权限。 图2 服务授权配置 表1 委托策略 委托策略名称 权限项 是否必须 功能 FABRIC_COMMON_POLICY iam:tokens:assume iam:groups:listGroups iam:users:listUsers iam:roles:listRoles iam:groups:listGroupsForUser iam:agencies:listAgencies iam:roles:getRole iam:permissions:listRolesForAgency obs:bucket:ListAllMyBuckets obs:bucket:GetLifecycleConfigurationd obs:bucket:GetBucketLocation obs:bucket:ListBucket obs:object:GetObjectVersion obs:object:GetObject DataArtsFabric:workspace:list DataArtsFabric:endpoint:list DataArtsFabric:endpoint:show DataArtsFabric:endpoint:listRoute 是 IAM 相关权限:仅委托部分只读权限,保证服务能够比较当前用户的委托和服务需要的委托,用于提示用户进行委托更新。 OBS相关权限:服务所有业务,包括作业,推理,都需要OBS文件的读取权限,保证后续能够从用户的OBS桶拉取到作业文件进行执行,模型文件进行部署。针对OBS的权限,用户可以在IAM的委托界面手动修改fabric_admin_trust委托中OBS相关的部分,限制服务可以访问的OBS资源,具体如何设置参考IAM权限,OBS自定义策略样例。 FABRIC_ AOM _POLICY aom:alarm:put 否 Fabric服务使用运维管理服务所需的权限。如果需要指标监控和告警能力,需要开启。 FABRIC_LAKEFORMATION_POLICY lakeformation:accessTenant:grant lakeformation:access:delete lakeformation:access:create lakeformation:access:describe lakeformation:access:describe lakeformation:agreement:grant lakeformation:agreement:describe lakeformation:agreement:cancel lakeformation:agency:create lakeformation:agency:drop lakeformation:agency:describe 否 Fabric服务使用LakeFormation服务所需的权限。如果需要对接LakeFormation,则需要开启。 FABRIC_ SMN _POLICY smn:topic:publish 否 Fabric服务使用 消息通知 服务所需的权限。如果需要消息通知能力,则需要开启。 除必选的委托,其他委托权限都支持取消。
  • ModelArts.4342 标注信息不满足切分条件 出现此故障时,建议根据如下建议,修改标注数据后重试。 多标签的样本(即一张图片包含多个标签),至少需要有2张。如果启动训练时,设置了数据集切分功能,如果多标签的数据少于2张,会导致数据集切分失败。建议检查您的标注信息,保证标注多标签的图片,超过2张。 数据集切分后,训练集和验证集包含的标签类别不一样。出现这种情况的原因:多标签场景下时,做随机数据切分后,包含某一类标签的样本均被划分到训练集,导致验证集无该标签样本。由于这种情况出现的概率比较小,可尝试重新发布版本来解决。
  • 操作步骤 以“root”帐号,通过密钥或密码的方式,登录到源端节点1上 进入解压后的文件目录,使用vi打开配置文件 sync.conf。 cd /opt/huawei/DirSyncScript vi sync.conf 请参考表1,修改配置参数后保存。 表1 参数配置 参数 说明 示例 Source_Directory 源端服务器需要同步的目录。如果有多个目录,请用"/"分割。 注意: 如果源端目录末尾没有加"/",最终同步时会将目录本身同步过去;如果末尾有"/",就是将目录内部的所有内容同步过去。 例如源端设置为"/src1,/src2/" ,目的端为"/dst1 , /dst2",则同步后/dst1 中包含的是/src1文件夹, /dst2中的是/src2中的所有内容(不含/src2文件夹)。 /src1/, /src2/, /src3/ Destination_Host 目的服务器的IP地址 192.168.0.11 Destination_Directory 目的端目录,多个目录用"/"分割。要求分割后目的端目录数与源端一致。 /dst1, /dst2, /dst3 以下目录为示例,具体根据实际情况填写:
  • 购买弹性云服务器 需要创建两台E CS ,一台使用Linux系统安装SAP Business One和HANA,另外一台用于安装Business One/HANA Client,两台ECS详情如下所示,下表和截图均为示例,仅展示操作步骤,请根据实际情况购买 主机名 业务/客户端IP地址 规格 类型 镜像 b123 10.10.1.178 m6.2xlarge.8 Business One SUSE Enterprise 12 SP4 HANA ecswindows 10.10.1.176 c6.4xlarge.2 Business One/HANA Client Windows Server 2016 标准版 64位简体中文 ECS产品规格 型号 文件系统 盘大小GB 存储类别 操作系统 m6.2xlarge.8 12core ,24G 1049 系统盘 100 高IO SUSE Enterprise 12 SP4 /usr/sap 80 高IO /hana/data 200*2 超高IO SWAP 17 高IO /hana/log 252 超高IO /hana/shared 300 高IO /sapcd N/A SFS c6.4xlarge.2 16vCPUs | 32GB 700 系统盘 200 高IO Windows Server 2016 标准版 64位简体中文 D: 500 高IO 选择进入华为云控制台,选择计算,弹性 云服务器ECS 点击购买弹性云服务器 按照上表选择云服务器规格,镜像,磁盘大小 点击下一步,进行网络配置,选择已创建好的VPC和安全组,确认配置,点击下一步,高级配置 输入主机名,root密码,点击下一步确认配置 选择企业项目,确认购买。 同理,创建并购买windows跳板机。 购买结束后,可在华为云控制台,选择远程登录,可以在使用VNC用root用户登录 父主题: 安装准备
  • 准备目的端服务器(可选) SMS Linux块迁移可以在迁移过程中选择自动创建新的服务器,也可以使用现有的服务器作为目的端,如果使用现有的服务器作为目的端,则进行本章节步骤。 本次测试使用SMS Linux块迁移进行同区域的不同可用区之间的迁移,在SMS迁移之前,先创建出一台与源服务器规格一样,磁盘个数以及大小都一样并且操作系统相同的目的端服务器ECS,使其与源端服务器在相同的区域但是在不同的可用区中,并且与源端服务器处在同一个VPC中。 源端服务器磁盘信息如下图所示: 目的端服务器磁盘信息如下图所示: 创建的目的端服务器需要满足以下条件,否则SMS迁移有可能不会成功: Windows系统的目的端服务器(即弹性云服务器)“规格”中的“内存”大小要不小于2GB。 目的端服务器的磁盘个数不小于源端服务器磁盘个数,且目的端服务器每块磁盘的大小要不小于对应的源端服务器磁盘大小。 目的端服务器的操作系统类型需要和源端的OS类型保持一致。否则,迁移完成后服务器OS系统类型与镜像类型不一致,造成名字冲突及其他问题。 确保源端服务器可以访问目的端服务器,即要有可用的EIP,或者配置VPN、专线。 确保目的端服务器所在VPC安全组配置准确。需配置目的端服务器所在VPC安全组。如果是Windows系统,开放TCP的8899端口和8900端口;如果是Linux系统,开放8900、22端口。 请参见如何配置目的端服务器安全组规则? 配置安全组规则。 父主题: 迁移准备
  • 操作步骤 登录管理控制台。 在管理控制台左上角单击,选择区域和项目。 在左侧导航栏,单击,选择网络,虚拟私有云 在右侧界面,单击“创建虚拟私有云”,弹出“创建虚拟私有云”界面。 根据界面提示,并参见表1配置VPC参数。 表1 虚拟私有云参数说明 分类 参数 说明 基本信息 区域 区域指虚拟私有云所在的物理位置。同一区域内可用分区间内网互通,不同区域间内网不互通。可以在管理控制台左上角切换区域。 名称 VPC名称。 网段 VPC的地址范围,VPC内的子网地址必须在VPC的地址范围内。 目前支持网段范围: 10.0.0.0/8~24 172.16.0.0/12~24 192.168.0.0/16~24 需要根据网络规划的子网信息,配置VPC的地址范围 企业项目 创建VPC时,可以将VPC加入已启用的企业项目。 企业项目管理提供了一种按企业项目管理云资源的方式,帮助您实现以企业项目为基本单元的资源及人员的统一管理,默认项目为default。 关于创建和管理企业项目的详情,请参见《企业管理用户指南》。 标签 虚拟私有云的标识,包括键和值。可以为虚拟私有云创建10个标签,此处为可选项,单击“高级配置”进行配置。 标签的命名规则请参考虚拟私有云标签命名规则。 默认子网 可用区 可用区是指在同一地域内,电力和网络互相独立的物理区域。在同一VPC网络内可用区与可用区之间内网互通,可用区之间能做到物理隔离。 名称 子网的名称。 子网网段 子网的地址范围,需要在VPC的地址范围内。需要根据网络规划的子网信息,配置子网网段。 高级配置 单击“高级配置”,可配置子网的高级参数,包括网关、DNS服务器地址等。 网关 子网的网关。 DNS服务器地址 默认情况下使用网络外部DNS服务器地址,如果需要修改DNS服务器地址,请确保配置的DNS服务器地址可用。 DHCP租约时间 DHCP租约时间是指DHCP服务器自动分配给客户端的IP地址的使用期限。超过租约时间,IP地址将被收回,需要重新分配。单位:天。 标签 子网的标识,包括键和值。可以为子网创建10个标签,此处为可选项。 标签的命名规则请参考子网标签命名规则。 添加子网 可单击“添加子网”,添加子网信息。 单击“立即创建”,完成VPC的创建。
  • 操作步骤 以“root”帐号,通过密钥或密码的方式,登录到服务器。 在命令行界面,下载解压软件包obsutil_adapter.zip,并解压到/opt/huawei目录下。不同的region软件包下载地址不同,具体请参见表1,此处以华东区域为例: wget https://obs-sap.obs.myhuaweicloud.com/obsutil_adapter/obsutil_adapter.zip -P /opt/huawei 表1 获取软件包 名称 描述 获取方式 obsutil_adapter.zip 软件包。 华北-北京一:wget https://obs-sap-cn-north-1.obs.myhuaweicloud.com/obsutil_adapter/obsutil_adapter.zip -P /opt/huawei 华北-北京四:wget https://obs-sap-cn-north-4.obs.myhuaweicloud.com/obsutil_adapter/obsutil_adapter.zip -P /opt/huawei 华东-上海一:wget https://obs-sap-cn-east-3.obs.cn-east-3.myhuaweicloud.com/obsutil_adapter/obsutil_adapter.zip -P /opt/huawei 华东-上海二:wget https://obs-sap.obs.myhuaweicloud.com/obsutil_adapter/obsutil_adapter.zip -P /opt/huawei 华南-广州:wget https://obs-sap-cn-south-1.obs.myhuaweicloud.com/obsutil_adapter/obsutil_adapter.zip -P /opt/huawei cd /opt/huawei unzip obsutil_adapter.zip -d obsutil_adapter/ obsutil_adapter.py:上传脚本,需要执行的脚本文件,会调用obsutil客户端。 obsutil_adapter.cfg:脚本配置文件。 obsutil:obsutil客户端。 Log目录的路径为/var/log/huawei/obsutil_adapter。
  • 操作步骤 确认CloudTable集群已经安装,并正常运行。 准备Windows弹性云服务器。 具体操作请参见准备弹性云服务器章节。 请在Windows的弹性云服务器上安装JDK1.7及以上版本,强烈推荐使用JDK1.8及以上版本,并且安装Eclipse,Eclipse使用JDK1.7及以上的版本。 如果使用IBM JDK,请确保Eclipse中的JDK配置为IBM JDK。 如果使用Oracle JDK,请确保Eclipse中的JDK配置为Oracle JDK。 不同的Eclipse不要使用相同的workspace和相同路径下的示例工程。
  • 开发环境简介 在进行二次开发时,要准备的开发环境如表1所示。 表1 开发环境 准备项 说明 操作系统 Windows系统,推荐Windows 7及以上版本。 安装JDK 开发环境的基本配置。版本要求:1.7或者1.8。考虑到后续版本的兼容性,强烈推荐使用1.8。 说明: 基于安全考虑,CloudTable服务只支持TLS 1.1和TLS 1.2加密协议,IBM JDK默认TLS只支持1.0,如果使用IBM JDK,请配置启动参数“com.ibm.jsse2.overrideDefaultTLS”为“true”,设置后可以同时支持TLS1.0/1.1/1.2。详情请参见IBM官方网站的相关说明。 安装和配置Eclipse 用于开发CloudTable应用程序的工具。 网络 确保开发环境或客户端与 表格存储服务 主机在网络上互通。 父主题: 准备开发环境
  • 规格限制 除表格类型之外的数据集(如视频、文本、音频等),单个数据集的最大样本数量限制:1000000,最大标签数量限制:10000。 除图片类型之外的数据集(如视频、文本、音频等),单个样本大小限制:5GB。 针对图片类数据集(物体检测、图像分类、图像分割),单个图片大小限制:25MB。 单个manifest文件大小限制:5GB。 文本文件单行大小限制:100KB。 数据集标注结果文件大小限制:100MB。
  • 不同类型数据集支持的功能列表 其中,不同类型的数据集支持不同的功能,如智能标注、团队标注等。详细信息参考表1。 表1 不同类型的数据集支持的功能 数据集类型 标注类型 创建数据集 导入数据 导出数据 发布数据集 修改数据集 管理版本 智能标注 团队标注 自动分组 数据特征 图片 图像分类 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 物体检测 支持 支持 支持 支持 支持 支持 支持 支持 支持 支持 图像分割 支持 支持 支持 支持 支持 支持 - - 支持 - 音频 声音分类 支持 支持 - 支持 支持 支持 - - - - 语音内容 支持 支持 - 支持 支持 支持 - - - - 语音分割 支持 支持 - 支持 支持 支持 - 支持 - - 文本 文本分类 支持 支持 - 支持 支持 支持 - 支持 - - 命名实体 支持 支持 - 支持 支持 支持 - 支持 - - 文本三元组 支持 支持 - 支持 支持 支持 - 支持 - - 视频 视频 支持 支持 - 支持 支持 支持 - - - - 自由格式 自由格式 支持 - _ 支持 支持 支持 - - - - 表格 表格 支持 支持 - 支持 支持 支持 - - - -
  • 数据集的类型 当前ModelArts支持如下格式的数据集。 图片:对图像类数据进行处理,支持 .jpg、.png、.jpeg、.bmp四种图像格式,支持用户进行图像分类、物体检测、图像分割类型的标注。 音频:对音频类数据进行处理,支持.wav格式,支持用户进行声音分类、语音内容、语音分割三种类型的标注。 文本:对文本类数据进行处理,支持.txt、.csv格式,支持用户进行文本分类、命名实体、文本三元组三种类型的标注。 视频:对视频类数据进行处理,支持.mp4格式,支持用户进行视频标注。 自由格式:管理的数据可以为任意格式,目前不支持标注,适用于无需标注或开发者自行定义标注的场景。如果您的数据集需存在多种格式数据,或者您的数据格式不符合其他类型数据集时,可选择自由格式的数据集。 表格 表格:适合表格等结构化数据处理。数据格式支持csv。不支持标注,支持对部分表格数据进行预览,但是最多支持100条数据预览。
  • 数据建模引擎运行SDK资源规划 将数据建模引擎运行SDK部署至本地通用服务器/容器,您需要规划其他云平台或本地资源的数量、名称以及主要参数等信息,资源规划详情如表1所示。 表1 数据建模引擎运行SDK资源规划详情 资源/云服务 是否必须 推荐规格 说明 物理机 虚拟机 弹性云服务器(ECS) 是 4U8G*2 用于部署数据建模引擎运行SDK。 数据库 云数据库 RDS 是 规格:4U8G 版本: MySQL 5.x MySQL 8.x PostgreSQL 13.x PostgreSQL 14.x 用于持久化实例数据。 Redis 分布式缓存服务(DCS) 是 规格:8G 版本: Redis 5.x Redis 6.x 用于缓存数据,提高查询效率。 MongoDB 文档数据库服务(DDS) 否 如果不选取,应用运行态将不支持“系统版本”功能。 规格:4U8G 版本:MongoDB 4.x 用于持久化非结构化JSON数据。 Elasticsearch 云搜索服务 CSS ) 否 如果不选取,应用运行态将不支持“搜索服务”功能。 规格:4U8G 版本:Elasticsearch7.10.2 用于语义搜索、分词搜索等操作。 Kafka 分布式消息服务Kafka版 否 如果不选取,应用运行态将不支持“同步至LinkX-F”功能。 规格:4U8G(cluster) 版本:kafka2.7 用于同步数据至LinkX-F。 物理磁盘 对象存储(OBS) 否 如果不选取,应用运行态的所有文件将存储在部署的服务器中。 按需配置 用于存储文件。 xDM-F的上传文件、导入/导出、离线同步等操作的文件可能会占用较大的本地磁盘空间,推荐选择OBS服务。 统一身份认证 (IAM) 否 如果不选取,应用运行态将无法使用IAM登录和token认证。 - 用于单点登录应用运行态页面。 用于应用运行态接口的token认证鉴权。 应用运维管理 (AOM) 否 如果不选取,应用运行态将不支持“系统日志”功能。 - 用于应用运行态日志上报。 用于全量数据服务接口异常的告警上报。 API网关(APIG) 否 如果不选取,应用运行态将无法使用API监控、管理、配置、流控等。 - 用于支持API监控、管理、配置、流控等。 数据加密 服务(DEW) 否 如果不选取,应用运行态将不支持“属性的值加密”功能。 - 用于加解密数据库存储的敏感数据,以密文形式存储。