云服务器内容精选

  • 云搜索服务CSS CloudTable使用云搜索服务(Cloud Search Service,简称CSS)中的Elasticsearch搜索引擎来补充全文检索能力。用户在HBase的建表语句中,通过METADATA来定义索引字段的Elasticsearch schema并指定云搜索服务集群的连接地址,在建表时会自动连接云搜索服务集群并在Elasticsearch中创建索引。用户的源数据存储在CloudTable的HBase中,索引数据存放在云搜索服务的Elasticsearch中。 了解更多CSS的相关信息,请参见云搜索服务。
  • Doris产品介绍 Doris是基于MPP架构的高性能、实时的分析型数据库,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也可以支持高吞吐的复杂分析场景。因此,Doris能够较好的满足报表分析、即席查询、统一数仓构建、 数据湖 联邦查询加速等使用场景,用户可以在此之上构建用户行为分析、AB实验平台、日志检索分析、用户画像分析、订单分析等应用。 Doris最早是诞生于广告报表业务的Palo项目。目前Doris社区已经聚集了来自不同行业近百家企业的300余位贡献者,并且每月活跃贡献者人数也接近100位。2022年6月,Doris成功从Apache孵化器毕业,正式成为Apache顶级项目(Top-Level Project,TLP),Doris如今在中国乃至全球范围内都拥有着广泛的用户群体,截止目前,Doris已经在全球超过500家企业的生产环境中得到应用,在中国市值或估值排行前50的互联网公司中,有超过80%长期使用Doris。同时在一些传统行业如金融、能源、制造等领域也有着丰富的应用。
  • 产品优势 性能优异:自带高效的列式存储引擎,减少数据扫描量的同时还实现了超高的数据压缩比例。同时Doris还提供了丰富的索引结构来加速数据读取与过滤,利用分区分桶裁剪功能,Doris可以支持在线服务业务的超高并发,单节点最高可支持上千QPS。更进一步,Doris结合了向量化执行引擎来充分发挥现代化CPU并行计算能力,辅以智能物化视图技术实现预聚合加速,并可以通过查询优化器同时进行基于规划和基于代价的查询优化。 简单易用:支持标准ANSI SQL语法,包括单表聚合、排序、过滤和多表Join、子查询等,还支持窗口函数、Grouping Set等复杂SQL语法。除此之外,Doris还实现了MySQL协议兼容,用户可以通过各类客户端工具来访问Doris,并支持与BI工具的无缝对接。 架构精简:系统只有两个Frontend(FE)和Backend(BE)两个模块,其中FE节点负责用户请求的接入、查询计划的解析、元数据存储及集群管理等工作,BE节点负责数据存储和查询计划的执行,自身就是一个完备的 分布式数据库 管理系统,用户无需安装任何第三方管控组件即可运行起Doris集群。同时,任一模块都可以支持横向拓展,集群最高可以拓展到数百个节点,支持存储超过10PB的超大规模数据。 稳定可靠:支持数据多副本存储,集群具备自愈功能,自身的分布式管理框架可以自动管理数据副本的分布、修复和均衡,副本损坏时系统可以自动感知并进行修复。 生态丰富:提供丰富的数据同步方式,支持快速加载来自本地、Hadoop、Flink、Spark、Kafka、SeaTunnel等系统中的数据,也可以直接访问MySQL、PostgreSQL、Oracle、S3、Hive、Iceberg、Elasticsearch等系统中的数据而无需数据复制。同时存储在Doris中的数据也可以被Spark、Flink读取,并且可以输出给上游数据应用进行展示分析。
  • 集群管理功能 集群创建:在CloudTable集群管理界面完成集群的创建。支持用户创建Doris集群时选择Frontends\Backends的计算规格、存储规格。 集群查看:在CloudTable集群管理界面可以查看集群详情。 集群管理:对创建的集群进行管理。 集群监控指标查看:对接 CES 服务,可以查看Doris集群相关的监控指标,用户以图形化的方式呈现集群运行状况。当指标出现异常时,通过 消息通知 用户和管理员,及时人工介入。 重启集群:因长时间不重启导致系统运行缓慢等情况下,用户需要重启集群。重启操作将有可能会导致正在运行中的业务数据丢失,如果需要执行重启操作,请确定不存在正在运行的业务,所有数据都已经保存。 删除集群:当用户不再需要集群时,可选择删除集群。此操作为高危操作,删除集群可能导致数据丢失,因此在执行删除操作之前,请确认不存在正在运行的业务,所有数据都已经保存。 扩容集群:用户需要更多的资源满足业务需要时,可以在管理控制台进行扩容操作,对已经创建的集群增加节点数(节点扩容)或对集群的节点增加磁盘容量(纵向扩容)、规格扩容。
  • HBase产品简介 HBase是一个稳定可靠,性能卓越、可伸缩、面向列的分布式 云存储 系统,适用于海量数据存储以及分布式计算的场景,用户可以利用HBase搭建起TB至PB级数据规模的存储系统,对数据轻松进行过滤分析,毫秒级得到响应,快速发现数据价值。 HBase适用场景有: 海量数据存储。 适用于TB~PB级以上的数据存储,提供动态伸缩能力,方便用户在性能或容量需要改变时,改变集群资源,轻松构建企业海量数据存储系统。 实时查询。 HBase的列式KeyValue存储机制,适用于企业用户明细数据即时查询,基于主键的低时延点查,响应时延一般为秒级或毫秒级,方便用户对数据的实时分析。 HBase的架构和详细原理介绍,请参见:https://hbase.apache.org/book.html
  • 集群管理功能 CloudTable服务是华为云提供的一项分布式、可扩展的KeyValue数据存储服务。CloudTable提供Web官网服务界面,CloudTable HBase集群管理的具体功能如下: 创建集群:在CloudTable服务界面完成集群的创建。可以选择计算存储分离架构和计算资源动态调整,尽可能为用户降低成本。 管理集群:对创建的集群进行管理。 指标监控:集群运行中,收集各项监控数据,上报 云监控 (Cloud Eye),向用户以图形化的方式呈现集群运行状况。当指标出现异常时,通过消息通知用户和管理员,及时人工介入。 删除集群:当用户不再需要集群时,可选择删除集群。此操作为高危操作,删除集群可能导致数据丢失,因此在执行删除操作之前,请确认不存在正在运行的业务,所有数据都已经保存。 重启集群:当修改完集群HBase参数后,或者因长时间不重启导致系统运行缓慢等情况下,用户需要重启集群。重启操作将有可能会导致正在运行中的业务数据丢失,如果需要执行重启操作,请确定不存在正在运行的业务,所有数据都已经保存。 查询告警:集群运行异常或系统故障时,CloudTable服务会收集故障信息并上报网管系统,维护人员可根据用户提供的告警信息定位问题原因。 日志查询:记录用户对集群操作信息,便于集群运行异常时定位分析问题原因。
  • 首次使用CloudTable 如果您是首次使用CloudTable的用户,建议您学习并了解如下信息: 基础知识了解 通过CloudTable产品功能章节的内容,了解CloudTable相关的基础知识,包含CloudTable各组件的基本原理和场景介绍,以及CloudTable服务的特有概念和功能的详细介绍。 入门使用 您可以参考《快速入门》学习并上手使用CloudTable。《快速入门》提供了样例的详细操作指导,您可以基于此操作指导,创建和使用CloudTable集群。 使用更多的功能,并查看其相关操作指导 如果您是一个CloudTable集群使用人员,可以参考用户指南完成集群创建、参数配置、查看告警等操作。 如果您是一个开发者,可以参考CloudTable提供的开发指南操作指导及样例工程开发并运行调测自己的应用程序。您也可以通过API调用完成CloudTable集群创建/查询操作,您可以参考《API参考》获取详情。
  • 建表规范 【强制】创建表指定分桶buckets时,每个桶的数据大小为应保持在100M-3G之间,单分区中最大分桶数据不超过5000。 【强制】表数据超过5亿条以上必须设置分区分桶策略。 【强制】分桶的列不要设置太多,一般情况下1或2个列,同时需要兼顾数据分布均匀和查询吞吐之间的均衡,考虑数据均匀是为了避免某些桶的数据存在倾斜影响数据均衡和查询效率,考虑查询吞吐是为了利用查询SQL的分桶剪裁优化避免全桶扫描提升查询性能,所以优先考虑哪些数据较为均匀且常用于查询条件的列适合做分桶列。 【强制】2000kw 以内数据禁止使用动态分区(动态分区会自动创建分区,而小表用户客户关注不到,会创建出大量不使用分区分桶)。 【强制】创建表时的副本数必须至少为2,默认是3,禁止使用单副本。 【建议】单表物化视图不能超过6个。 【建议】对于有大量历史分区数据,但是历史数据比较少,或者不均衡,或者查询概率的情况,使用如下方式将数据放在特殊分区: 对于历史数据,如果数据量比较小我们可以创建历史分区(比如年分区,月分区),将所有历史数据放到对应分区里。 创建历史分区方式:FROM ("2000-01-01") TO ("2022-01-01") INTERVAL 1 YEAR。 【建议】1000w-2亿以内数据为了方便可以不设置分区,直接用分桶策略(不设置其实Doris内部会有个默认分区)。 【建议】如果分桶字段存在30%以上的数据倾斜,则禁止使用Hash分桶策略,改使用random分桶策略:Create table ... DISTRIBUTED BY RANDOM BUCKETS 10 ... 【建议】建表时第一个字段一定是最常查询使用的列,默认有前缀索引快速查询能力,选取分区分桶外最长查询且高基数的列,前缀索引36位,如果列超长也不能使用前缀索引能力。 【建议】亿级别以上数据,如果有模糊匹配或者等值/in条件,可以使用倒排索引或者是 Bloomfilter。如果是低基数列的正交查询适合使用bitmap索引。 【强制】Doris 建表不要指定Merge-On-Write属性,当前有很多开源问题,不推荐。如使用了该属性,CloudTable服务不承诺SLA。
  • 数据查询规范 【强制】鉴于外表存在不稳定性,目前doris暂不支持外表查询。 【强制】in中条件超过2000后,必须修改为子查询。 【强制】禁止使用REST API(Statement Execution Action)执行大量SQL查询,该接口仅仅用于集群维护。 【建议】一次insert into select数据超过1亿条后,建议拆分为多个insert into select语句执行,分成多个批次来执行。如果非要这样执行不可,必须在集群资源相对空闲的时候可以通过调整并发度来加快的数据导入速度 。 例如:set parallel_fragment_exec_instance_num = 8 建议数值是单BE节点上CPU内核的一半。 【强制】query查询条件返回结果在5w条以上,使用JDBC Catalog或者OUTFILE方式导出。不然大量FE上数据传输将占用FE资源,影响集群稳定性。 如果是交互式查询,建议使用分页方式(offset limit),分页要加Order by。 如果是数据导出提供给第三方使用,建议使用 outfile或者export 方式。 【强制】2个以上大于3亿的表JOIN使用Colocation Join。 【强制】亿级别大表禁止使用select * 查询,查询时需要明确要查询的字段。 使用SQL Block方式禁止这种操作。 如果是高并发点查,建议开启行存(2.x版本)。 使用PreparedStatement查询。 【强制】亿级以上表数据查询必须带分区分桶条件。 【建议】尽量不要使用OR作为JOIN条件。 【建议】大量数据排序(5亿以上)后返回部分数据,建议先减少数据范围再执行排序,否则大量排序会影响性能。 例如:将from table order by datatime desc limit 10优化为from table where datatime='2023-10-20' order by datatime desc limit 10。
  • 数据变更类 【强制】应用程序不可以直接使用delete后者update语句变更数据,可以使用CDC的upsert方式来实现。 低频操作上使用,比如Update几分钟更新一次。 如果使用Delete一定带上分区条件。 【强制】禁止使用INSERT INTO tbl1 VALUES (“1”), (“a”);这种方式做数据导入,少量少次写可以,多量多频次时要使用Doris提供的StreamLoad、BrokerLoad、SparkLoad或者Flink Connector方式。 【建议】执行特殊的长SQL操作时,可以使用SELECT /*+ SET_VAR(query_timeout = xxx*/ from table 类似这样通过Hint方式去设置Session 会话变量,不要设置全局的系统变量。
  • 在线生成SDK代码 API Explorer 能根据需要动态生成SDK代码功能,降低您使用SDK的难度,推荐使用。 您可以在API Explorer中具体API页面的“代码示例”页签查看对应编程语言类型的SDK代码,如图1所示。 图1 获取SDK代码示例 当您在中间的填充栏填入对应内容时, 右侧代码示例栏会自动拼装参数到代码中供您进行使用。 图2 设置输入参数 在场景示例中可查看本服务更详细的场景SDK使用方法。 图3 场景示例
  • SDK列表 表1提供了CloudTable服务支持的SDK列表,您可以在GitHub仓库查看SDK更新历史、获取安装包以及查看指导文档。 表1 SDK列表 编程语言 Github地址 参考文档 Java huaweicloud-sdk-java-v3 Java SDK使用指导 Python huaweicloud-sdk-python-v3 Python SDK使用指导 Go huaweicloud-sdk-go-v3 Go SDK使用指导 NodeJs huaweicloud-sdk-nodejs-v3 NodeJs SDK使用指导 PHP huaweicloud-sdk-php-v3 PHP SDK使用指导 C++ huaweicloud-sdk-cpp-v3 C++ SDK使用指导
  • 一键部署客户端 准备Linux弹性云服务器。 使用一键部署客户端工具,建议Linux弹性云服务器的操作系统类型为EulerOS,CentOS,Ubuntu和SUSE。具体操作请参见准备弹性云服务器。 下载客户端一键部署工具。 使用SSH登录工具(如PuTTY)通过“弹性IP”远程登录到Linux弹性云服务器,然后执行如下命令,获取客户端一键部署工具: curl -O -k "https://cloudtable-publish.obs.myhuaweicloud.com/cloudtable-client/quick_start_hbase_shell.sh" 此命令适用于HBase 2.x版本。 一键部署包内置校验文件。 准备集群访问地址。 登录 表格存储服务 管理控制台,在左侧导航树单击集群管理,然后在集群列表中找到所需要的集群,并获取相应的“ZK链接地址(内网)”。该参数值就是集群访问地址,如图1所示。 图1 ZK链接地址 使用工具部署客户端。 请将以下命令中的"$zookeeper_address"参数替换为3获取的ZK链接地址,然后在弹性云服务器命令行窗口,执行该命令一键部署客户端。 普通集群一键部署命令。 source quick_start_hbase_shell.sh $zookeeper_address 启动Shell访问集群。 在上一步执行source命令自动部署客户端后,就已自动启动了HBase Shell。在后续使用过程中,您也可以执行“bin/hbase shell”命令启动Shell访问集群。
  • 查看权限 登录 表格存储 服务管理控制台。 单击管理控制台左上角的,选择区域。 单击左侧集群管理,显示当前集群列表,选择需要操作的集群,进入用户管理页面。 单击操作列“查看权限”,弹出用户权限页面。 表2 查看权限 参数 说明 用户名 新建的用户名。 全局权限 查询、插入、更改、创建、删除。 各级权限 数据库和表:创建的数据库和表。 高危权限:创建表、删除表。 普通权限:查询、插入、更改。 组件支持查看账户对数据库的操作权限。
  • 查看HBase集群基本信息 集群创建完成后,可对集群进行监控和管理。在CloudTable管理控制台单击集群管理,在集群列表中找到所要查看的集群并单击集群名称,进入集群基本信息页面,用户可查看集群信息和集群的网络配置。 集群基本信息参数说明如表1和表2所示。 表1 集群信息 参数 参数说明 集群名称 集群的名称,创建集群时设置。 集群ID 集群的ID。 集群状态 集群状态信息。 已使用存储容量(GB) 显示已经使用的存储容量。 RS单元数量 显示RegionServer单元的个数。 存储配额(GB) 显示集群的存储容量大小。 计费模式 显示集群的计费模式。 集群版本 集群内核版本。 创建时间 显示集群创建的时间。 企业项目 企业项目管理帮助您将相关的资源(如具有相同使用用途的资源)集中在一起,按企业项目的方式来管理云资源。 说明: 当企业业务发生变化,原用户不再拥有企业项目的使用权限时,可将这些用户与该企业项目的关联关系删除。 可进行单个删除和批量删除。 当用户与企业项目的关联关系被删除后,该用户将无法管理该企业项目,如需再次使用,需要重新给该用户关联企业项目。 ZK链接地址(内网) Zookeeper地址。 用户可以单击,将ZK链接地址复制到剪切板。 热存储已使用容量 集群开启冷热分离高级特性,热数据的存储容量。 冷存储已使用容量 集群开启冷热分离高级特性,冷数据的存储容量。 是否开启安全通道 如果界面显示“否”,表示未开启安全通道;如果界面显示“是”,表示开启安全通道。 是否开启Thrift Server 如果界面显示“否”,表示未开启Thrift Server;如果界面显示“是”,表示开启Thrift Server,并且显示Thrift Server的IP地址。 Thrift Server IP 如果开启Thrift Server,集群详情页面会显示此字段;如果未开启Thrift Server,集群详情页面不显示此字段。 数据库引擎 HBase。 进入只读模式阈值 当集群存储达到某一阈值后,如果继续向存储写入数据,存储会写满,可能会导致性能以及其他功能问题。因此需要给集群设置阈值,当达到设置的阈值后,集群进入只读模式,并发出告警提示用户及时处理集群状态。阀值默认值是85%,取值范围70到90之间。 说明: Core节点存储规格为“普通IO”时,不支持只读模式。 是否为只读模式 “是”代表阀值达到设置的值;“否”代表阀值未达到设置的值。 表2 网络配置 参数 参数说明 区域 集群的工作区域,在创建集群时设置。 可用区 显示创建集群时所选择的可用区信息。 虚拟私有云 VPC信息,创建集群时所选。 VPC即虚拟私有云,是通过逻辑方式进行网络隔离,提供安全、隔离的网络环境。 子网 子网信息,创建集群时所选。 通过子网提供与其他网络隔离的、可以独享的网络资源,以提高网络安全。 安全组 显示创建集群时所选择的安全组信息。 表3 Master节点配置 参数 参数说明 计算规格 请根据业务需求合理选择计算规格。在计算规格列表中展示了每一种计算规格单个节点的CPU、内存和建议使用场景。 说明: 支持的计算规格: 4U16G。 8U16G。 8U32G。 16U32G。 16U64G。 32U64G。 存储规格 默认超高IO。 节点数量 默认2个master节点。 表4 Core节点配置 参数 参数说明 计算节点 请根据业务需求合理选择计算规格。在计算规格列表中展示了每一种计算规格单个节点的CPU、内存和建议使用场景。 说明: 支持的计算规格: 4U16G。 8U16G。 8U32G。 16U32G。 16U64G。 32U64G。 存储规格 选择HBase计算节点的磁盘规格、容量。 说明: 支持的存储规格: 普通IO。 高IO。 通用型SSD。 超高IO。 极速型SSD。 容量范围为400~30000GB/节点。 节点数量 选择集群中的节点个数,节点范围2~20。 父主题: 管理集群