检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
bin/flink cancel <JobID> 停止作业(仅流式作业): bin/flink stop <JobID> 取消和停止作业的区别如下: 取消作业:执行“cancel”命令时,指定作业会立即收到cancel()方法调用ASAP。如果调用结束后作业仍然没有停止,Flink会定期开始中断执行线程直至作业停止。
bin/flink cancel <JobID> 停止作业(仅流式作业): bin/flink stop <JobID> 取消和停止作业的区别如下: 取消作业:执行“cancel”命令时,指定作业会立即收到cancel()方法调用ASAP。如果调用结束后作业仍然没有停止,Flink会定期开始中断执行线程直至作业停止。
发的场景中,需要在客户端认证用户身份后才能连接到集群服务端。系统操作运维与业务场景中主要使用的用户分为“人机”用户和“机机”用户。二者主要区别在于“机机”用户密码由系统随机生成。 Kerberos认证 Kerberos认证支持两种方式:密码认证及keytab认证,认证有效时间默认为24小时。
发的场景中,需要在客户端认证用户身份后才能连接到集群服务端。系统操作运维与业务场景中主要使用的用户分为“人机”用户和“机机”用户。二者主要区别在于“机机”用户密码由系统随机生成。 Kerberos认证 Kerberos认证支持两种方式:密码认证及keytab认证。认证有效时间默认为24小时。
持企业项目,表示仅能在IAM中给用户组授权并生效,如果在企业管理中授权,则该自定义策略不生效。关于IAM项目与企业项目的区别,详情请参见:IAM与企业管理的区别。 “√”表示支持,“x”表示暂不支持。 表1 API授权项列表 权限 对应API接口 授权项(Action) IAM项目
Spark2x基本原理 Spark2x组件适用于MRS 3.x及后续版本。 简介 Spark是基于内存的分布式计算框架。在迭代计算的场景下,数据处理过程中的数据可以存储在内存中,提供了比MapReduce高10到100倍的计算能力。Spark可以使用HDFS作为底层存储,使用户能
ntext.stop,后一个程序添加了SparkContext.stop()。 图1 添加SparkContext.stop()和不添加的区别 合理规划AM资源占比 任务数量较多且每个任务占用的资源较少时,可能会出现集群资源足够,提交的任务成功但是无法启动,此时可以提高AM的最大资源占比。
MRS集群内各组件不支持单独升级,请根据实际需要选择对应版本的集群。 LTS(Long Term Support)版本集群与普通版本集群区别可参考MRS集群版本说明。 表1 MRS组件版本信息 MRS支持的组件 MRS 1.9.x MRS 3.1.0 MRS 3.1.2-LTS
Spark基本原理 Spark简介 Spark是一个开源的,并行数据处理框架,能够帮助用户简单、快速的开发大数据应用,对数据进行离线处理、流式处理、交互式分析等。 Spark提供了一个快速的计算、写入及交互式查询的框架。相比于Hadoop,Spark拥有明显的性能优势。Spark
删除集群 企业多项目管理 企业项目是一种云资源管理方式。企业管理提供面向企业客户的云上资源管理、人员管理、权限管理、财务管理等综合管理服务。区别于管理控制台独立操控、配置云产品的方式,企业管理控制台以面向企业资源管理为出发点,帮助企业以公司、部门、项目等分级管理方式实现企业云上的人员、资源、权限、财务的管理。
提供服务。Beeline和JDBC客户端代码两种连接方式的操作相同。 连接HA模式下的ThriftServer,连接字符串和非HA模式下的区别在于需要将ip:port替换为ha-cluster,使用到的其他参数见表1。 表1 客户端参数列表 参数名称 含义 默认值 spark.thriftserver
该分片的所有副本中写入相同的数据(副本间数据一致性不强,无法保证完全同步)。 macros标签 当前实例节点所在的分片和副本编号,可以用于区别不同的副本。 例如,上述配置对应host3节点实例,该实例所在分片编号shard为2,副本编号replica为1。 本章节详细描述了分片和
codec"(可选:uncompressed, zlib, lzo, snappy)来选择Parquet和Orc表的压缩格式;由于Hive和Spark表在可选的压缩格式上有区别,除以上列出的压缩格式外,其他的压缩格式不支持。 合并桶表数据,需要先在Spark2x客户端的hive-site.xml里加上配置: <property>
codec”(可选:uncompressed, zlib, lzo, snappy)来选择Parquet和Orc表的压缩格式;由于Hive和Spark表在可选的压缩格式上有区别,除以上列出的压缩格式外,其他的压缩格式不支持。 合并桶表数据,需要先在Spark2x客户端的hive-site.xml里加上配置: <property>
再支持使用“--zookeeper”来创建Topic。 “--zookeeper” 和 “--bootstrap-server”两种方式的区别如下: “--zookeeper”方式由客户端生成副本分配方案,社区从一开始就支持这种方式,为了降低对Zookeeper组件的依赖,社区将
用Bucket索引或者状态索引。 实时入湖都是需要分钟内或者分钟级的高性能入湖,索引的选择会影响到写Hudi表的性能。在性能方面各个索引的区别如下: Bucket索引 优点:写入过程中对主键进行hash分桶写入,性能比较高,不受表的数据量限制。Flink和Spark引擎都支持,F
Duplicate模型 在某些多维分析场景下,数据既没有主键,也没有聚合需求。可以引入Duplicate数据模型来满足这类需求。 这种数据模型区别于Aggregate和Unique模型。数据完全按照导入文件中的数据进行存储,不会有任何聚合。即使两行数据完全相同,也都会保留。 而在建表语句中指定的DUPLICATE
Duplicate模型 在某些多维分析场景下,数据既没有主键,也没有聚合需求。可以引入Duplicate数据模型来满足这类需求。 这种数据模型区别于Aggregate和Unique模型。数据完全按照导入文件中的数据进行存储,不会有任何聚合。即使两行数据完全相同,也都会保留。 而在建表语句中指定的DUPLICATE
enable=true”。 Kafka创建Topic支持 “--zookeeper” 和 “--bootstrap-server”两种方式,区别如下: “--zookeeper”方式由客户端生成副本分配方案,社区从一开始就支持这种方式,为了降低对Zookeeper组件的依赖,社区将
不存在,或者更新目标位置中被拷贝文件的内容; -overwrite用于覆盖在目标位置中已经存在的文件。 不加选项和加两个选项中任一个选项的区别,示例如下: 假设,源位置的文件结构如下: hdfs://cluster1/source/first/1 hdfs://cluster1/source/first/2