检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
CLI详细的使用方法参考官方网站的描述:http://archive.apache.org/dist/spark/docs/3.3.1/quick-start.html。 常用CLI Spark常用的CLI如下所示: spark-shell 提供了一个简单学习API的方法,类似于
ter等环境参数信息中查询到的cluster集群标识符。 default本地表所在的数据库名称。 test为本地表名称。 (可选的)分片键(sharding key) 该键与config.xml中配置的分片权重(weight)一同决定写入分布式表时的路由,即数据最终落到哪个物理表
Kerberos认证服务的端口有哪些? 问: Kerberos认证服务的端口有哪些? 答: Kerberos认证服务的常用端口有21730(TCP)、21731(TCP/UDP)、21732(TCP/UDP)。 父主题: 用户认证及权限类
CLI详细的使用方法参考官方网站的描述:http://archive.apache.org/dist/spark/docs/3.3.1/quick-start.html。 常用CLI Spark常用的CLI如下所示: spark-shell 提供了一个简单学习API的方法,类似于
0版本开启Kerberos认证的集群的CDLService WebUI界面,从PgSQL导入数据到Hudi。 前提条件 集群已安装CDL、Hudi服务且运行正常。 PgSQL数据库需要开启前置要求,操作步骤请参考PostgreSQL数据库修改预写日志的策略。 在FusionInsight
不带回调函数的发送接口,通常使用Future的get()函数阻塞发送,实现同步发送。 java.util.concurrent.Future<RecordMetadata> send(ProducerRecord<K,V> record, Callback callback) 带回调函数的发送接口,通常用于异步发送后,通过回调函数实现对发送结果的处理。
Streaming常用接口 Spark Streaming中常见的类有: StreamingContext:是Spark Streaming功能的主入口,负责提供创建DStreams的方法,入参中需要设置批次的时间间隔。 dstream.DStream:是一种代表RDDs连续序列的数据类型,代表连续数据流。
Spark的表管理层次如图1所示,最底层是Spark的临时表,存储着使用DataSource方式的临时表,在这一个层面中没有数据库的概念,因此对于这种类型表,表名在各个数据库中都是可见的。 上层为Hive的MetaStore,该层有了各个DB之分。在每个DB中,又有Hive的临时表与
语法 DROP (DATABASE|SCHEMA) [IF EXISTS] databasename [RESTRICT|CASCADE] 描述 DATABASE和SCHEMA在概念上是等价可互换的。 该语法用于删除数据库databasename,如果目标数据库不存在,将抛出错误提示,但如果使用了IF
Floatip连接数据库,执行元数据的增加、删除、修改等操作。 DBService与其他组件的关系 DBService是集群的基础组件,Hive、Hue、Oozie、Loader等组件将元数据存储在DBService上,并由DBService提供这些元数据的备份与恢复功能。 父主题:
当调用在DStream的KV对上,返回一个新的DStream的KV对,其中每个Key的Value根据滑动窗口中批次的reduce函数聚合得到。 join(other,numPartitions) 实现不同的Spark Streaming之间做合并操作。 SparkSQL常用接口 Spark
Flink Client CLI介绍 常用CLI Flink常用的CLI如下所示: yarn-session.sh 可以使用yarn-session.sh启动一个常驻的Flink集群,接受来自客户端提交的任务。启动一个有3个TaskManager实例的Flink集群示例如下: bin/yarn-session
MRS作为一个海量数据管理和分析的平台,具备高安全性。MRS主要从以下几个方面保障用户的数据和业务运行安全。 网络隔离 整个系统部署在公有云上的虚拟私有云中,提供隔离的网络环境,保证集群的业务、管理的安全性。结合虚拟私有云的子网划分、路由控制、安全组等功能,为用户提供高安全、高可靠的网络隔离环境。
Topic与表的映射关系,表名格式为:Schema名.表名。 用于指定某个表的数据发送到指定的Topic中,开启多分区功能后需要配置Topic的分区数,分区数必须大于1。数据过滤时间用于过滤数据,当源端数据的时间小于设定时间时,该数据将会被丢弃,当源端数据的时间大于设定时间时,该数据发送到下游。
Flink Client CLI介绍 常用CLI Flink常用的CLI如下所示: yarn-session.sh 可以使用yarn-session.sh启动一个常驻的Flink集群,接受来自客户端提交的任务。启动一个有3个TaskManager实例的Flink集群示例如下: bin/yarn-session
Doris是一个基于MPP架构的高性能、实时的分析型数据库,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景。 本文主要通过示例介绍如何快速使用MRS Doris集群进行基本的建表和查询操作。 Doris数据库名和表名区分大小写。 前提条件 已创建包含Doris服务的集群,集群内各服务运行正常。
通过这个命令,可以查询当前应用的所有SQL语句的信息(即结果中“sqls”的部分),执行时间最长的SQL语句的信息(即结果中“longestDurationOfCompletedSQL”的部分)。每个SQL语句的信息如下表3。 表3 SQL的常用信息 参数 描述 id SQL语句的ID status
ClickHouse是面向联机分析处理的列式数据库,支持SQL查询,且查询性能好,特别是基于大宽表的聚合分析查询性能非常优异,比其他分析型数据库速度快一个数量级。 前提条件 已安装客户端,例如安装目录为“/opt/client”。以下操作的客户端目录只是举例,请根据实际安装目录修
生产者通过此参数值,创建与Broker之间的连接。 security.protocol 安全协议类型。 生产者使用的安全协议类型,当前安全模式下仅支持SASL协议,需要配置为SASL_PLAINTEXT。 sasl.kerberos.service.name 服务名。 Kafka集群运行,所使用的Kerberos用户名(需配置为kafka)。
当源集群与目标集群处于不同Region时,用Distcp工具将源集群数据复制到OBS,借助OBS跨区域复制功能(请参见跨区域复制)将数据复制到对应目的集群所在Region的OBS,然后通过Distcp工具将OBS数据复制到目的集群的HDFS上。由于执行Distcp无法为OBS上的文件设置权限、属主/组等信息,因此当