检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Manager中下载principal用户的认证凭证,样例代码中使用的用户为:sparkuser,需要修改为准备好的开发用户。 打包项目 将krb5.conf和user.keytab 文件上传到客户端所在服务器上。 通过IDEA自带的Maven工具,打包项目,生成jar包。具体
Spark优化sql的执行,一般的优化规则都是启发式的优化规则,启发式的优化规则,仅仅根据逻辑计划本身的特点给出优化,没有考虑数据本身的特点,也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优化规则(CBO)。CBO会收集表和列的统计信息,结合算子的输入数据集来估计
Spark优化sql的执行,一般的优化规则都是启发式的优化规则,启发式的优化规则,仅仅根据逻辑计划本身的特点给出优化,没有考虑数据本身的特点,也就是未考虑算子本身的执行代价。Spark在2.2中引入了基于代价的优化规则(CBO)。CBO会收集表和列的统计信息,结合算子的输入数据集来估计
使用REST接口操作Namespace 功能简介 使用REST服务,传入对应host与port组成的url以及指定的Namespace,通过HTTP协议,对Namespace进行创建、查询、删除,获取指定Namespace中表的操作。 HBase表以“命名空间:表名”格式进行存储,若在创建表时不指定命名
使用REST接口操作Namespace 功能简介 使用REST服务,传入对应host与port组成的url以及指定的Namespace,通过HTTP协议,对Namespace进行创建、查询、删除,获取指定Namespace中表的操作。 HBase表以“命名空间:表名”格式进行存储,若在创建表时不指定命名
n下一个RDD的算子。如果直接翻译到物理实现,是很不经济的:一是每一个RDD(即使是中间结果)都需要物化到内存或存储中,费时费空间;二是join作为全局的barrier,是很昂贵的,会被最慢的那个节点拖死。如果子RDD的分区到父RDD的分区是窄依赖,就可以实施经典的fusion优
Dependency(RDD的依赖) RDD的依赖分别为:窄依赖和宽依赖。 图1 RDD的依赖 窄依赖:指父RDD的每一个分区最多被一个子RDD的分区所用。 宽依赖:指子RDD的分区依赖于父RDD的所有分区。 窄依赖对优化很有利。逻辑上,每个RDD的算子都是一个fork/join
(可选)单击“+”按钮展开更多选项,选择已创建的ENV,默认为“defaultEnv”。 单击“确定”,完成Hudi作业参数配置。 作业参数配置完成后,拖拽图标将作业进行关联,然后单击“保存”,作业配置完成。 在“作业管理”的作业列表中,找到创建的作业名称,单击操作列的“启动”,等待作业启动。 观
n下一个RDD的算子。如果直接翻译到物理实现,是很不经济的:一是每一个RDD(即使是中间结果)都需要物化到内存或存储中,费时费空间;二是join作为全局的barrier,是很昂贵的,会被最慢的那个节点拖死。如果子RDD的分区到父RDD的分区是窄依赖,就可以实施经典的fusion优
(可选)单击“+”按钮展开更多选项,选择已创建的ENV,默认为“defaultEnv”。 单击“确定”,完成Hudi作业参数配置。 作业参数配置完成后,拖拽图标将作业进行关联,然后单击“保存”,作业配置完成。 在“作业管理”的作业列表中,找到创建的作业名称,单击操作列的“启动”,等待作业启动。 观
服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤 设置作业基本信息
B监测和告警,通过监测和相关告警项对作业的RocksDB参数进行调优。当作业调优后,建议关闭RocksDB的监测和告警,因为RocksDB的监测和告警会损失RocksDB的5%~10%性能。 为了避免对其他作业的影响,RocksDB监测的相关配置通过自定义参数生效,本章节为您介绍
配置多主实例与多租户模式切换 配置场景 在使用集群中,如果需要在多主实例模式与多租户模式之间切换,则还需要进行如下参数的设置。 多租户切换成多主实例模式 修改Spark2x服务的以下参数: spark.thriftserver.proxy.enabled=false spark.scheduler
服务器输入路径目录名、输入路径的子目录名及子文件名不能包含特殊字符/\"':;,中的任意字符。 如果设置的作业需要使用指定YARN队列功能,该用户需要已授权有相关YARN队列的权限。 设置任务的用户需要获取该任务的执行权限,并获取该任务对应的连接的使用权限。 操作步骤 设置作业基本信息
Oozie应用开发常用概念 流程定义文件 描述业务逻辑的XML文件,包括“workflow.xml”、“coordinator.xml”、“bundle.xml”三类,最终由Oozie引擎解析并执行。 流程属性文件 流程运行期间的参数配置文件,对应文件名为“job.properti
Doris创建表时限制至少指定2副本,以保证高可用。 可以对Table增加上卷表(Rollup)以提高查询性能。 表的列的Null属性默认为true,会对查询性能有一定的影响。 Doris表必须指定分桶列。 查看表内容: SHOW TABLES; +----------------------+
MRS作为一个海量数据管理和分析的平台,具备高安全性。MRS主要从以下几个方面保障用户的数据和业务运行安全。 网络隔离 整个系统部署在公有云上的虚拟私有云中,提供隔离的网络环境,保证集群的业务、管理的安全性。结合虚拟私有云的子网划分、路由控制、安全组等功能,为用户提供高安全、高可靠的网络隔离环境。
table_name|view_name[(property_name)] 描述 查看表的属性或关键字的属性。 如果不指定属性的关键词,该语句将返回所有的表属性。 否则返回给定关键词的属性值。 示例 如下为示例: 查看show_table1的所有表属性
备特定行为的分层组。在YARN中,CGroups特性对容器(container)使用的资源(例如CPU使用率)进行限制。本特性大大降低了限制容器CPU使用的难度。 当前CGroups仅用于限制CPU使用率。 配置描述 有关如何配置CPU隔离与安全的CGroups功能的详细信息,请参见Hadoop官网:
易于扩展:CQL提供了拓展接口,以支持日益复杂的业务场景,用户可以自定义输入、输出、序列化、反序列化等功能来满足特定的业务场景 易于调试:CQL提供了详细的异常码说明,降低了用户对各种错误的处理难度。 关于Storm的架构和详细原理介绍,请参见:https://storm.apache.org/。