检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Java样例代码 功能简介 在Spark应用中,通过使用HBase接口来实现创建表,读取表,往表中插入数据等操作。 代码样例 下面代码片段仅为演示,具体代码参见SparkOnHbaseJavaExample: 样例:创建HBase表 public class TableCreation
Flink开启Checkpoint样例程序(Java) 功能介绍 假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性。 代码样例 快照数据 该数据在算子制作快照时用于保存到目前为止算子记录的数据条数。 import java.io.Seriablizale;
Flink开启Checkpoint样例程序(Java) 功能介绍 假定用户需要每隔1秒钟需要统计4秒中窗口中数据的量,并做到状态严格一致性。 代码样例 快照数据 该数据在算子制作快照时用于保存到目前为止算子记录的数据条数。 import java.io.Seriablizale;
多CPU内核下MapReduce调优配置 操作场景 当CPU内核数很多时,如CPU内核为磁盘数的3倍时的调优配置。 操作步骤 以下参数有如下两个配置入口: 服务器端配置 进入Yarn服务参数“全部配置”界面,在搜索框中输入参数名称。具体操作请参考修改集群服务配置参数章节。 客户端配置
配置YARN-Client和YARN-Cluster不同模式下的环境变量 配置场景 当前,在YARN-Client和YARN-Cluster模式下,两种模式的客户端存在冲突的配置,即当客户端为一种模式的配置时,会导致在另一种模式下提交任务失败。 为避免出现如上情况,添加表1中的配
加载数据到Hive表中 功能介绍 本小节介绍了如何使用HQL向已有的表employees_info中加载数据。从本节中可以掌握如何从本地文件系统、MRS集群中加载数据。以关键字LOCAL区分数据源是否来自本地。 样例代码 -- 从本地文件系统/opt/hive_examples_
配置YARN-Client和YARN-Cluster不同模式下的环境变量 配置场景 当前,在YARN-Client和YARN-Cluster模式下,两种模式的客户端存在冲突的配置,即当客户端为一种模式的配置时,会导致在另一种模式下提交任务失败。 为避免出现如上情况,添加表1中的配
创建数据连接 功能介绍 创建数据连接 调用方法 请参见如何调用API。 URI POST /v2/{project_id}/data-connectors 表1 路径参数 参数 是否必选 参数类型 描述 project_id 是 String 参数解释: 项目编号。获取方法,请参见获取项目ID。
通过HBase插入数据,命令如下: put 'table2', '1', 'cf:cid', '1000' 开发思路 查询table1表的数据。 根据table1表数据的key值去table2表做查询。 把前两步相应的数据记录做相加操作。 把上一步骤的结果写到table2表。 运行前置操作 安全模式下Spark
Spark2x日志介绍 日志描述 日志存储路径: Executor运行日志:“${BIGDATA_DATA_HOME}/hadoop/data${i}/nm/containerlogs/application_${appid}/container_{$contid}” 运行中的任
Spark日志介绍 日志描述 日志存储路径: Executor运行日志:“${BIGDATA_DATA_HOME}/hadoop/data${i}/nm/containerlogs/application_${appid}/container_{$contid}” 运行中的任务日
默认配置修改 默认会连接Spark的Executor所在节点本地的TSD进程,在MRS中一般使用默认配置即可,无需修改。 表1 OpenTSDB数据源相关配置 配置名 描述 样例值 spark.sql.datasource.opentsdb.host 连接的TSD进程地址 空(默认值)
MRS 2.0.1.2补丁说明 补丁基本信息 表1 补丁基本信息 补丁号 MRS 2.0.1.2 发布时间 2019-09-30 解决的问题 MRS 2.0.1.2 修复问题列表: MRS Manager 解决RM执行refreshNodes超时导致的偶现扩容失败问题 MRS 2
e.topic.enable = true”) 支持为已有主题增加分区 支持更新现有主题的配置 可以为分区级别和主题级别度量标准启用JMX查询 父主题: 使用Kafka
增大计算实例中单个Worker的内存大小 增大单个计算实例配置中的“Worker容器资源配置”的“容器内存(MB)”和“JVM”的“-Xmx”的值。 控制单个查询在单个Worker的内存使用大小 在“自定义配置”中单击“增加”,添加2个同名参数“query.max-memory-per-node”,
wordCounts = words.groupBy("word").count() # 开始运行将running counts打印到控制台的查询 query = wordCounts.writeStream\ .outputMode("complete")\
wordCounts = words.groupBy("word").count() # 开始运行将running counts打印到控制台的查询 query = wordCounts.writeStream\ .outputMode("complete")\
权限信息等)缓存起来,后续访问时不需要再次访问Hive metastore,在Hive数据源的表数据变化不频繁的场景下,可以一定程度上提升查询的性能。 调整HetuEngine元数据缓存步骤 使用HetuEngine管理员用户登录FusionInsight Manager页面,选择“集群
的调度池中运行。 设置BroadCastHashJoin的超时时间。 BroadCastHashJoin有超时参数,一旦超过预设的时间,该查询任务直接失败,在多并发场景下,由于计算任务抢占资源,可能会导致BroadCastHashJoin的Spark任务无法执行,导致超时出现。因
distribution。 SORT_SCOPE:指定表创建时的排序范围。如下为四种排序范围。 GLOBAL_SORT:它提高了查询性能,特别是点查询。TBLPROPERTIES('SORT_SCOPE'='GLOBAL_SORT') LOCAL_SORT:数据会本地排序(任务级别排序)。