检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Hive性能调优 建立Hive表分区提升查询效率 Hive Join数据优化 Hive Group By语句优化 Hive ORC数据存储优化 Hive SQL逻辑优化 使用Hive CBO功能优化查询效率 父主题: 使用Hive
Hudi性能调优 性能调优方式 当前版本Hudi写入操作主推Spark,因此Hudi的调优和Spark比较类似,可参考Spark Core性能调优。 推荐资源配置 mor表: 由于其本质上是写增量文件,调优可以直接根据hudi的数据大小(dataSize)进行调整。 dataSize
HBase性能调优 提升HBase BulkLoad工具批量加载效率 提升HBase连续Put数据场景性能 提升HBase Put和Scan数据性能 提升HBase实时写数据效率 提升HBase实时读数据效率 提升HBase非业务高峰期的Compaction执行速度 HBase JVM
Kafka性能调优 操作场景 通过调整Kafka服务端参数,可以提升特定业务场景下Kafka的处理能力。 参数调优 修改服务配置参数,请参考修改集群服务配置参数。调优参数请参考表1。 表1 调优参数 配置参数 缺省值 调优场景 num.recovery.threads.per.data.dir
= str.split("\\s") if (words.length < 2) return new Tuple2[String, String] new Tuple2[String, String](words(0), words(1))
=> conn.getDBConn;for(item <- records) write(item.toString); conn.close) 使用mapPartitions可以更灵活地操作数据,例如对一个很大的数据求TopN,当N不是很大时,可以先使用mapPartitions
创建Doris数据库 本章节介绍创建Doris数据库样例代码。 以下代码片段在“JDBCExample”类中。 以Java JDBC方式执行SQL语句在集群中创建dbName变量对应的数据库。
sqoop export --connect jdbc:mysql://数据库IP地址:端口号/数据库名 --username 数据库用户名 --password 密码 --table 表名 --columns 列字段(多个列用英文逗号分开) -export-dir 导出地址 --
spout = new WordSpout(); WordCounter bolt = new WordCounter(); //HbaseMapper,用于解析tuple内容 SimpleHBaseMapper
以下配置项需要配置路径: 1) carbon.badRecords.location 2) 创建数据库时Db_Path及其他。 对于非安全集群中的Carbon ACL权限,hive-site.xml中的参数hive.server2.enable.doAs必须设置为false。
以下配置项需要配置路径: 1) carbon.badRecords.location 2) 创建数据库时Db_Path及其他。 对于非安全集群中的Carbon ACL权限,hive-site.xml中的参数hive.server2.enable.doAs必须设置为false。
已获取MySQL数据库所在的IP地址,端口号,用户名及密码。
= lines.select(explode(split(lines.value, " ")).alias("word")) # 生成正在运行的word count wordCounts = words.groupBy("word").count() #
= lines.select(explode(split(lines.value, " ")).alias("word")) # 生成正在运行的word count wordCounts = words.groupBy("word").count() #
$ vi my.cnf [mysqld] server_id=1 log-bin=master binlog_format=row Maxwell需要连接MySQL,并创建一个名称为maxwell的数据库存储元数据,且需要能访问需要同步的数据库,所以建议新创建一个MySQL用户专门用来给
token有效期,应用失败 为什么Spark Streaming应用创建输入流,但该输入流无输出逻辑时,应用从checkpoint恢复启动失败 Spark Streaming应用运行过程中重启Kafka,Web UI界面部分batch time对应Input Size为0 records
} return new Tuple2<>(words[0], words[1]); } }); //将Stream2注册为Table2
“管理” CREATE DATABASE - SHOW DATABASES - EXPLAIN “查询” DROP DATABASE “Ownership” DESC DATABASE - CACHE TABLE “查询” UNCACHE TABLE “查询” CLEAR CACHE
= str.split("\\s") if (words.length < 2) return new Tuple2[String, String] new Tuple2[String, String](words(0), words(1))
Sqoop客户端使用实践 Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(MySQL、PostgreSQL...)间进行数据的传递,可以将一个关系型数据库(例如:MySQL、Oracle、PostgreSQL等)中的数据导进到Hadoop的HDFS中,