检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
高效的流式数据采集,实时数据处理存储等。 Kafka、Storm ClickHouse集群 ClickHouse是一个用于联机分析的列式数据库管理系统,具有压缩率和极速查询性能。被广泛的应用于互联网广告、App和Web流量、电信、金融、物联网等众多领域。 ClickHouse、ZooKeeper
Spark从Hive读取数据再写入HBase样例程序开发思路 场景说明 假定Hive的person表存储用户当天消费的金额信息,HBase的table2表存储用户历史消费的金额信息。 现person表有记录name=1,account=100,表示用户1在当天消费金额为100元。
mpala守护程序。如需连接到其他主机,请使用-i <host:port>选项。要自动连接到特定的Impala数据库,请使用-d <database>选项。例如,如果您的所有Kudu表都位于数据库“impala_kudu”中,则-d impala_kudu可以使用此数据库。要退出Impala
开源sqoop-shell工具使用指导 概述 本章节适用于MRS 3.x及后续版本。 sqoop-shell是一个开源的shell工具,其所有功能都是通过执行脚本“sqoop2-shell”来实现的。 sqoop-shell工具提供了如下功能: 支持创建和更新连接器 支持创建和更新作业
将Oracle数据库中的数据导入HDFS时各连接器的区别 问题 使用Loader将Oracle数据库中的数据导入到HDFS中时,可选择的连接器有generic-jdbc-connector、oracle-connector、oracle-partition-connector三种,要怎么选?有什么区别?
安全集群中使用Python3.x对接Kafka 用户问题 通过Python3.x环境如何对接开启Kerberos认证的Kafka集群? 问题现象 客户想使用Python3.x的环境对接开启Kerberos认证的Kafka的集群。 处理步骤 登录Master节点,执行如下命令,配置华为云欧拉镜像源。
Set Digest函数 概述 HetuEngine提供了几个处理MinHash技术的函数。 MinHash用于估计两个集合的Jaccard相似系数。它通常用于数据挖掘,用于大规模检测近乎相同的网页。通过使用这些信息,搜索引擎有效地避免了在搜索结果中显示两个几乎相同的网页。 以下示例展示了如何使用Set
CarbonData性能调优常见配置参数 操作场景 CarbonData的性能与配置参数相关,本章节提供了能够提升性能的相关配置介绍。 操作步骤 用于CarbonData查询的配置介绍,详情请参见表1和表2。 表1 Shuffle过程中,启动Task的个数 参数 spark.sql
EXPLAIN 语法 EXPLAIN [ ( option [, ...] ) ] statement 其中选项可以是以下选项之一: FORMAT { TEXT | GRAPHVIZ | JSON } TYPE { LOGICAL | DISTRIBUTED | VALIDATE
IoTDB基本原理 IoTDB(物联网数据库)是一体化收集、存储、管理与分析物联网时序数据的软件系统。 Apache IoTDB采用轻量式架构,具有高性能和丰富的功能。 IoTDB从存储上对时间序列进行排序,索引和chunk块存储,大大的提升时序数据的查询性能。通过Raft协议,
HyperLogLog函数 HetuEngine使用HyperLogLog数据结构实现rox_distinct()函数。 数据结构 HyperLogLog(hll)是一种统计基数的算法。它实际上不会存储每个元素出现的次数,它使用的是概率算法,通过存储元素的32位hash值的第一个
创建FlinkServer作业写入数据至Kafka消息队列 本章节适用于MRS 3.1.2及之后的版本。 操作场景 本章节介绍Kafka作为source表或者sink表的DDL定义,以及创建表时使用的WITH参数和代码示例,并指导如何在FlinkServer作业管理页面操作。 本示例以安全模式Kafka为例。
配置HetuEngine Worker节点数量 配置HetuEngine Worker节点数量说明 在HetuEngine的WebUI界面,可以对计算实例的Worker节点个数进行调整,实现计算实例在资源不够时扩充资源,资源空闲时释放资源。其中包含手动扩缩容和自动扩缩容两种方式进行Worker个数调整。
Workflow”),可以直接单击该名称进行修改,例如“Spark-Workflow”。 保存完成后,单击,提交该作业。 作业提交后,可通过Hue界面查看作业的详细信息、日志、进度等相关内容。 父主题: 使用Hue提交Oozie作业
将Oracle数据库中的数据导入HDFS时各连接器的区别 问题 使用Loader将Oracle数据库中的数据导入到HDFS中时,可选择的连接器有generic-jdbc-connector、oracle-connector、oracle-partition-connector三种,要怎么选?有什么区别?
ClickHouse数据查询 数据查询规则 禁止select *查询 只查询需要的字段可以减少磁盘io和网络io,提升查询性能。 使用uniqCombined替代distinct uniqCombined对去重逻辑进行了优化,通过近似去重提升十倍查询性能,如果对查询允许有误差,可
mpala守护程序。如需连接到其他主机,请使用-i <host:port>选项。要自动连接到特定的Impala数据库,请使用-d <database>选项。例如,如果您的所有Kudu表都位于数据库“impala_kudu”中,则-d impala_kudu可以使用此数据库。要退出Impala
软件开发工具包SDK(SoftwareDevelopmentKit)是被软件工程师用于为特定的软件包、软件框架、硬件平台、操作系统等建立应用软件的开发工具的集合。 Database pg数据库。 WebApp(Oozie) WebApp(Oozie)即Oozie server,可以用内置的Tomcat容器,也可
Spark从Hive读取数据再写入HBase样例程序开发思路 场景说明 假定Hive的person表存储用户当天消费的金额信息,HBase的table2表存储用户历史消费的金额信息。 现person表有记录name=1,account=100,表示用户1在当天消费金额为100元。
jdbc链接。 根据实际填写 hive_sync.table 选填 Hive的表名。 根据实际填写 hive_sync.db 选填 Hive的数据库名,默认为default。 根据实际填写 hive_sync.support_timestamp 选填 是否支持时间戳。 True changelog