检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
本指南通过使用spark-shell简要介绍了Hudi功能。使用Spark数据源,将通过代码段展示如何插入和更新Hudi的默认存储类型数据集: COW表。每次写操作之后,还将展示如何读取快照和增量数据。 前提条件 在Manager界面创建用户并添加hadoop和hive用户组,主组加入hadoop。
java.lang.Thread.run(Thread.java:745) DataNode的磁盘空间不足。 DataNode的心跳有延迟。 解决办法 如果DataNode的数据接收器不可用,通过在Manager页面,增加HDFS参数“dfs.datanode.max.transfer
/kylin-coprocessor-1.6.0-SNAPSHOT-0.jar HBase在配置协处理器时,一定要保证对应的jar包路径没有问题,否则HBase会无法启动。 解决办法 使用Kylin对接MRS,确保Kylin相关jar包存在。 父主题: 使用HBase
| grep 20051,发现DBService的Gauss进程在启动时并未绑定floatip,只监测了127.0.0.1的本地IP。 解决办法 重新启动DBService服务。 启动完成之后在主DBServer节点执行netstat -anp | grep 20051命令检查是否绑定了dbservice
switch.mapping.impl配置项不是hadoop的默认值,需要使用Spark的jar包,因此MapReduce会报类找不到。 处理步骤 方案一: 如果文件较小,则可以将默认长度设置得大于文件最大长度,例如最大的文件是95 MB,则设置: hive.exec.copyfile
Broker后台任务处理的线程数目。数据量较大的情况下,可适当调大此参数,以提升Broker处理能力。 num.replica.fetchers 1 副本向Leader请求同步数据的线程数,增大这个数值会增加副本的I/O并发度。 num.io.threads 8 Broker用来处理磁盘I/
ionInsight-Flume-1.9.0/flume/bin/flume-manage.sh: Permission denied 解决办法 与运行正常的Flume节点进行文件和文件夹权限对比,更改错误文件或文件夹权限。 父主题: 使用Flume
当需要提升Storm数据量处理性能时,可以通过拓扑调优的操作提高效率。建议在可靠性要求不高的场景下进行优化。 表1 调优参数 配置参数 默认值 调优场景 topology.acker.executors null Acker的执行器数量。当业务应用对可靠性要求较低,允许不处理部分数据,可设置
在大部分场景下,有大表两表join以及多表join的场景,且多个join的表数据变化更新频率较低,这种情况,建议对多个表join查询逻辑提前进行加工处理,将处理后的数据写入到一个宽表中,宽表中包含所有要查询的数据字段,以供后续应用完全自助OLAP的高性能查询。 表命名规范 数据库表名称命名规则:
据的分析查询。 实时数据处理 实时数据处理通常用于异常检测、欺诈识别、基于规则告警、业务流程监控等场景,在数据输入系统的过程中,对数据进行处理。 例如在梯联网行业,智能电梯的数据,实时传入到MRS的流式集群中进行实时告警。 图3 梯联网行业低时延流式处理场景 该场景下MRS的优势如下所示。
Broker后台任务处理的线程数目。数据量较大的情况下,可适当调大此参数,以提升Broker处理能力。 num.replica.fetchers 1 副本向Leader请求同步数据的线程数,增大这个数值会增加副本的I/O并发度。 num.io.threads 8 Broker用来处理磁盘I/
应用。 前提条件 如果需要从远端HDFS恢复数据,需要准备备集群,且已完成数据备份,详细操作请参见备份IoTDB业务数据。如果主集群部署为安全模式,且主备集群不是由同一个FusionInsight Manager管理,则必须配置系统互信,请参见配置MRS集群间互信。如果主集群部署为普通模式,则不需要配置互信。
yarn-client)模式。开源支持spark standalone模式提交,但不推荐使用,该模式资源使用率低,并且使用HTTP,可能存在安全风险。 (可选)在bin目录下调用spark-sql或spark-beeline脚本后便可直接输入SQL语句执行查询等操作。 如创建一个表,插入一条数据再对表进行查询。
执行以下命令,切换到客户端安装目录。 cd 客户端安装路径 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行以下命令进行用户认证。普通模式集群无需执行用户认证。 kinit 组件业务用户 将指定版本的MapReduce tar包存放至H
user:RDS服务MySQL数据库用户名。 password:RDS服务MySQL数据库用户密码,命令中如果携带认证密码信息可能存在安全风险,在执行命令前建议关闭系统的history命令记录功能,避免信息泄露。 MySQL引擎使用示例: 连接到RDS服务的MySQL数据库。
先后顺序对其进行拼接。必须配置一个主键列。 map 是 无 数据处理规则 将字段值输出到HBase表中。 原始数据包含NULL值,如果“NULL值处理方式”选中单选框时,将转换为空字符串并保存。如果“NULL值处理方式”不选中单选框时,不保存数据。 样例 以表输入为例,生成字段后
先后顺序对其进行拼接。必须配置一个主键列。 map 是 无 数据处理规则 将字段值输出到HBase表中。 原始数据包含NULL值,如果“NULL值处理方式”选中单选框时,将转换为空字符串并保存。如果“NULL值处理方式”不选中单选框时,不保存数据。 样例 以表输入为例,生成字段后
集群HBase启动失败 原因分析 查看HBase的HMaster日志,报如下错误: 检查HDFS上HBase的路径发现acl表路径丢失。 解决办法 停止HBase组件。 在HBase客户端使用hbase用户登录认证,执行如下命令。 例如: hadoop03:~ # source /
该操作的客户端目录只是举例,请根据实际安装目录修改。 source /opt/client/bigdata_env 判断集群认证模式。 安全模式,执行kinit命令进行用户认证。 例如,使用oozieuser用户进行认证。 kinit oozieuser 普通模式,执行4。 根据提交任务类型,进入对应样例目录。
Spark Spark jar包冲突列表 Jar包名称 描述 处理方案 spark-core_2.1.1-*.jar Spark任务的核心jar包。 Spark可以直接使用开源同版本的Spark包运行样例代码,但是不同版本的spark-core包在使用的时候可能导致互相序列化ID不一样,因此建议使用集群自带jar包。