检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Spark同步HBase数据到CarbonData样例程序开发思路 场景说明 数据实时写入HBase,用于点查业务,数据每隔一段时间批量同步到CarbonData表中,用于分析型查询业务。 数据规划 创建HBase表,构造数据,列需要包含key,modify_time,valid
例如: 新建用户user并绑定租户同名的角色。 用户user需要使用bulkload功能还需要额外权限。 以下以用户user为例: 参见“批量导入数据”章节举例,以下是一些差异点。 将数据文件目录建在“/tmp”目录下,执行以下命令: hdfs dfs -mkdir /tmp/datadirImport
kHouse上添加OpenLDAP服务器配置和创建用户,实现账号和权限的统一集中管理和权限控制等操作。此方案适合从OpenLDAP服务器中批量向ClickHouse中导入用户。 本章节操作仅支持MRS 3.1.0及以上集群版本。 前提条件 MRS集群及ClickHouse实例运行
确认本地环境网络正常。 打开浏览器访问:华为提供开源镜像站(网址为https://mirrors.huaweicloud.com/),查看网站是否能正常访问。如果访问异常,请先开通本地网络。 确认当前开发工具是否开启代理。下载jar包前需要确保开发工具代理关闭。 比如以2020.2版本的IntelliJ
段对表进行更新操作,MOTService外部表不支持Upsert语句,您可以使用Loader将文件从HDFS导出到MOTService从而批量更新数据。 前提条件 获取关系型数据库使用的用户和密码。 输入的数据需为CSV格式文件。 在FusionInsight Manager中创
quet文件,大幅提升读取性能。 规则 有数据持续写入的表,24小时内至少执行一次compaction。 对于MOR表,不管是流式写入还是批量写入,需要保证每天至少完成1次Compaction操作。如果长时间不做compaction,Hudi表的log将会越来越大,这必将会出现以下问题:
kHouse上添加OpenLDAP服务器配置和创建用户,实现账号和权限的统一集中管理和权限控制等操作。此方案适合从OpenLDAP服务器中批量向ClickHouse中导入用户。 本章节操作仅支持MRS 3.1.0及以上集群版本。 前提条件 MRS集群及ClickHouse实例运行
动态分区表插入数据的最后一步是读取shuffle文件的数据,再写入到表对应的分区文件中。 当大面积shuffle文件损坏后,会引起大批量task失败,然后进行job重试。重试前Spark会将写表分区文件的句柄关闭,大批量task关闭句柄时HDFS无法及时处理。在task进行下一次重试时,句柄在NameNode端未被及时释放,即会发生"Failed
动态分区表插入数据的最后一步是读取shuffle文件的数据,再写入到表对应的分区文件中。 当大面积shuffle文件损坏后,会引起大批量task失败,然后进行job重试。重试前Spark会将写表分区文件的句柄关闭,大批量task关闭句柄时HDFS无法及时处理。在task进行下一次重试时,句柄在NameNode端未被及时释放,即会发生"Failed
可实现OBS的访问。 方案架构 Hive是建立在Hadoop上的数据仓库框架,提供大数据平台批处理计算能力,能够对结构化/半结构化数据进行批量分析汇总完成数据计算。提供类似SQL的Hive Query Language语言操作结构化数据,其基本原理是将HQL语言自动转换成MapR
数据老化。 考虑到如下两个场景: 场景1:如果需要在流场景中去删除老化的分区,只能停止流任务执行DDL命令去删除分区。 场景2:当前不支持批量的删除老化的分区。TTL现在支持在流任务或异步任务中去完成分区级数据老化。 父主题: Hudi TTL语法说明
下载MRS集群日志 Manager支持批量导出各个服务角色所有实例生成的日志,无需手工登录单个节点获取。 下载MRS集群日志(MRS 3.x及之后版本) 登录FusionInsight Manager。 选择“运维 > 日志 > 下载”。 选择日志下载范围。 “服务”:单击勾选所需服务。
如需使用Hudi,请确保MRS集群内已安装Spark/Spark2x服务。 图1 Hudi基本架构 Hudi特性 ACID事务能力,支持实时入湖和批量入湖。 多种视图能力(读优化视图/增量视图/实时视图),支持快速数据分析。 MVCC设计,支持数据版本回溯。 自动管理文件大小和布局,以优
打开浏览器访问:华为提供开源镜像站(https://mirrors.huaweicloud.com/repository/maven/huaweicloudsdk/),查看网站是否能正常访问。如果访问异常,请先开通本地网络。 确认当前开发工具是否开启代理。下载jar包前需要确保开发工具代理关闭。 比如以2020.2版本的IntelliJ
设置HFile和WAL为SMS4加密或AES加密方式对系统的影响较大,一旦操作失误会导致数据丢失,不推荐使用此功能。 使用BulkLoad批量导入的数据不支持加密。 本章节内容仅适用于MRS 3.x及之后版本。 加密HFile和WAL内容 在任一安装HBase服务节点,使用omm用户执行如下命令创建密钥。
t,再truncate table ,再历史导入,再开启实时。 初始化操作流程应遵循下面的步骤: 如果批量初始化前表里已经存在数据且没有truncate table,则会导致批量数据写成非常大的log文件,对后续compaction形成很大压力需要更多资源才能完成 Hudi表在H
如下通过一个Mapreduce工作流的示例演示如何配置,并通过Shell命令调用。 场景说明 假设存在这样的业务需求: 每天需要对网站的日志文件进行离线分析,统计出网站各模块的访问频率(日志文件存放在HDFS中)。 通过客户端中模板与配置文件提交任务。 父主题: 开发Oozie配置文件
如下通过一个Mapreduce工作流的示例演示如何配置文件,并通过Shell命令调用。 场景说明 假设存在这样的业务需求: 每天需要对网站的日志文件进行离线分析,统计出网站各模块的访问频率(日志文件存放在HDFS中)。 通过客户端中模板与配置文件提交任务。 父主题: 开发Oozie配置文件
如下通过一个MapReduce工作流的示例演示如何配置,并通过Shell命令调用。 场景说明 假设存在这样的业务需求: 每天需要对网站的日志文件进行离线分析,统计出网站各模块的访问频率(日志文件存放在HDFS中)。 通过客户端中模板与配置文件提交任务。 父主题: 开发Oozie配置文件
如下通过一个MapReduce工作流的示例演示如何配置文件,并通过Shell命令调用。 场景说明 假设存在这样的业务需求: 每天需要对网站的日志文件进行离线分析,统计出网站各模块的访问频率(日志文件存放在HDFS中)。 通过客户端中模板与配置文件提交任务。 父主题: 开发Oozie配置文件