检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
通过数据应用访问Alluxio 访问Alluxio文件系统的端口号是19998,即地址为alluxio://<alluxio的master节点ip>:19998/<PATH>,本节将通过示例介绍如何通过数据应用(Spark、Hive、Hadoop MapReduce和Presto)访问Alluxio。
ClickHouse数据库应用开发 在ClickHouse的使用过程中,由于使用不规范的方式访问和查询,导致业务失败的情况时有发生。此外,偶尔也会发生因为网络闪断等导致连接和查询失败的情况。 MRS提供了ClickHouse的样例代码工程,旨在提供连接重试机制和规范化用户连接和查询的方法,从
Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败 问题 Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,执行应用时显示如下异常。 2017-05-09
如何设置开源Flink中的znode存储目录 问题现象 如何将开源Flink中的znode存储目录设置为自定义目录。 解决方法 如设置目录为/flink_base/flink,在flink-conf.yaml配置文件中将“high-availability.zookeeper.path
获取运行中Spark应用的Container日志 运行中Spark应用的Container日志分散在多个节点中,本章节用于说明如何快速获取Container日志。 场景说明 可以通过yarn logs命令获取运行在Yarn上的应用的日志,针对不同的场景,可以使用以下命令获取需要的日志:
获取运行中Spark应用的Container日志 运行中Spark应用的Container日志分散在多个节点中,本章节用于说明如何快速获取Container日志。 场景说明 可以通过yarn logs命令获取运行在Yarn上的应用的日志,针对不同的场景,可以使用以下命令获取需要的日志:
tor的驱动连接数据源,读取数据源元数据和对数据进行增删改查等操作。 Catalog:HetuEngine中一个catalog配置文件对应一个数据源,一个数据源可以有多个不同catalog配置,可以通过数据源的properties文件进行配置。 Schema:对应数据库的Schema名称。
Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败 问题 Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,执行应用时显示如下异常。 2017-05-09
如何限制存储在ZKstore中的应用程序诊断消息的大小 问题 如何限制存储在ZKstore中的应用程序诊断消息的大小? 回答 在某些情况下,已经观察到诊断消息可能无限增长。由于诊断消息存储在状态存储中,不建议允许诊断消息无限增长。因此,需要有一个属性参数用于设置诊断消息的最大大小。 若您需要设置“yarn
ClickHouse数据入库工具 最佳实践方案 ClickHouse数据加工流程最佳实践:在数据湖中通过Hive&Spark(批量)/FlinkSQL(增量)加工成大宽表后,通过CDL/Loader工具实时同步到ClickHouse,下游BI工具和应用进行实时OLAP分析。 数据加工 建议
如何限制存储在ZKstore中的应用程序诊断消息的大小 问题 如何限制存储在ZKstore中的应用程序诊断消息的大小? 回答 在某些情况下,已经观察到诊断消息可能无限增长。由于诊断消息存储在状态存储中,不建议允许诊断消息无限增长。因此,需要有一个属性参数用于设置诊断消息的最大大小。 如果您需要设置“yarn
Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,应用失败 问题 Structured Streaming的cluster模式,在数据处理过程中终止ApplicationManager,执行应用时显示如下异常。 2017-05-09
选取指定字段数据插入到新创建的表中: INSERT INTO 新创建的表 SELECT 指定的字段 FROM 已存在需要修改列的表; 如果表数据量较大,可按时间过滤分批次将数据导入到新表,减小CPU或MEM内存瞬时冲高占用问题,影响查询业务,命令为: insert into tab1 select
配置组件数据回收站目录的清理策略。 在存算分离场景下,对接OBS的组件默认开启了数据防误删功能,用户删除数据时,被删除对象会移动至用户对应的回收站目录内,用户需要在OBS文件系统中为对应的目录配置生命周期策略,以避免存储空间被占满的风险。 组件对接OBS。 在具备OBS资源的访问权
Flink向Kafka生产并消费数据应用开发思路 假定某个Flink业务每秒就会收到1个消息记录。 基于某些业务要求,开发的Flink应用程序实现功能:实时输出带有前缀的消息内容。 数据规划 Flink样例工程的数据存储在Kafka组件中。Flink向Kafka组件发送数据(需要有kafka权限用户),并从Kafka组件获取数据。
查询Impala数据 功能简介 本小节介绍了如何使用Impala SQL对数据进行查询分析。从本节中可以掌握如下查询分析方法。 SELECT查询的常用特性,如JOIN等。 加载数据进指定分区。 如何使用Impala自带函数。 如何使用自定义函数进行查询分析,如何创建、定义自定义函数请见开发Impala用户自定义函数。
禁止对分区表执行全分区数据扫描操作。 Doris数据查询建议 一次insert into select数据超过1亿条后,建议拆分为多个insert into select语句执行,分成多个批次来执行。 不要使用OR作为JOIN条件。 不建议频繁的数据delete修改,将要删除的数据攒批,偶尔
MRS组件应用开发简介 MRS是企业级大数据存储、查询、分析的统一平台,能够帮助企业快速构建海量数据信息处理系统,通过对海量信息数据的分析挖掘,发现全新价值点和企业商机。 MRS提供了各组件的常见业务场景样例程序,开发者用户可基于样例工程进行相关数据应用的开发与编译,样例工程依赖
从纵向来看,每个shard内部有多个副本组成,保证分片数据的高可靠性,以及计算的高可靠性。 数据分布设计 Shard数据分片均匀分布 建议用户的数据均匀分布到集群中的多个shard分片,如图1所示有3个分片。 假如有30 GB数据需要写入到集群中,需要将30 GB数据均匀切分后分别放到shard-1、s
负载均匀,数据分片的个数和范围与源表的数据无关,而是由源表的存储结构(数据块)确定,颗粒度可以达到“每个数据块一个分区”。 性能稳定,完全消除“数据偏斜”和“绑定变量窥探”导致的“索引失效”。 查询速度快,数据分片的查询速度比用索引快。 水平扩展性好,如果数据量越大,产生的分片就越