检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
MemArtsCC是一款面向存算分离架构的分布式计算侧缓存系统,采用极轻量化的架构设计,部署在计算侧的集群中,通过智能预取远端对象存储上的数据提供高速缓存能力,从而来加速计算任务执行。 MemArtsCC在存储层面将远端对象存储(OBS)上的对象进行切片,并建立索引,大幅提升缓存数据的读取性能。通过Zo
HBase全局二级索引样例程序开发思路 HBase支持使用全局二级索引加速条件查询,通过本样例,您可以了解如何管理及使用全局二级索引。 该样例程序仅适用于MRS 3.3.0及之后版本。 场景说明 假定用户开发一个应用程序,其中一个功能需要记录用户信息及地址,记录数据如下表: 表1
空间的消耗。矢量化读取ORC格式的数据能够大幅提升ORC数据读取性能。在Spark2.3版本中,SparkSQL支持矢量化读取ORC数据(这个特性在Hive的历史版本中已经得到支持)。矢量化读取ORC格式的数据能够获得比传统读取方式数倍的性能提升。 该特性可以通过下面的配置项开启:
空间的消耗。矢量化读取ORC格式的数据能够大幅提升ORC数据读取性能。在Spark2.3版本中,SparkSQL支持矢量化读取ORC数据(这个特性在Hive的历史版本中已经得到支持)。矢量化读取ORC格式的数据能够获得比传统读取方式数倍的性能提升。 该特性可以通过下面的配置项开启:
HetuEngine QAS实例可对用户的SQL执行历史记录提供自动感知、自动学习、自动诊断服务,提升在线SQL运维能力,自动加速在线SQL分析任务,开启SQL诊断能力后,系统可实现如下能力: 自动感知并向集群管理员展现不同时间周期范围内的租户级、用户级的SQL任务统计,帮助集群管理员快速预判业务运行状态和潜在风险。
表。 根据所要求的参数运行命令从CSV文件加载数据,且仅支持CSV文件。LOAD命令中配置的CSV列名,需要和CarbonData表列名相同,顺序也要对应。CSV文件中的数据的列数,以及数据格式需要和CarbonData表匹配。 文件需要保存在HDFS中。用户可以将文件上传到OB
指导您了解MRS的基本功能,利用MRS服务的Spark2x组件,对车主的驾驶行为进行分析统计,得到用户驾驶行为的分析结果。 原始数据为车主的驾驶行为信息,包括车主在日常的驾驶行为中,是否急加速、急减速、空挡滑行、超速、疲劳驾驶等信息,通过Spark2x组件的强大的分析能力,分析统
omm 集群的操作用户需要有<path>/hbase.jks目录的“rw”权限,且要求目录已存在。 运行命令后需要再输入4遍相同的<password>,其中3中进行加密的密码与此步骤的密码相同。 将生成的密钥文件分发到集群中所有节点的相同目录下,并为omm用户配置该文件的读写权限。
ClickHouse性能调优 ClickHouse数据表分区过多调优 ClickHouse加速Merge调优 ClickHouse加速TTL操作调优 父主题: 使用ClickHouse
ClickHouse性能调优 数据表报错Too many parts解决方法 加速Merge操作 加速TTL操作 父主题: 使用ClickHouse
单击Flume角色 选择准备上传配置文件的节点的“Flume”角色,单击“实例配置 ”页面“flume.config.file”参数后的“上传文件”,选择“properties.properties”文件完成操作。 图6 上传文件 每个Flume实例均可以上传单独的服务端配置文件。 更新配置文
在等值Join条件之中包含两张表的分桶列,当左表的分桶列为等值的Join条件时,很大概率会被规划为Bucket Shuffle Join。 左表的分桶列的类型与右表等值Join列的类型需要保持一致。 Bucket Shuffle Join功能只生效于等值Join的场景。 Bucket Shuffle
tor的内存。尽管在Spark SQL采用压缩存储的方式来尽量减少内存开销、缓解GC压力,但当缓存的表较大或者缓存表数量较多时,将不可避免地影响executor的稳定性。 此时的最佳实践是,当不需要将表cache来实现查询加速时,应及时将表进行uncache以释放内存。可以执行命令uncache
tor的内存。尽管在Spark SQL采用压缩存储的方式来尽量减少内存开销、缓解GC压力,但当缓存的表较大或者缓存表数量较多时,将不可避免地影响executor的稳定性。 此时的最佳实践是,当不需要将表cache来实现查询加速时,应及时将表进行uncache以释放内存。可以执行命令uncache
给用户添加其他用户库表的HDFS路径的读、写、执行权限,详情请参考添加HDFS的Ranger访问权限策略。 如果用户在执行命令时指定了HDFS路径,需要给该用户添加HDFS路径的读、写、执行权限,详情请参考添加HDFS的Ranger访问权限策略。也可以不配置HDFS的Ranger策略,
Colocation(同分布)是HDFS提供的数据分布控制功能,利用HDFS Colocation接口,可以将存在关联关系或者可能进行关联操作的数据存放在相同的存储节点上。 Hive支持HDFS的Colocation功能,即在创建Hive表时,通过设置表文件分布的locator信息,可以将相关表的数据文件存放在
10; 业务上建议一次写入一个分区,写入频率不要太快,不要小批量数据的插入,适当增大每次插入的时间间隔。 如果没有触发Merge,或者Merge较慢,需要调整参数加快Merge。 加速Merge,需要调整如下参数,请参考加速Merge操作: 配置项 参考值 max_threads CPU核数*2
10; 业务上建议一次写入一个分区,写入频率不要太快,不要小批量数据的插入,适当增大每次插入的时间间隔。 如果没有触发Merge,或者Merge较慢,需要调整参数加快Merge。 加速Merge,需要调整如下参数,请参考加速Merge操作: 配置项 参考值 max_threads CPU核数*2
创建MRS IAM自定义权限策略 如果系统预置的MRS权限,不满足您的授权要求,可以创建自定义策略。自定义策略中可以添加的授权项(Action)请参考策略及授权项说明。 目前支持以下两种方式创建自定义策略: 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服务
配置Hive列加密功能 操作场景 Hive支持对表的某一列或者多列进行加密;在创建Hive表时,可以指定要加密的列和加密算法。当使用insert语句向表中插入数据时,即可实现将对应列的数据加密。只支持对存储在HDFS上的TextFile和SequenceFile文件格式的Hive表进行列加密,不支持视图以及Hive