检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HDFS常用配置参数 HDFS日志介绍 规划HDFS容量 更改DataNode的存储目录 调整DataNode磁盘坏卷信息 配置HDFS token的最大存活时间 使用distcp命令跨集群复制HDFS数据 配置NFS服务器存储NameNode元数据 父主题: 使用HDFS
采集、清洗、整合、存储、计算、建模、训练、展现、协作等,极大降低了实施、集成、培训的成本。 本章节以Yonghong Desktop 9.1版本为例,讲解如何使用永洪BI访问安全模式集群的HetuEngine。 方案架构 出于管理和信息收集的需要,企业内部会存储海量数据,包括数目
Flink作业引擎概述 Flink WebUI提供基于Web的可视化开发平台,用户只需要编写SQL即可开发作业,极大降低作业开发门槛。同时通过作业平台能力开放,支持业务人员自行编写SQL开发作业来快速应对需求,大大减少Flink作业开发工作量。 Flink WebUI功能仅支持MRS
行以下语句后,再次执行3的语句,查看当前mutation任务是否在返回结果列表中。 KILL MUTATION WHERE database = '数据库名称' AND table = '表名称' AND mutation_id = 'mutation ID' 是,执行7。 否,执行6。
Spark应用程序运行完成后,您可以查看运行结果数据,也可以通过Spark WebUI查看应用程序运行情况。 操作步骤 查看Spark应用运行结果数据。 结果数据存储路径和格式已经与Spark应用程序指定,您可以通过指定文件中获取到运行结果数据。 查看Spark应用程序运行情况。 Spark主要有两个Web页面。
根据已有表创建新表,使用CREATE LIKE句式,完全复制原有的表结构,包括表的存储格式。 根据查询结果创建新表,使用CREATE AS SELECT句式。 这种方式比较灵活,可以在复制原表表结构的同时指定要复制哪些字段,不包括表的存储格式。 目前表名长度最长为128,字段名长度最长为128,字段注解长度最长为4000,WITH
配置HDFS同分布策略(Colocation) 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
配置HDFS同分布策略(Colocation) 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
配置HDFS同分布策略(Colocation) 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
配置HDFS同分布策略(Colocation) 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
Spark从Hive读取数据再写入HBase样例程序开发思路 场景说明 假定Hive的person表存储用户当天消费的金额信息,HBase的table2表存储用户历史消费的金额信息。 现person表有记录name=1,account=100,表示用户1在当天消费金额为100元。
参考2登录ClickHouse节点(4获取的节点IP),执行以下语句,其中database_name和table_name为分布式表对应本地表的库名和表名, select name,type from system.columns where database='database_name' and table='table_name'
prequery.period.max.minute 预热的最大时长,单位分钟 60 spark.prequery.tables 表名配置database.table:int,表名支持通配符*,int代表预热多长时间内有更新的表,单位为天。 default.test*:10 spark
执行HQL语句 在左侧选中目标数据库,也可通过单击右上角的,输入目标数据库的名称以搜索目标数据库。 在文本编辑框输入HQL语句,单击或者按“Ctrl+Enter”,运行HQL语句,执行结果将在“结果”页签显示。 分析HQL语句 在左侧选中目标数据库,在文本编辑框输入HQL语句,单
单击“添加角色”,输入“角色名称”和“描述”。 在“权限”的表格中选择“Hive > Hive Read Write Privileges”。 在数据库列表中单击用户B创建的表所在的数据库名称,显示用户B创建的表。 在用户B创建的表的“权限”列,勾选“Select”。 单击“确定”,返回“角色”。 选择“系统设置
setCompressionType(Compression.Algorithm.SNAPPY); 注[2] 可以通过指定起始和结束RowKey,或者通过RowKey数组预分Region两种方式建表,代码片段如下: // 创建一个预划分region的表 byte[][] splits = new byte[4][];
setCompressionType(Compression.Algorithm.SNAPPY); 注[2] 可以通过指定起始和结束RowKey,或者通过RowKey数组预分Region两种方式建表,代码片段如下: // 创建一个预划分region的表 byte[][] splits = new byte[4][];
Spark从Hive读取数据再写入HBase样例程序开发思路 场景说明 假定Hive的person表存储用户当天消费的金额信息,HBase的table2表存储用户历史消费的金额信息。 现person表有记录name=1,account=100,表示用户1在当天消费金额为100元。
HDFS Colocation 功能简介 同分布(Colocation)功能是将存在关联关系的数据或可能要进行关联操作的数据存储在相同的存储节点上。HDFS文件同分布的特性,将那些需进行关联操作的文件存放在相同数据节点上,在进行关联操作计算时避免了到别的数据节点上获取数据,大大降低网络带宽的占用。
表1 算子参数说明 参数 含义 类型 是否必填 默认值 Spark文件存储格式 配置SparkSQL表文件的存储格式(目前支持四种格式:CSV、ORC、RC和PARQUET)。 说明: PARQUET格式是一种列式存储格式,PARQUET要求Loader的输出字段名和SparkSQL表中的字段名保持一致。