-
安装补丁 - MapReduce服务 MRS
滚动重启10节点耗时约40分钟。 HBase 直接重启 重启期间无法进行HBase数据读写。 直接重启耗时约5分钟。 滚动重启 重启时客户端重试连接其他节点,不影响整体服务。 滚动重启10个节点耗时约30分钟。 Hive 直接重启 重启期间无法运行HiveSQL。 直接重启耗时约5分钟。 滚动重启 HiveSe
-
回滚补丁 - MapReduce服务 MRS
滚动重启10节点耗时约40分钟。 HBase 直接重启 重启期间无法进行HBase数据读写。 直接重启耗时约5分钟。 滚动重启 重启时客户端重试连接其他节点,不影响整体服务。 滚动重启10个节点耗时约30分钟。 Hive 直接重启 重启期间无法运行HiveSQL。 直接重启耗时约5分钟。 滚动重启 HiveSe
-
MRS 1.9.3.3补丁说明 - MapReduce服务 MRS
3.3 修复问题列表: MRS Manager 解决隔离节点问题 MRS 大数据组件 解决Hive加载hook内存泄漏问题 MRS 1.9.3.2 修复问题列表: MRS 大数据组件 解决通过sparksql和beeline进行insert overwrite操作时,旧文件无法进行trash问题
-
场景说明 - MapReduce服务 MRS
input_xxx.txt /tmp/input,上传数据文件。 开发思路 统计日志文件中本周末网购停留总时间超过2个小时的女性网民信息。 主要分为四个部分: 创建表,将日志文件数据导入到表中。 筛选女性网民,提取上网时间数据信息。 汇总每个女性上网总时间。 筛选出停留时间大于两个小时的女性网民信息。
-
MRS 2.1.0.3补丁说明 - MapReduce服务 MRS
MRS 2.1.0.3 修复问题列表: MRS Manager Manager executor高并发提交作业问题 MRS 大数据组件 hive on tez插入数据失败问题 MRS 2.1.0.2 修复问题列表: MRS Manager nodeagent重启后不显示监控信息 长时间提交作业,manager
-
LOAD - MapReduce服务 MRS
LOAD DATA命令用于从文件或者文件夹加载数据到table。 Filepath:需要填写文件或目录的绝对路径。 OVERWRITE:如果使用了这个关键字,目标表(或分区)的数据将被删除,并使用文件中读取的数据来替代。 限制 如果要加载数据到指定分区,用户必须在partition子句中列出表的所有字段。
-
开发Hive用户自定义函数 - MapReduce服务 MRS
按实现方式,UDF分为有如下分类: 普通的UDF,用于操作单个数据行,且产生一个数据行作为输出。 用户定义聚集函数UDAF(User-Defined Aggregating Functions),用于接受多个输入数据行,并产生一个输出数据行。 用户定义表生成函数UDTF(User-Defined
-
如何避免Kerberos认证过期? - MapReduce服务 MRS
通过操作系统定时任务或者其他定时任务方式定时执行kinit命令认证用户。 提交作业执行大数据任务。 对于Spark作业 通过spark-shell、spark-submit、spark-sql方式提交作业,可以直接在命令行中指定Keytab和Principal以获取认证,定期更新
-
Spark2x无法访问Spark1.5创建的DataSource表 - MapReduce服务 MRS
规避措施: Spark2x可以通过创建外表的方式来创建一张指向Spark1.5表实际数据的表,这样可以实现在Spark2x中读取Spark1.5创建的DataSource表。同时,Spark1.5更新过数据后,Spark2x中访问也能感知到变化 ,反过来一样。这样即可实现Spark2x对Spark1
-
SELECT - MapReduce服务 MRS
ROLLUP ( column [, ...] ) 描述 从零个或多个表中检索行数据。 查询stu表的内容。 SELECT id,name FROM stu; 父主题: HetuEngine DQL SQL语法说明
-
开启TableStatus多版本特性下,最新tablestatus文件丢失或损坏,如何恢复 - MapReduce服务 MRS
2'); 需要退出当前session,重新连接后执行查询。该方式已尽可能恢复客户数据,一般现网情况下,如断电场景segment数据文件也会存在不可恢复情况。 场景二:当前批次的Carbondata数据文件和.segment文件完整,可恢复。 使用TableStatusRecove
-
创建FlinkServer流表源 - MapReduce服务 MRS
例如:flink_sink 描述 流/表的描述信息。 - 映射表类型 Flink SQL本身不带有数据存储功能,所有涉及表创建的操作,实际上均是对于外部数据表、存储的引用映射。 类型包含Kafka、HDFS。 - 类型 包含数据源表Source,数据结果表Sink。不同映射表类型包含的表如下所示。 Kafka:Source、Sink
-
查询作业exe对象列表(废弃) - MapReduce服务 MRS
group_id String 作业执行组ID jar_path String 执行程序jar包或sql文件地址。 input String 数据输入地址。 output String 数据输出地址。 job_log String 作业日志存储地址 job_type Integer 作业类型码。
-
通过数据文件备份恢复ClickHouse数据 - MapReduce服务 MRS
通过数据文件备份恢复ClickHouse数据 操作场景 本章节主要介绍通过把ClickHouse中的表数据导出到CSV文件进行备份,后续可以通过备份的CSV文件数据再进行恢复操作。 前提条件 已安装ClickHouse客户端。 在Manager已创建具有ClickHouse相关表权限的用户。
-
通过数据文件备份恢复ClickHouse数据 - MapReduce服务 MRS
通过数据文件备份恢复ClickHouse数据 操作场景 本章节主要介绍通过把ClickHouse中的表数据导出到CSV文件进行备份,后续可以通过备份的CSV文件数据再进行恢复操作。 前提条件 已安装ClickHouse客户端。 在Manager已创建具有ClickHouse相关表权限的用户。
-
Loader算子配置项中使用宏定义 - MapReduce服务 MRS
在以下场景中,可以使用宏进行配置参数: 指定以当天时间命名的数据目录 参数项配置为“/user/data/inputdate_@{dateformat("yyyy-MM-dd")}@”。 通过SQL语句查询最近7天的数据 select * from table where time
-
配置项中使用宏定义 - MapReduce服务 MRS
在以下场景中,可以使用宏进行配置参数: 指定以当天时间命名的数据目录 参数项配置为“/user/data/inputdate_@{dateformat("yyyy-MM-dd")}@”。 通过SQL语句查询最近7天的数据 select * from table where time
-
Doris建表规范 - MapReduce服务 MRS
每个桶的数据大小应保持在100MB~3GB之间,单分区中最大分桶数量不超过5000。 表数据超过5亿条以上必须设置分区分桶策略。 表的分桶列不要设置太多,一般情况下设置1或2个列即可,同时需要兼顾数据分布均匀和查询吞吐均衡。 数据均匀是为了避免某些桶的数据存在倾斜影响数据均衡和查询效率。
-
Hive CBO原理介绍 - MapReduce服务 MRS
不同维度表的选择率,详情如表1所示。 表1 数据过滤 表名 原始数据条数 过滤后数据条数 选择率 date_dim 73000 6200 8.5% item 18000 19 0.1% 上述表格获取到原始表的数据条数,估算出过滤后的数据条数后,计算出选择率=过滤后条数/原始条数。
-
MRS 2.1.0.1补丁说明 - MapReduce服务 MRS
2020-02-12 解决的问题 MRS 2.1.0.1 修复问题列表: MRS Manager 优化V2作业提交hive sql返回结果、解决委托token提交V2作业失败问题。 MRS 大数据组件 MRS Hive 解决hive server内存泄露问题:HIVE-10970、HIVE-22275。