检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Flume开源增强特性 Flume开源增强特性 提升传输速度。可以配置将指定的行数作为一个Event,而不仅是一行,提高了代码的执行效率以及减少写入磁盘的次数。 传输超大二进制文件。Flume根据当前内存情况,自动调整传输超大二进制文件的内存占用情况,不会导致Out of Memory(OOM)的出现。
ClickHouse概述 ClickHouse表引擎介绍 表引擎在ClickHouse中的作用十分关键,不同的表引擎决定了: 数据存储和读取的位置 支持哪些查询方式 能否并发式访问数据 能不能使用索引 是否可以执行多线程请求 数据复制使用的参数 其中MergeTree和Distr
配置Oozie业务运行流程 功能描述 描述了一个完整业务的流程定义文件。一般由一个start节点、一个end节点和多个实现具体业务的action节点组成。 参数解释 “workflow.xml”文件中包含的各参数及其含义,请参见表1。 表1 参数含义 参数 含义 name 流程文件名
新增作业并执行(废弃) 功能介绍 在MRS集群中新增一个作业,并执行作业。该接口不兼容Sahara。 集群ID可参考查询集群列表接口获取。 MRS 3.x版本镜像,不支持MRS V1.1作业管理接口,需要使用V2作业管理接口。 接口约束 DistCp作业需要配置文件操作类型(file_action)。
取消SQL执行任务 功能介绍 在MRS集群中取消一条SQL的执行任务。 接口约束 无 调用方法 请参见如何调用API。 URI POST /v2/{project_id}/clusters/{cluster_id}/sql-execution/{sql_id}/cancel 表1
由于Timeout waiting for task异常导致Shuffle FetchFailed 问题 使用JDBCServer模式执行100T的TPCDS测试套,出现Timeout waiting for task异常导致Shuffle FetchFailed,Stage一直重试,任务无法正常完成。
版本概述 MRS集群版本类型 MRS集群版本类型分为普通版与LTS版本,不同版本集群所包含的组件内容及特性略有不同,用户可根据自身业务需求进行选择。 普通版 功能说明 普通版支持集群基础操作如配置、管理和运维等,具体可以查看用户指南。 组件介绍 除共有组件外,普通版集群还支持Pr
Spark Java API接口介绍 由于Spark开源版本升级,为避免出现API兼容性或可靠性问题,建议用户使用配套版本的API。 Spark Core常用接口 Spark主要使用到如下这几个类: JavaSparkContext:是Spark的对外接口,负责向调用该类的Jav
执行任务时AppAttempts重试次数超过2次还没有运行失败 问题 系统默认的AppAttempts运行失败的次数为2。 为什么在执行任务时,AppAttempts重试次数超过2次还没有运行失败? 回答 在执行任务过程中,若ContainerExitStatus的返回值为ABO
版本说明 MRS 3.1.2-LTS.3版本说明 MRS 3.1.5版本说明 MRS 3.2.0-LTS.1版本说明 父主题: 发行版本
数据导入时的操作行为。全部数据从输入路径导入到目标路径时,先保存在临时目录,然后再从临时目录复制转移至目标路径,任务完成时删除临时路径的文件。转移临时文件存在同名文件时有以下行为: “OVERRIDE”:直接覆盖旧文件。 “RENAME”:重命名新文件。无扩展名的文件直接增加字符串后缀,有扩展名的文件在文件名增加字符串后缀。字符串具有唯一性。
数据导入时的操作行为。全部数据从输入路径导入到目标路径时,先保存在临时目录,然后再从临时目录复制转移至目标路径,任务完成时删除临时路径的文件。转移临时文件存在同名文件时有以下行为: “OVERRIDE”:直接覆盖旧文件。 “RENAME”:重命名新文件。无扩展名的文件直接增加字符串后缀,有扩展名的文件在文件名增加字符串后缀。字符串具有唯一性。
数据导入时的操作行为。全部数据从输入路径导入到目标路径时,先保存在临时目录,然后再从临时目录复制转移至目标路径,任务完成时删除临时路径的文件。转移临时文件存在同名文件时有以下行为: “OVERRIDE”:直接覆盖旧文件。 “RENAME”:重命名新文件。无扩展名的文件直接增加字符串后缀,有扩展名的文件在文件名增加字符串后缀。字符串具有唯一性。
数据导入时的操作行为。全部数据从输入路径导入到目标路径时,先保存在临时目录,然后再从临时目录复制转移至目标路径,任务完成时删除临时路径的文件。转移临时文件存在同名文件时有以下行为: “OVERRIDE”:直接覆盖旧文件。 “RENAME”:重命名新文件。无扩展名的文件直接增加字符串后缀,有扩展名的文件在文件名增加字符串后缀。字符串具有唯一性。
数据分析 使用Spark2x实现车联网车主驾驶行为分析 使用Hive加载HDFS数据并分析图书评分情况 使用Hive加载OBS数据并分析企业雇员信息 通过Flink作业处理OBS数据 通过Spark Streaming作业消费Kafka数据 通过Flume采集指定目录日志系统文件至HDFS
执行任务时AppAttempts重试次数超过2次还没有运行失败 问题 系统默认的AppAttempts运行失败的次数为2,为什么在执行任务时,AppAttempts重试次数超过2次还没有运行失败? 回答 在执行任务过程中,如果ContainerExitStatus的返回值为ABO
为什么对decimal数据类型进行带过滤条件的查询时会出现异常输出? 问题 当对decimal数据类型进行带过滤条件的查询时,输出结果不正确。 例如, select * from carbon_table where num = 1234567890123456.22; 输出结果:
Impala Impala Impala直接对存储在HDFS、HBase或对象存储服务(OBS)中的Hadoop数据提供快速、交互式SQL查询。除了使用相同的统一存储平台之外,Impala还使用与Apache Hive相同的元数据,SQL语法(Hive SQL),ODBC驱动程序
Loader基本原理 Loader是在开源Sqoop组件的基础上进行了一些扩展,实现MRS与关系型数据库、文件系统之间交换“数据”、“文件”,同时也可以将数据从关系型数据库或者文件服务器导入到HDFS/HBase中,或者反过来从HDFS/HBase导出到关系型数据库或者文件服务器中。
MapReduce Shuffle调优 操作场景 Shuffle阶段是MapReduce性能的关键部分,包括了从Map task将中间数据写到磁盘一直到Reduce task复制数据并最终放到reduce函数的全部过程。这部分Hadoop提供了大量的调优参数。 图1 Shuffle过程