检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
件。 -diff <oldSnapshot> <newSnapshot> 将新旧版本之间的差异内容,拷贝到目标位置的旧版本文件中。 -skipcrccheck 是否跳过源文件和目标文件之间的CRC校验。 -strategy {dynamic|uniformsize} 指定拷贝任务
HBase应用开发常用概念 过滤器 过滤器提供了非常强大的特性来帮助用户提高HBase处理表中数据的效率。用户不仅可以使用HBase中预定义好的过滤器,而且可以实现自定义的过滤器。 协处理器 允许用户执行region级的操作,并且可以使用与RDBMS中触发器类似的功能。 keytab文件
配置FlinkServer作业中使用UDF 本章节适用于MRS 3.1.2及之后的版本。 用户可以自定义一些函数,用于扩展SQL以满足个性化的需求,这类函数称为UDF。用户可以在Flink WebUI界面中上传并管理UDF jar包,然后在运行作业时调用相关UDF函数。 Flink支持以下3类自定义函数,如表1。
运行IoTDB UDF样例程序 UDF完整样例程序 可以参考IoTDB UDF样例代码章节。 操作步骤 UDF注册。 注册一个全类名为“com.xxx.bigdata.iotdb.UDTFExample”的UDF可以按如下流程进行: 将项目打成Jar包,如果使用Maven管理项目
HBase应用开发常用概念 过滤器 过滤器用于帮助用户提高HBase处理表中数据的效率。用户不仅可以使用HBase中预定义好的过滤器,而且可以实现自定义的过滤器。 协处理器 允许用户执行region级的操作,并且可以使用与RDBMS中触发器类似的功能。 Client 客户端直接面向用户,可通过Java
多租户资源管理 特性简介 现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 部分用户(例如银行、政府单位等)对数据安全非常关注,不接受将自己的数据与其他用户放在一起。
/join并为一个,不但减少了大量的全局barrier,而且无需物化很多中间结果RDD,这将极大地提升性能。Spark把这个叫做流水线(pipeline)优化。 Transformation和Action(RDD的操作) 对RDD的操作包含Transformation(返回值还是
2018-05-08 21:30:01,398 WARN [main] mapreduce.LoadIncrementalHFiles: Skipping non-directory hdfs://hacluster/dataOutput/_SUCCESS 2018-05-08 21:30:02
配置使用分布式缓存执行MapReduce任务 配置场景 本章节操作适用于MRS 3.x及之后版本。 分布式缓存在两种情况下非常有用。 滚动升级 在升级过程中,应用程序必须保持文字内容(jar文件或配置文件)不变。而这些内容并非基于当前版本的Yarn,而是要基于其提交时的版本。一般
访问Hue WebUI界面 操作场景 MRS集群安装Hue组件后,用户可以通过Hue的WebUI,在图形化界面使用Hadoop与Hive。 该任务指导用户在MRS集群中打开Hue的WebUI。 Internet Explorer浏览器可能存在兼容性问题,建议更换兼容的浏览器访问Hue
Oozie应用开发步骤 业务分析。 可以使用客户端样例目录中MapReduce程序对日志目录的数据进行分析、处理。 将MapReduce程序的分析结果移动到数据分析结果目录,并将数据文件的权限设置成660。 为了满足每天分析一次的需求,需要每天重复执行一次1.a~1.b。 业务实现。
配置使用分布式缓存执行MapReduce任务 配置场景 本章节操作适用于MRS 3.x及之后版本。 分布式缓存在两种情况下非常有用。 滚动升级 在升级过程中,应用程序必须保持文字内容(jar文件或配置文件)不变。而这些内容并非基于当前版本的Yarn,而是要基于其提交时的版本。一般
Hue故障排除 使用Hive输入use database语句失效 使用Hue WebUI访问HDFS文件失败 在Hue页面上传大文件失败 集群未安装Hive服务时Hue原生页面无法正常显示 访问Hue原生页面时间长,文件浏览器报错Read timed out 父主题: 使用Hue
通过Hue执行SparkSQL 操作场景 用户需要使用图形化界面在集群中执行SparkSql语句时,可以通过Hue完成任务。 配置Spark2x 使用SparkSql编辑器之前需要先修改Spark2x配置。 进入Spark2x的全部配置页面,具体操作请参考修改集群服务配置参数。
应用开发操作步骤 确认Storm组件已经安装,并正常运行。如果业务需要连接其他组件,请同时安装该组件并运行。 将storm-examples导入到Eclipse开发环境,请参见准备Storm应用开发环境。 参考storm-examples工程src/main/resources/flux-ex
通过Hue管理HDFS文件 操作场景 Hue提供了文件浏览器功能,使用户可以通过界面图形化的方式使用HDFS。 Hue界面主要用于文件、表等数据的查看与分析,禁止通过Hue界面对操作对象进行删除等高危管理操作。如需操作,建议在确认对业务没有影响后通过各组件的相应操作方法进行处理,
操作HBase数据源 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,将dataFrame写入HBase中,并从HBase读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
操作HBase数据源 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,将dataFrame写入HBase中,并从HBase读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
2018-05-08 21:30:01,398 WARN [main] mapreduce.LoadIncrementalHFiles: Skipping non-directory hdfs://hacluster/dataOutput/_SUCCESS 2018-05-08 21:30:02
登录CDLService WebUI界面 操作场景 MRS集群安装CDL组件后,用户可以通过CDL的图形化界面进行数据连接管理和可视化作业编排等。 本任务指导用户在MRS集群中访问CDL WebUI。 Internet Explorer浏览器可能存在兼容性问题,建议使用Google