检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
结合SQL、Streaming等形成数据处理栈,提供一站式数据处理能力。 支持契合Hadoop生态环境,Spark应用可以运行在Standalone、Mesos或者YARN上,能够接入HDFS、HBase、Hive等多种数据源,支持MapReduce程序平滑转接。 结构 Spark的架构如图1所示,各模块的说明如表1所示。
使用Flume服务端从本地采集动态日志保存到HDFS 该任务指导用户使用Flume服务端从本地采集动态日志保存到HDFS上“/flume/test”目录下。 本配置默认集群网络环境是安全的,数据传输过程不需要启用SSL认证。如需使用加密方式,请参考配置Flume加密传输数据采集任
Hive客户端使用实践 操作场景 该任务指导用户在运维场景或业务场景中使用Hive客户端。 前提条件 已安装客户端,具体请参考安装客户端章节。例如安装目录为“/opt/hadoopclient”,以下操作的客户端目录只是举例,请根据实际安装目录修改。 各组件业务用户由MRS集群管
AvailableSpaceBlockPlacementPolicy host2tags 配置DataNode主机与标签的对应关系。 主机名称支持配置IP扩展表达式(如192.168.1.[1-128]或者192.168.[2-3].[1-128],且IP必须为业务IP),或者为前后加上
在选择迁移节点界面,填写“迁入节点主机名”、“迁出节点主机名”,单击“下一步”。 “迁入节点主机名”与“迁出节点主机名”只能各填写一个主机名,不支持多节点迁移。 具体的参数值可以在ClickHouse服务界面单击“实例”页签,查看当前ClickHouseServer实例所在“主机名称”列获取。
apache.hadoop.hive.ql.exec.UDF”。 一个普通UDF必须至少实现一个evaluate()方法,evaluate函数支持重载。 样例代码 以下为UDF示例代码。 package com.huawei.bigdata.hive.example.udf; import
2.3为例,提示Successfully installed JayDeBeApi-1.2.3表示已安装成功。 客户端机器必须安装Java,支持的版本可参考表1中的“安装JDK”。 获取Python3样例代码。 参考获取MRS应用开发样例工程,获取样例代码解压目录中“src\het
6”或“dependency_python3.7”或“dependency_python3.8”或“dependency_python3.9”(MRS 3.3.0及之后版本支持)文件夹。 执行whereis easy_install命令,找到easy_install程序路径。如果有多个路径,使用easy_install
8*“yarn.app.mapreduce.am.resource.mb” 参考规格: ApplicationMaster配置如下时,可以同时支持并发Container数为2.4万个。 “yarn.app.mapreduce.am.resource.mb”=2048 “yarn.app
6”或“dependency_python3.7”或“dependency_python3.8”或“dependency_python3.9”(MRS 3.3.0及之后版本支持)文件夹。 执行whereis easy_install命令,找到easy_install程序路径。如果有多个路径,使用easy_install
在选择迁移节点界面,填写“迁入节点主机名”、“迁出节点主机名”,单击“下一步”。 “迁入节点主机名”与“迁出节点主机名”只能各填写一个主机名,不支持多节点迁移。 具体的参数值可以在ClickHouse服务界面单击“实例”页签,查看当前ClickHouseServer实例所在“主机名称”列获取。
link对于Yarn模式和Standalone模式提供HA机制,使集群能够从失败中恢复。这里主要介绍Yarn模式下的HA方案。 Flink支持HA模式和Job的异常恢复。这两项功能高度依赖ZooKeeper,在使用之前用户需要在“flink-conf.yaml”配置文件中配置Zo
且会匹配不足36个字节截断前缀索引) 。 超过亿级别的数据,如果有模糊匹配或者等值/in条件,可以使用倒排索引(Doris 2.x版本开始支持)或者Bloomfilter。如果是低基数列的正交查询适合使用bitmap索引(bitmap索引的基数在10000~100000之间效果较好)。
hdfs为示例用户,请根据实际用户替换。 默认密码复杂度要求: 密码字符长度最小为8位。 至少需要包含大写字母、小写字母、数字、空格、特殊字符5种类型字符中的4种。支持的特殊字符为~`!?,.;-_'(){}[]/<>@#$%^&*+|\=。 不可和用户名相同或用户名的倒序字符相同。 不可以为常见的易破解密码,例如Admin@12345。
AvailableSpaceBlockPlacementPolicy host2tags 配置DataNode主机与标签的对应关系。 主机名称支持配置IP扩展表达式(如192.168.1.[1-128]或者192.168.[2-3].[1-128],且IP必须为业务IP),或者为前后加上
8*“yarn.app.mapreduce.am.resource.mb” 参考规格: ApplicationMaster配置如下时,可以同时支持并发Container数为2.4万个。 “yarn.app.mapreduce.am.resource.mb”=2048 “yarn.app
selected (1.551 seconds) 从CSV文件加载数据到CarbonData表。 根据所要求的参数运行命令从CSV文件加载数据,且仅支持CSV文件。LOAD命令中配置的CSV列名,需要和CarbonData表列名相同,顺序也要对应。CSV文件中的数据的列数,以及数据格式需要和CarbonData表匹配。
取模转换:对已有字段取模,生成新字段。 剪切字符串:通过指定起始位置,截取已有字符串类型的字段,生成新字段。 EL操作转换:指定算法,对字段值进行运算,目前支持的算法有:md5sum、sha1sum、sha256sum和sha512sum等。 字符串大小写转换:对已有的字符串类型字段,切换大小写,生成新字段。
sparkuser 执行Spark shell命令。 Spark常用的命令如下所示: spark-shell 提供了一个简单的调试工具,支持Scala语言。 在shell控制台执行: spark-shell 即可进入Scala交互式界面,从HDFS中获取数据,再操作RDD进行计算,输出并打印结果。
2.3为例,提示Successfully installed JayDeBeApi-1.2.3表示已安装成功。 客户端机器必须安装Java,支持的版本可参考表1中的“安装JDK”。 获取Python3样例代码。 参考获取MRS应用开发样例工程,获取样例代码解压目录中“src\het