检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HDFS的“/user/oozie/share/lib/spark2x”目录 说明: 请使用Oozie用户上传文件,执行su - oozie切换到Oozie用户 上传结束后再重启oozie服务。 将待使用样例工程的项目打包成jar包 jar包 HDFS的“/user/develop
nt”。 执行下列命令进行用户认证,这里以hdfs为例,用户可根据实际用户名修改。 kinit hdfs kinit认证的默认时效为24小时,到期后再次运行样例,需要重新执行kinit。 在客户端目录创建文件“testFile”和“testFileAppend”,文件内容分别为“Hello
错性、高效性及易用性,因此推荐使用Direct Streaming方式处理数据。 在一个Spark Streaming应用开始时(也就是Driver开始时),相关的StreamingContext(所有流功能的基础)使用SparkContext启动Receiver成为长驻运行任务
distinct出现次数超过2就进行“提示”的规则。 图1 添加Spark SQL防御规则 登录安装有Spark客户端的节点,执行以下命令,切换到客户端安装目录。 cd /opt/hadoopclient 执行以下命令,配置环境变量。 source bigdata_env source
2 --zookeeper {ip:port}/kafka “--zookeeper”后面填写的是ZooKeeper地址,需要改为安装集群时配置的ZooKeeper地址。 安全模式下,需要kafka管理员用户创建Topic。 在Linux系统中完成拓扑的提交。提交命令示例(拓扑名为kafka-test)。
------+--------+-----------------+------+------+------+ 执行以下命令创建数据库,并切换至该数据库: create database test; use test; 执行以下命令创建t1、t2和t3表: create table
适用该策略的Spark2x表名称。 如果需要添加基于UDF的策略,可切换为UDF,然后输入UDF的名称。 “Include”策略适用于当前输入的对象,“Exclude”表示策略适用于除去当前输入内容之外的其他对象。 column 适用该策略的列名,填写*时表示所有列。 “Include”策略适用于当前
约束限制: 当启用弹性伸缩时,资源计划与自动伸缩规则需至少配置其中一种。不能超过5条。 取值范围: 不涉及 默认取值: 不涉及 rules Array of Rule objects 参数解释: 自动伸缩的规则列表。 约束限制: 当启用弹性伸缩时,资源计划与自动伸缩规则需至少配置其中一种。不能超过10条。
“subnet_id”和“subnet_name”必须至少填写一个,当这两个参数同时配置但是不匹配同一个子网时,集群会创建失败,请仔细填写参数。当仅填写“subnet_name”一个参数且VPC下存在同名子网时,创建集群时以VPC平台第一个名称的子网为准。推荐使用“subnet_id”。 取值范围: 不涉及
超时时长 单位:分钟 默认值:1 1 单击“删除”可以删除已增加的自定义配置参数。 单击“确定”。 登录集群客户端所在节点,执行以下命令,切换到客户端安装目录并认证用户。 cd /opt/client source bigdata_env kinit HetuEngine组件操作用户
适用该策略的Spark2x表名称。 如果需要添加基于UDF的策略,可切换为UDF,然后输入UDF的名称。 “Include”策略适用于当前输入的对象,“Exclude”表示策略适用于除去当前输入内容之外的其他对象。 column 适用该策略的列名,填写*时表示所有列。 “Include”策略适用于当前
其中“X”为随机生成的数字,请根据实际情况修改。同时文件需要以Flume客户端安装用户身份保存,例如root用户。 登录安装Flume客户端节点,切换到客户端安装目录,执行以下命令修改文件: vi conf/jaas.conf 修改参数“keyTab”定义的用户认证文件完整路径即4中保存
其中“X”为随机生成的数字,请根据实际情况修改。同时文件需要以Flume客户端安装用户身份保存,例如root用户。 登录安装Flume客户端节点,切换到客户端安装目录,执行以下命令修改文件: vi conf/jaas.conf 修改参数“keyTab”定义的用户认证文件完整路径即4中保存
约束限制: 不涉及 取值范围: MapReduce SparkPython SparkSubmit:SparkPython类型的作业在查询时作业类型请选择SparkSubmit。 HiveScript HiveSql DistCp,导入、导出数据。 SparkScript SparkSql
jar,将获取的包上传到/opt/client/Hbase/hbase/lib目录下。 执行Jar包。 在Linux客户端下执行Jar包的时候,需要用安装用户切换到客户端目录: cd $BIGDATA_CLIENT_HOME/HBase/hbase “$BIGDATA_CLIENT_HOME”指的是客户端安装目录。
udf/data/externalFunctions”,单击上传UDF函数包。 使用HDFS命令行上传。 登录HDFS服务客户端所在节点,切换到客户端安装目录,例如“/opt/client”。 cd /opt/client 执行以下命令配置环境变量。 source bigdata_env
等,一旦误操作备集群后会造成主集群数据同步失败、备集群对应表的数据丢失。 主集群的HBase表已启用容灾功能同步数据,用户每次修改表的结构时,需要手动修改备集群的灾备表结构,保持与主集群表结构一致。 操作步骤 配置主集群普通写数据容灾参数。 登录主集群的Manager。 选择“集群
最大值:表示指标的实际值大于设置的阈值时系统将产生告警。 最小值:表示指标的实际值小于设置的阈值时系统将产生告警。 最大值 日期 设置规则生效的日期,即哪一天运行规则。开启“分级告警开关”后,仅支持“每天”。 每天 每周 其他 每天 添加日期 仅在“日期”模式为“其他”时可见,设置规则运行的自定义日期,支持多选。
记录ZooKeeper角色实例其中任意一个的IP地址即可。 根据业务情况,准备好客户端,参考使用MRS客户端章节,登录安装客户端的节点。 执行以下命令,切换到客户端目录,例如“/opt/client/Kafka/kafka/bin”。 cd /opt/client/Kafka/kafka/bin
lkload数据同步后想再次开启Bulkload数据同步时,可使用该命令。 通过get_peer_config 'peerId'命令查看对应备集群容灾配置。其中以BULREP_前缀开头拼接表名的字段,对应值为“false”时,表明该表被禁用了Bulkload数据同步。 说明: 仅MRS