检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果使用其他用户,请确保该用户对保存目录拥有读取、写入和执行权限。 在“登录方式”选择“密码”或“SSH私钥”。 密码:输入创建集群时设置的root用户密码。 SSH私钥:选择并上传创建集群时使用的密钥文件。 单击“确定”开始生成客户端文件。 等待界面提示文件下载成功,到待安装客户端节点的指定路径中获取客户端软件包。
fileCloseByEndEvent true 收到最后一个Event时是否关闭文件。 hdfs.batchCallTimeout - 每次写入HDFS超时控制时间,单位:毫秒。 当不配置此参数时,对每个Event写入HDFS进行超时控制。当“hdfs.batchSize”大于0时,配置此参数可以提升写入HDFS性能。
nt”。 执行下列命令进行用户认证,这里以hdfs为例,用户可根据实际用户名修改。 kinit hdfs kinit认证的默认时效为24小时,到期后再次运行样例,需要重新执行kinit。 在客户端目录创建文件“testFile”和“testFileAppend”,文件内容分别为“Hello
omm:wheel ${BIGDATA_DATA_HOME}/data2 -R。 在Manager管理界面,单击指定的NodeManager实例并切换到“实例配置”。 将配置项“yarn.nodemanager.local-dirs”或“yarn.nodemanager.log-dirs”修改为新的目标目录。
错性、高效性及易用性,因此推荐使用Direct Streaming方式处理数据。 在一个Spark Streaming应用开始时(也就是Driver开始时),相关的StreamingContext(所有流功能的基础)使用SparkContext启动Receiver成为长驻运行任务
jar包 Oozie的share HDFS的“/user/oozie/share/lib/spark2x”目录 说明: 请执行su - oozie切换到oozie用户,使用oozie用户上传文件。 上传结束后再重启Oozie服务。 将待使用样例工程的项目打包成jar包 jar包 HDFS
HDFS的“/user/oozie/share/lib/spark2x”目录 说明: 请使用Oozie用户上传文件,执行su - oozie切换到Oozie用户 上传结束后再重启oozie服务。 将待使用样例工程的项目打包成jar包 jar包 HDFS的“/user/develop
nt”。 执行下列命令进行用户认证,这里以hdfs为例,用户可根据实际用户名修改。 kinit hdfs kinit认证的默认时效为24小时,到期后再次运行样例,需要重新执行kinit。 在客户端目录创建文件“testFile”和“testFileAppend”,文件内容分别为“Hello
distinct出现次数超过2就进行“提示”的规则。 图1 添加Spark SQL防御规则 登录安装有Spark客户端的节点,执行以下命令,切换到客户端安装目录。 cd /opt/hadoopclient 执行以下命令,配置环境变量。 source bigdata_env source
2 --zookeeper {ip:port}/kafka “--zookeeper”后面填写的是ZooKeeper地址,需要改为安装集群时配置的ZooKeeper地址。 安全模式下,需要kafka管理员用户创建Topic。 在Linux系统中完成拓扑的提交。提交命令示例(拓扑名为kafka-test)。
------+--------+-----------------+------+------+------+ 执行以下命令创建数据库,并切换至该数据库: create database test; use test; 执行以下命令创建t1、t2和t3表: create table
适用该策略的Spark2x表名称。 如果需要添加基于UDF的策略,可切换为UDF,然后输入UDF的名称。 “Include”策略适用于当前输入的对象,“Exclude”表示策略适用于除去当前输入内容之外的其他对象。 column 适用该策略的列名,填写*时表示所有列。 “Include”策略适用于当前
约束限制: 当启用弹性伸缩时,资源计划与自动伸缩规则需至少配置其中一种。不能超过5条。 取值范围: 不涉及 默认取值: 不涉及 rules Array of Rule objects 参数解释: 自动伸缩的规则列表。 约束限制: 当启用弹性伸缩时,资源计划与自动伸缩规则需至少配置其中一种。不能超过10条。
“subnet_id”和“subnet_name”必须至少填写一个,当这两个参数同时配置但是不匹配同一个子网时,集群会创建失败,请仔细填写参数。当仅填写“subnet_name”一个参数且VPC下存在同名子网时,创建集群时以VPC平台第一个名称的子网为准。推荐使用“subnet_id”。 取值范围: 不涉及
超时时长 单位:分钟 默认值:1 1 单击“删除”可以删除已增加的自定义配置参数。 单击“确定”。 登录集群客户端所在节点,执行以下命令,切换到客户端安装目录并认证用户。 cd /opt/client source bigdata_env kinit HetuEngine组件操作用户
适用该策略的Spark2x表名称。 如果需要添加基于UDF的策略,可切换为UDF,然后输入UDF的名称。 “Include”策略适用于当前输入的对象,“Exclude”表示策略适用于除去当前输入内容之外的其他对象。 column 适用该策略的列名,填写*时表示所有列。 “Include”策略适用于当前
其中“X”为随机生成的数字,请根据实际情况修改。同时文件需要以Flume客户端安装用户身份保存,例如root用户。 登录安装Flume客户端节点,切换到客户端安装目录,执行以下命令修改文件: vi conf/jaas.conf 修改参数“keyTab”定义的用户认证文件完整路径即4中保存
约束限制: 不涉及 取值范围: MapReduce SparkPython SparkSubmit:SparkPython类型的作业在查询时作业类型请选择SparkSubmit。 HiveScript HiveSql DistCp,导入、导出数据。 SparkScript SparkSql
其中“X”为随机生成的数字,请根据实际情况修改。同时文件需要以Flume客户端安装用户身份保存,例如root用户。 登录安装Flume客户端节点,切换到客户端安装目录,执行以下命令修改文件: vi conf/jaas.conf 修改参数“keyTab”定义的用户认证文件完整路径即4中保存
jar,将获取的包上传到/opt/client/Hbase/hbase/lib目录下。 执行Jar包。 在Linux客户端下执行Jar包的时候,需要用安装用户切换到客户端目录: cd $BIGDATA_CLIENT_HOME/HBase/hbase “$BIGDATA_CLIENT_HOME”指的是客户端安装目录。