检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME” )下。 若运行“Spark on HBase”样例程序,需要在Sp
bHistory2x变更为JobHistory。相关涉及服务名称、角色名称的描述和操作请以实际版本为准。 kinit sparkuser 上传CSV中的文件到HDFS的“/data”目录: hdfs dfs -put /opt/test.csv /data/ 连接到CarbonData
脚本执行时机可以是扩容前、扩容后、缩容前或缩容后。 使用自动化脚本前,请先将脚本上传到集群虚拟机或与集群同region的OBS文件系统中。集群虚拟机上的脚本只能在已有节点上执行,若脚本需要在新扩容的节点上执行,请将脚本上传到OBS。 MRS集群节点弹性伸缩指标说明 节点组维度策略 在添加规则时,可以参考表1配置相应的指标。
kafka-test 安全模式下,在提交“source.jar”之前,请确保已经进行kerberos安全登录,并且keytab方式下,登录用户和所上传keytab所属用户必须是同一个用户。 安全模式下,Kafka需要用户有相应Topic的访问权限,因此首先需要在Kafka所在集群上使用K
前用户,当前用户需要具有提交Yarn任务的权限、创建和写入HBase表的权限和HDFS的操作权限: kinit 组件业务用户 如果当前集群未启用Kerberos认证,则执行以下命令设置Hadoop用户名: export HADOOP_USER_NAME=hbase 将数据导入到HDFS中。
如果当前集群已启用Kerberos认证,执行以下命令认证当前用户,当前用户需要具有创建HBase表的权限和HDFS的操作权限: kinit 组件业务用户 如果当前集群未启用Kerberos认证,则执行以下命令设置Hadoop用户名: export HADOOP_USER_NAME=hbase 将数据导入到HDFS中。
1.txt,将log2.txt中的内容复制保存到input_data2.txt。 在HDFS上建立一个文件夹,“/tmp/input”,并上传input_data1.txt,input_data2.txt到此目录,命令如下。 在Linux系统HDFS客户端使用命令hdfs dfs
打包项目 通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中调测Spark应用。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME” )下。 若运行“Spark on HBase”样例程序,需要在Sp
通过IDEA自带的Maven工具,打包项目,生成jar包。具体操作请参考在Linux环境中编包并运行Spark程序。 将打包生成的jar包上传到Spark客户端所在服务器的任意目录(例如“$SPARK_HOME” )下。 若运行“Spark on HBase”样例程序,需要在Sp
hetu-updateKrb5.log 部署Hive集群更换域后,Hive数据源配置自动刷新时打印的日志。 hetu_utils.log 启动时预处理脚本调用工具类上传文件到HDFS时打印的日志。 日志级别 HetuEngine中提供了如表2所示的日志级别。日志级别优先级从高到低分别是OFF、ERROR、
RegionServer是HBase集群运行在每个工作节点上的服务。一方面维护Region的状态,提供对于Region的管理和服务;另一方面,上传Region的负载信息,参与Master的分布式协调管理。 时间戳 用于索引同一份数据的不同版本,时间戳的类型是64位整型。时间戳可以由H
运行pyspark建议 运行pyspark应用时,不能使用集群自带的python环境,需要用户自行安装python环境,并将python相关依赖包打包上传到HDFS。 父主题: Spark应用开发规范
\ hdfs://cluster2/bar/foo 其中srclist里面的内容如下。注意运行distcp命令前,需要将srclist文件上传到HDFS上。 hdfs://cluster1/foo/a hdfs://cluster1/foo/b update和overwrite选项的用法。
mp /user/loader/etl_hbase_tmp /user/oozie 固定目录 存放oozie运行时需要的依赖库,需用户手动上传 否 oozie调度失败 /user/mapred/hadoop-mapreduce-3.1.1.tar.gz 固定文件 MR分布式缓存功能使用的各jar包
\ hdfs://cluster2/bar/foo 其中srclist里面的内容如下。注意运行distcp命令前,需要将srclist文件上传到HDFS上。 hdfs://cluster1/foo/a hdfs://cluster1/foo/b update和overwrite选项的用法。
性收集。 收集周期最小可设定为3600秒。当设置为大于0秒且小于3600秒时,收集周期将使用3600秒。 定义NodeManager唤醒并上传日志的间隔周期。设置为-1或0表示禁用滚动监控,应用任务结束后日志汇聚。取值范围大于等于-1。 -1 yarn.nodemanager.disk-health-checker
性收集。 收集周期最小可设定为3600秒。当设置为大于0秒且小于3600秒时,收集周期将使用3600秒。 定义NodeManager唤醒并上传日志的间隔周期。设置为-1或0表示禁用滚动监控,应用任务结束后日志汇聚。取值范围大于等于-1。 -1 yarn.nodemanager.disk-health-checker
权限,其他场景不涉及URL策略。 Ranger策略中global策略仅用于和Temprorary UDF Admin权限联合使用,控制UDF包的上传。 Ranger策略中的hiveservice策略仅用于和Service Admin权限联合使用,用于控制命令:kill query <queryId>
${BIGDATA_HOME}/common/runtime/security spark.yarn.dist.innerfiles 配置YARN模式下Spark内部需要上传到HDFS的文件。 /Spark_path/spark/conf/s3p.file,/Spark_path/spark/conf/locals3
txt。 在HDFS上创建一个文件夹,“/tmp/examples/multi-components/mapreduce/input/”,并上传data.txt到此目录,命令如下。 在Linux系统HDFS客户端使用命令hdfs dfs -mkdir -p /tmp/example