检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
get("hostName"); // 修改hosts文件,使用主机名 final String keytab = paraTool.get("keytab"); // user.keytab路径 final String krb5 =
id}”日志文件并排除问题。 检查Yarn的任务日志,查看失败、失去响应的任务日志,并删除重复数据。 检查Storm的worker日志。 备份日志到存储服务器。 每周 用户管理 检查用户密码是否将要过期并通知修改。“机机用户”用户修改密码需要重新下载keytab文件。 分析告警 导出指定周期内产生的告警并分析。
间,若所有日志文件均满足清理条件,则清理该归档日志包。 归档日志浏览 Hadoop Archives支持URI直接访问归档包中的文件内容,因此浏览过程中,当History Server发现原日志文件不存在时,直接将URI重定向到归档文件包中即可访问到已归档的日志文件。 本功能通过调用HDFS的Hadoop
的Kerberos用户,认证后执行分析任务示例在“hive-examples/python3-examples/pyCLI_sec.py”文件中。 导入hive类 from pyhive import hive 创建JDBC连接。 connection = hive.Connec
House相关权限的用户,例如创建用户“clickhouseuser”,具体请参考创建ClickHouse角色。 准备待导入的数据文件,并将数据文件上传到客户端节点目录,例如上传到目录“/opt/data”。ClickHouse支持的所有数据类型请参考:https://clickhouse
于0.5:1。 cow表: cow表的原理是重写原始数据,因此这种表的调优,要兼顾dataSize和最后重写的文件数量。总体来说core数量越大越好(和最后重写多少个文件数直接相关),并行度p和内存大小和mor设置类似。 父主题: 使用Hudi
用户user需要使用bulkload功能还需要额外权限。 以下以用户user为例: 参见“批量导入数据”章节举例,以下是一些差异点。 将数据文件目录建在“/tmp”目录下,执行以下命令: hdfs dfs -mkdir /tmp/datadirImport hdfs dfs -put
conf”配置文件 表1 参数说明(1) 参数 描述 默认值 spark.sql.authorization.enabled 是否开启datasource语句的权限认证功能。建议将此参数修改为true,开启权限认证功能。 true “hive-site.xml”配置文件 表2 参数说明(2)
Spark应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果数据查看应用程序运行情况。 结果数据存储路径和格式已经由Spark应用程序指定,可通过指定文件获取。 登录Spark WebUI查看应用程序运行情况。 Spark主要有两个Web页面。 Spark UI页面,用于展示正在执行的应用的运行情况。
全认证。执行kinit hdfs命令,按提示输入密码。向MRS集群管理员获取密码。 执行hdfs dfs -rm -r 文件或目录路径命令,确认删除无用的文件。 检查本告警是否恢复。 是,处理完毕。 否,执行9。 对系统进行扩容。 对磁盘进行扩容。 检查本告警是否恢复。 是,处理完毕。
jar文件。 图4 编译Spark应用程序 例如打包后的jar文件为“SparkStreamingKafka010JavaExample-1.0.jar”。 步骤3:上传jar包及源数据 准备向Kafka发送的源数据,例如如下的“input_data.txt”文件,将该文件上传到
connect apache zookeeper ", e); } } [1]userdir获取的是编译后资源目录的路径。将初始化需要的配置文件“core-site.xml”、“hdfs-site.xml”、“hbase-site.xml”放置到"src/main/resources"的目录下。
initializationmonitor.haltontimeout被启动,默认为false)。 在HMaster主备倒换或启动期间,如果WAL hlog文件存在,它会初始化WAL splitting任务。如果WAL hlog splitting任务完成,它将初始化表region分配任务。 HM
/log4j-executor.properties配置了Driver的日志文件,log4j-executor.properties配置文件设置日志输出到${spark.yarn.app.container.log.dir}/stdout文件中,由于Spark Driver在本地执行时${spark
数据存储文件生成索引信息。 用Flink状态索引,Flink写入后,不支持Spark继续写入。 Flink在写Hudi的MOR表只会生成log文件,后续通过compaction操作,将log文件转为parquet文件。Spark在更新Hudi表时严重依赖parquet文件是否存在
--topic {Topic} 启动样例代码的Producer,向Kafka发送数据。 {ClassPath}表示工程jar包的存放路径,详细路径由用户指定,可参考编包并运行Spark应用章节中导出jar包的操作步骤。 java -cp $SPARK_HOME/jars/*:$S
Spark应用程序运行完成后,可通过如下方式查看应用程序的运行情况。 通过运行结果数据查看应用程序运行情况。 结果数据存储路径和格式已经由Spark应用程序指定,可通过指定文件获取。 登录Spark WebUI查看应用程序运行情况。 Spark主要有两个Web页面。 Spark UI页面,用于展示正在执行的应用的运行情况。
移到华为云MRS服务。HBase会把数据存储在HDFS上,主要包括HFile文件和WAL文件,由配置项“hbase.rootdir”指定在HDFS上的路径,华为云MRS的默认存储位置是“/hbase”文件夹下。 HBase自带的一些机制和工具命令也可以实现数据搬迁,例如:通过导出
MapReduce应用日志文件滚动输出配置 参数 描述 默认值 mapreduce.task.userlog.limit.kb MR应用程序单个task日志文件大小限制。当日志文件达到该限制时,会新建一个日志文件进行输出。设置为“0”表示不限制日志文件大小。 51200 yarn
务对应的连接的使用权限。 操作前需要进行如下配置: 从MySQL数据库安装路径下获取MySQL客户端jar包(如mysqlclient-5.8.1.jar),将其保存在Loader服务主备节点的lib路径:“${BIGDATA_HOME}/FusionInsight_Porter_8