检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
d/syslog 可以根据日志个数和大小进行设置“/etc/logrotate.d/syslog”,超过设置的日志会自动删除掉。一般默认按照存档大小和个数进行老化的,可以通过size和rotate分别是日志大小限制和个数限制,默认没有时间周期的限制,如需进行周期设置可以增加daily/weekl
信的安全性。Kafka应用开发需要进行Kafka、ZooKeeper、Kerberos的安全认证,这些安全认证只需要生成一个jaas文件并设置相关环境变量即可。LoginUtil相关接口可以完成这些配置。 代码样例 此代码片段在com.huawei.bigdata.kafka.example
使用Scan API读取HBase表数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,建议指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中
作业,其他作业的API调用代码是一样的,仅job配置“job.properties”与工作流配置“workflow.xml”需根据实际情况设置。 完成导入并配置Oozie样例工程操作后即可执行通过Java API提交MapReduce作业和查询作业状态。 父主题: 通过Java API提交Oozie作业
使用Scan API读取HBase表数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,最好指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中
信的安全性。Kafka应用开发需要进行Kafka、ZooKeeper、Kerberos的安全认证,这些安全认证只需要生成一个jaas文件并设置相关环境变量即可。LoginUtil相关接口可以完成这些配置。 代码样例 此代码片段在com.huawei.bigdata.kafka.example
> Workspace”,在“Text file encoding”区域,选中“Other”,并设置参数值为“UTF-8”,单击“Apply”后,单击“OK”,如图1所示。 图1 设置Eclipse的编码格式 父主题: 准备Kafka应用开发环境
操作步骤 设置JDBCServer的公平调度策略。 Spark默认使用FIFO(First In First Out)的调度策略,但对于多并发的场景,使用FIFO策略容易导致短任务执行失败。因此在多并发的场景下,需要使用公平调度策略,防止任务执行失败。 在Spark中设置公平调度,具体请参考http://archive
Manager首页,选择“运维 > 日志 > 下载”。 在“服务”中勾选待操作集群的如下节点信息。 ZooKeeper HDFS 单击右上角的设置日志收集的“开始时间”和“结束时间”分别为告警产生时间的前后10分钟,单击“下载”。 请联系运维人员,并发送已收集的故障日志信息。 告警清除
/opt/client/bigdata_env命令配置环境变量。 执行kinit admin命令。 执行zkCli.sh -server ZooKeeper节点业务IP地址:2181连接ZooKeeper。 执行deleteall /recovering删除垃圾数据。然后执行quit退出ZooKeeper连接。
/opt/client/bigdata_env命令配置环境变量。 执行kinit admin命令。 执行zkCli.sh -server ZooKeeper节点业务IP地址:2181连接ZooKeeper。 执行deleteall /recovering删除垃圾数据。然后执行quit退出ZooKeeper连接。
Channel和HDFS Sink,如图3所示。 图3 Flume配置工具示例 双击对应的Source、Channel以及Sink,根据实际环境并参考表1设置对应的配置参数。 如果想在之前的“properties.propretites”文件上进行修改后继续使用,则登录FusionInsight
hdfs.common.security.AutoHDFS"); //设置安全参数 conf.put(Config.TOPOLOGY_AUTO_CREDENTIALS, auto_tgts); //设置worker个数 conf.setNumWorkers(3);
http.server.session.timeout.secs Spark:修改配置spark.session.maxAge的值 Hive:添加自定义配置项http.server.session.timeout.secs 保存配置项时可选择不重启受影响的服务或实例,等待业务不繁忙时再重启服务或实例。
因为当长时间不做compaction时list性能会变差。 在事实表与维度表关联场景中可以按表设置TTL降低状态后端数据量 具体使用指导参考通过表级TTL进行状态后端优化。 合理设置并行度 任务运行的速度和并行度相关,一般来说提升并行度能有效提升读取的速度,但是过大的并行度可能
使用Scan读取HBase数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,最好指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中
使用Scan API读取HBase表数据 功能简介 要从表中读取数据,首先需要实例化该表对应的Table实例,然后创建一个Scan对象,并针对查询条件设置Scan对象的参数值,为了提高查询效率,最好指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中
追加文件内容 追加HDFS文件内容 读文件 读HDFS文件 删除文件 删除HDFS文件 Colocation HDFS Colocation 设置存储策略 设置HDFS存储策略 访问OBS HDFS访问OBS 开发思路 根据前述场景说明进行功能分解,以上传一个新员工的信息为例,对该员工的信息
http.server.session.timeout.secs Spark:修改配置spark.session.maxAge的值 Hive:添加自定义配置项http.server.session.timeout.secs 保存配置项时可选择不重启受影响的服务或实例,等待业务不繁忙时再重启服务或实例。
还需要为工程设置语言。 在IDEA主页,选择“File > Project Structures...”进入“Project Structure”页面。 选择“Modules”,选中工程名称,然后右键选择“Add > Scala”。 图8 选择Scala语言 在设置界面,选择编译的依赖jar包,单击“Apply”。