检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
Alluxio开发指南 Alluxio应用开发概述 准备Alluxio应用开发环境 开发Alluxio应用 调测Alluxio应用 Alluxio API接口介绍
IoTDB开发指南(安全模式) IoTDB应用开发简介 IoTDB应用开发流程介绍 准备IoTDB应用开发环境 开发IoTDB应用 调测IoTDB应用 IoTDB Java API接口介绍
Spark运维管理 快速配置Spark参数 Spark常用配置参数 Spark日志介绍 获取运行中Spark应用的Container日志 调整Spark日志级别 配置WebUI上查看Container日志 配置WebUI上显示的Lost Executor信息的个数 配置JobHistory本地磁盘缓存
Bucket调优示例 创建Bucket索引表调优 Hudi表初始化 实时任务接入 离线Compaction配置 父主题: Hudi应用开发规范
的话近几个小时之内的增量数据可以通过log文件读出,如果保留时长过短,下游flink作业在重启或者异常中断阻塞的情况下,上游增量数据已经Clean掉了,flink需要从parquet文件读增量数据,性能会有下降;如果保留时间过长,会导致log里面的历史数据冗余存储。 具体可以按照
的Flink集群上,也可以使用单机模式运行。 提交到常驻Flink集群上的一个示例如下: bin/flink run ../examples/streaming/WindowJoin.jar 用户在用该命令提交任务前需要先用yarn-session启动Flink集群。 以yarn
USING: 源表查询语句。 ON:源表和目标表匹配的条件。 WHEN: 数据更新条件。 insert into ... select ...;语法中不支持可空字段类型的数据插入到非空字段类型。 使用示例 向表中插入数据: INSERT INTO prod.db.table VALUES
日志保存到HDFS上“/flume/test”目录下。 本章节适用于MRS 3.x及之后版本。 本配置默认集群网络环境是安全的,数据传输过程不需要启用SSL认证。如需使用加密方式,请参考配置Flume加密传输数据采集任务。该配置为只用一个Flume场景,例如:Spooldir Source+Memory
Hive JDBC访问样例程序 Hive JDBC样例程序开发思路 创建Hive表 加载数据到Hive表中 查询Hive表数据 实现Hive进程访问多ZooKeeper 使用JDBC提交数据分析任务 父主题: 开发Hive应用
调测Kafka Producer样例程序 前提条件 已配置Windows通过EIP访问集群Kafka,详情请参见配置Windows通过EIP访问集群Kafka。 如需在Linux调测程序,需要确保当前用户对“src/main/resources”目录下和依赖库文件目录下的所有文件
Spark同步HBase数据到CarbonData样例程序 Spark同步HBase数据到CarbonData开发思路 Spark同步HBase数据到CarbonData(Java) 父主题: 开发Spark应用
客户端机器的时间与集群的时间要保持一致,时间差小于5分钟。 集群的Master节点或者Core节点使用客户端可参考集群内节点使用MRS客户端,MRS集群外客户端的安装操作可参考集群外节点使用MRS客户端。 登录FusionInsight Manager页面,下载集群客户端软件包至主
安装Flume客户端 安装MRS 3.x之前版本Flume客户端 安装MRS 3.x及之后版本Flume客户端 父主题: 使用Flume
ClickHouse开发指南(安全模式) ClickHouse应用开发简介 ClickHouse应用开发流程介绍 准备ClickHouse应用开发环境 开发ClickHouse应用 调测ClickHouse应用
使用Oozie客户端提交作业 Oozie客户端配置说明 使用Oozie客户端提交Hive任务 使用Oozie客户端提交Spark2x任务 使用Oozie客户端提交Loader任务 使用Oozie客户端提交DistCp任务 使用Oozie客户端提交其他任务 父主题: 使用Oozie
Dataset):用于在Spark应用程序中定义RDD的类,该类提供数据集的操作方法,如map,filter。 pyspark.Broadcast:广播变量类。广播变量允许保留一个只读的变量,缓存在每一台机器上,而非每个任务保存一份拷贝。 pyspark.StorageLevel: 数据存储级别。有内存(MEMORY
/opt/client 执行以下命令配置环境变量。 source bigdata_env 如果集群为安全模式,执行以下命令进行用户认证。普通模式集群无需执行用户认证。 kinit 组件业务用户 执行以下命令,获取Flink集群container信息。 yarn logs -applicationId
将项目打成Jar包,如果使用Maven管理项目,可参考以下章节的“构建Jar包”部分: 开启Kerberos认证的集群请参考注册UDF。 关闭Kerberos认证的集群请参考注册UDF。 以root用户,登录IoTDBServer所在的节点,执行su - omm命令切换到omm用户,将1
Presto开发指南 Presto应用开发概述 准备Presto应用开发环境 开发Presto应用 调测Presto应用 Presto应用开发常见问题
配置ClickHouse元数据预先缓存到内存 本章节适用于MRS 3.3.1-LTS及之后版本。 操作场景 在业务表数量以及表数据量比较大的场景下,滚动重启过程中加载元数据比较耗时,可通过RocksDB将元数据预先缓存到内存,从而提高元数据的加载效率。 开启表元数据预先缓存能力 用户可