检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
创建FlinkServer数据连接 创建流表 通过数据表,定义源表、维表、输出表的基本属性和字段信息。 创建FlinkServer流表源 创建SQL/JAR作业(流式/批作业) 定义Flink作业的API,包括Flink SQL和Flink Jar作业。
设置数据源信息 单击“下一步”,进入“输入设置”界面,在“源文件类型”中选择“HBASE”,设置数据源信息。 表1 输入设置参数 参数名 解释说明 示例 HBase实例 在HBase作业中,Loader支持从集群可添加的所有HBase服务实例中选择任意一个。
hadoop distcp 主集群保存源数据的目录 hdfs://ActiveNameNodeIP:8020/备集群保存源数据的目录 其中,ActiveNameNodeIP是备集群中主NameNode节点的IP地址。
业务2的数据通过socket接收消息记录,可使用netcat命令用户输入模拟数据源。 使用Linux命令netcat -l -p <port>,启动一个简易的文本服务器。 启动应用程序连接netcat监听的port成功后,向netcat终端输入数据信息。
业务2的数据通过socket接收消息记录,可使用netcat命令用户输入模拟数据源。 使用Linux命令netcat -l -p <port>,启动一个简易的文本服务器。 启动应用程序连接netcat监测的port成功后,向netcat终端输入数据信息。
业务2的数据通过socket接收消息记录,可使用netcat命令用户输入模拟数据源。 使用Linux命令netcat -l -p <port>,启动一个简易的文本服务器。 启动应用程序连接netcat监测的port成功后,向netcat终端输入数据信息。
名称:连接属性名 值:连接属性值 名称:socketTimeout 值:20 设置数据源信息 单击“下一步”,进入“输入设置”界面,在“源文件类型”中选择“HBASE”,设置数据源信息。
名称:连接属性名 值:连接属性值 名称:socketTimeout 值:20 设置数据源信息 单击“下一步”,进入“输入设置”界面,在“源文件类型”中选择“HIVE”,设置数据源信息。
在“备份配置”选择数据源。 在“可恢复点列表”选择一个包含目标备份数据的恢复点。 在“队列名称”填写任务执行时使用的Yarn队列的名称。需和集群中已存在且状态正常的队列名称相同。 在“数据配置”选择需要恢复的对象。 单击“校验”,界面显示“校验恢复任务配置成功”。
建表示例 create table data_partition(id int, comb int, col0 int,yy int, mm int, dd int) using hudi --指定hudi 数据源 partitioned
union(rdds) 返回一个新的RDD,包含源RDD和给定RDD的元素的集合。 distinct([numPartitions: Int]): RDD[T] 去除重复元素,生成新的RDD。
union(other: RDD[T]): RDD[T] 返回一个新的RDD,包含源RDD和给定RDD的元素的集合。 distinct([numPartitions: Int]): RDD[T] 去除重复元素,生成新的RDD。
union(rdds) 返回一个新的RDD,包含源RDD和给定RDD的元素的集合。 distinct([numPartitions: Int]): RDD[T] 去除重复元素,生成新的RDD。
由SQLContext及其子类可以方便的创建SparkSQL中的基本数据集DataFrame,DataFrame向上提供多种多样的编程接口,向下兼容多种不同的数据源,例如Parquet、JSON、Hive数据、Database、HBase等,这些数据源都可以使用统一的语法来读取。
union(rdds) 返回一个新的RDD,包含源RDD和给定RDD的元素的集合。 distinct([numPartitions: Int]): RDD[T] 去除重复元素,生成新的RDD。
union(rdds) 返回一个新的RDD,包含源RDD和给定RDD的元素的集合。 distinct([numPartitions: Int]): RDD[T] 去除重复元素,生成新的RDD。
步骤2:准备应用程序:准备用于进行分析的源数据及程序。 步骤3:上传jar包及源数据:将相关程序和数据上传至MRS集群内。 步骤4:运行作业并查看结果:运行程序并查看数据分析结果。
SDK 服务通过MySQL协议与Doris建立连接,部分语言的SDK已经提供了高可用能力,例如MySQL JDBC可以使用自动重试机制,建立连接时通过如下配置设置数据源: jdbc:mysql:loadbalance://[host1][:port],[host2][:port][
union(rdds) 返回一个新的RDD,包含源RDD和给定RDD的元素的集合。 distinct([numPartitions: Int]): RDD[T] 去除重复元素,生成新的RDD。
图1 Flink架构 在本示例中,使用MRS集群内置的Flink WordCount作业程序,来分析OBS文件系统中保存的源数据,以统计源数据中的单词出现次数。 当然您也可以获取MRS服务样例代码工程,参考Flink开发指南开发其他Flink流作业程序。