检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
HBase应用开发常见问题 HBase接口介绍 HBase SQL查询样例代码说明 如何配置HBase文件存储 运行HBase应用开发程序产生异常如何处理 HBase BulkLoad和Put应用场景说明 父主题: HBase开发指南
准备Hive应用开发环境 Hive应用开发环境简介 准备本地应用开发环境 准备Hive应用开发用户 准备Hive JDBC开发环境 准备Hive HCatalog开发环境 父主题: Hive开发指南
调测MapReduce应用 编译并运行MapReduce应用 查看MapReduce应用调测结果 父主题: MapReduce开发指南
HDFS应用开发常见问题 HDFS Java API接口介绍 HDFS C API接口介绍 HDFS HTTP REST API接口介绍 HDFS Shell命令介绍 登录MRS Manager 下载MRS客户端 父主题: HDFS开发指南
准备Flink应用开发环境 准备本地应用开发环境 准备Flink应用开发用户 安装Flink客户端 配置并导入Flink样例工程 新建Flink样例工程(可选) 准备Flink应用安全认证 父主题: Flink开发指南
.getOrCreate() """ 以下程序主要实现以下几步功能: 1.读取数据。其是传入参数argv[1]指定数据路径 - text 2.筛选女性网民上网时间数据信息 - filter 3.汇总每个女性上网时间 - map/map/reduceByKey
.getOrCreate() """ 以下程序主要实现以下几步功能: 1.读取数据。其是传入参数argv[1]指定数据路径 - text 2.筛选女性网民上网时间数据信息 - filter 3.汇总每个女性上网时间 - map/map/reduceByKey
ZookeeperRegisterServerHandler //添加用户自定义算子产生数据 env.addSource(new UserSource) .keyBy(0).map(x=>x.content.getBytes)//将发送数据转化成字节数组 .addSink(new
步骤1:创建MRS集群:创建一个包含有Kafka组件的MRS集群。 步骤2:准备应用程序:准备用于进行分析的源数据及程序。 步骤3:上传jar包及源数据:将相关程序和数据上传至MRS集群内。 步骤4:运行作业并查看结果:运行程序并查看数据分析结果。 步骤1:创建MRS集群 创建并购买一个包含有Kaf
取文本内的所有数据了 final int windowTime = ParameterTool.fromArgs(args).getInt("windowTime", 2); // 构造执行环境,使用eventTime处理窗口数据
取文本内的所有数据了 final int windowTime = ParameterTool.fromArgs(args).getInt("windowTime", 2); // 构造执行环境,使用eventTime处理窗口数据
现代企业的数据集群在向集中化和云化方向发展,企业级大数据集群需要满足: 不同用户在集群上运行不同类型的应用和作业(分析、查询、流处理等),同时存放不同类型和格式的数据。 部分用户(例如银行、政府单位等)对数据安全非常关注,不接受将自己的数据与其他用户放在一起。 这给大数据集群带来了以下挑战:
获取MRS应用开发样例工程 MRS样例工程构建流程 MRS样例工程构建流程包括三个主要步骤: 下载样例工程的Maven工程源码和配置文件,请参见样例工程获取地址。 配置华为镜像站中SDK的Maven镜像仓库,请参见配置华为开源镜像仓。 根据用户自身需求,构建完整的Maven工程并进行编译开发。
启动指定个数Consuemr线程来消费 // 注意:当该参数大于待消费Topic的Partition个数时,多出的线程将无法消费到数据 for (int threadNum = 0; threadNum < CONCURRENCY_THREAD_NUM; threadNum++)
获取用户定义的多个元素的数据,作为输入流数据。 data是多个元素的具体数据。 def fromCollection[T: TypeInformation](data: Seq[T]): DataStream[T] 获取用户定义的集合数据,作为输入流数据。 data可以是集合数据或者可迭代的数据体。
获取用户定义的多个元素的数据,作为输入流数据。 data是多个元素的具体数据。 def fromCollection[T: TypeInformation](data: Seq[T]): DataStream[T] 获取用户定义的集合数据,作为输入流数据。 data可以是集合数据或者可迭代的数据体。
Notebook对接MRS Spark 应用场景 在MRS服务中可以配合Jupyter Notebook使用PySpark,能够提高机器学习、数据探索和ETL应用开发效率。 本实践指导用户如何在MRS集群中配置Jupyter Notebook来使用Pyspark。 方案架构 Spark的应用运行架构如图1所示,运行流程如下所示:
3.3.0及以后版本。 通过HSBroker方式连接到HetuEngine,组装对应的SQL发送到HetuEngine执行,完成对Hive数据源的增删改查操作。 import jaydebeapi driver = "io.XXX.jdbc.XXXDriver" # need
"fieldNameBasedTupleToKafkaMapper" #定义数据流 streams: - name: "kafkaSpout --> splitBolt" #第一个数据流名称,只作为展示 from: "kafkaSpout" #数据流起点,值为spouts中定义的kafkaSpout
ngine SQL任务 通过HSFabric方式连接到HetuEngine,组装对应的SQL发送到HetuEngine执行,完成对Hive数据源的增删改查操作。 import jaydebeapi driver = "io.XXX.jdbc.XXXDriver" # need