检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
操作HBase数据源 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,将dataFrame写入HBase中,并从HBase读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
操作HBase数据源 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,将dataFrame写入HBase中,并从HBase读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
WebUI”后的链接,进入HSConsole界面。 单击“数据源”,在数据源列表中可以查看数据源名称、数据源描述、数据源类型和创建时间等信息,在“操作”列下也可以编辑和删除数据源。 HetuEngine服务在安装时已经将共部署的Hive数据源默认实现对接,数据源名称为“hive”,不可删除。 父主题:
操作HBase数据源 场景说明 用户可以在Spark应用程序中以数据源的方式去使用HBase,将dataFrame写入HBase中,并从HBase读取数据以及对读取的数据进行过滤等操作。 数据规划 在客户端执行hbase shell,进入HBase命令行,使用下面的命令创建样例代码中要使用的HBase表:
请从Flink服务端安装目录获取相关的依赖包。 请从Kafka环境中获取Kafka依赖包。 具体依赖包请查看参考信息。 配置Maven。 参考配置华为开源镜像仓章节描述,增加开源镜像仓地址等配置信息到本地Maven的“setting.xml”配置文件。 修改完成后,在IntelliJ IDEA选择“File
保存转化后的私钥到本地。例如:kp-123.ppk。 运行PuTTY。 选择“Connection > data”,在Auto-login username处输入镜像的用户名。 集群节点镜像的用户名是root。 选择“Connection > SSH > Auth”,在最下面一个配置项“Private key file
调整Hudi数据源性能 本章节适用于MRS 3.3.1及以后版本。 HetuEngine具备高速访问Hive、Hudi等数据源的能力。对于Hudi数据源调优,可以分为对Hudi表本身和对集群环境的调优。 Hudi表调优 可参考如下建议优化表和数据设计: 建表时尽量按照频繁使用的过滤条件字段进行分区。
服务器。 弹性云服务器的“可用区”、“虚拟私有云”、“安全组”,需要和待访问集群的配置相同。 选择一个Windows系统的公共镜像。例如,选择一个标准镜像“Windows Server 2012 R2 Standard 64bit(40GB)”。 其他配置参数详细信息,请参见购买弹性云服务器。
配置Doris支持多源数据 Doris多源数据能力概述 配置Doris对接Hive数据源 配置Doris对接Hudi数据源 配置Spark读写Doris数据 配置Flink读写Doris数据 通过JDBC Catalog对接MySQL/Doris数据源 父主题: Doris企业级能力增强
请从Flink服务端安装目录获取相关的依赖包。 请从Kafka环境中获取Kafka依赖包。 具体依赖包请查看参考信息。 配置Maven。 参考配置华为开源镜像仓章节描述,增加开源镜像仓地址等配置信息到本地Maven的“setting.xml”配置文件。 修改完成后,在IntelliJ IDEA选择“File
如何准备MRS的数据源? MRS既可以处理OBS中的数据,也可以处理HDFS中的数据。在使用MRS分析数据前,需要先准备数据。 将本地数据上传OBS。 登录OBS管理控制台。 在OBS上创建userdata并行文件系统,然后在userdata文件系统下创建program、input、output和log文件夹。
Presto如何配置其他数据源? 本指导以连接MySQL数据源为例。 MRS 1.x及MRS 3.x版本。 登录MRS管理控制台。 单击集群名称进入集群详情页面。 选择“组件管理 > Presto”。设置“参数类别”为“全部配置”,进入Presto配置界面修改参数配置。 搜索“c
创建FlinkServer流表源 操作场景 通过数据表,定义源表、维表、输出表的基本属性和字段信息。 新建流表 访问Flink WebUI,请参考访问FlinkServer WebUI界面。 单击“流表管理”进入流表管理页面。 单击“新建流表”,在新建流表页面参考表1填写信息,单
请从Kafka环境中获取Kafka依赖包。 具体依赖包请查看样例工程运行依赖包参考信息。 配置Maven。 参考配置华为开源镜像仓章节描述,增加开源镜像仓地址等配置信息到本地Maven的“setting.xml”配置文件。 修改完成后,在IntelliJ IDEA选择“File
Manager增加大数据服务滚动重启能力。 MRS Manager新增文件句柄数量监控功能。 MRS Manager新增大数据组件发生重启事件上报功能。 MRS镜像 解决ECS VNC登录不停打印输出问题。 解决操作系统日志转储配置问题。 补丁兼容关系 包含1.7.1.5及之前发布的所有补丁解决的问题。
下载并安装集群客户端,用于运行HCatalog程序,例如安装目录为“/opt/client”。 获取样例工程 通过开源镜像站获取样例工程。 下载样例工程的Maven工程源码和配置文件,并在本地配置好相关开发工具,可参考通过开源镜像站获取样例工程。 根据集群版本选择对应的分支,下载并获取MRS相关样例工程。 例如本
“Module SDK”为“SDKs”中添加的JDK。 单击“Apply”,单击“OK”。 配置Maven。 参考配置华为开源镜像仓章节描述,增加开源镜像仓地址等配置信息到本地Maven的“setting.xml”配置文件。 修改完成后,在IntelliJ IDEA选择“File
“Module SDK”为“SDKs”中添加的JDK。 单击“Apply”,单击“OK”。 配置Maven。 参考配置华为开源镜像仓章节描述,增加开源镜像仓地址等配置信息到本地Maven的“setting.xml”配置文件。 修改完成后,在IntelliJ IDEA选择“File
接,单击“添加”创建一个新的连接,完成后单击“测试”,测试是否可用,待提示成功后单击“确定”。 MRS与外部数据源交换数据和文件时需要连接数据源,“连接”表示连接数据源时的连接参数集合。 表1 连接配置参数一览表 连接器类型 参数名 说明 generic-jdbc-connector
创建FlinkServer流表源 通过数据表,定义源表、维表、输出表的基本属性和字段信息。 新建FlinkServer流表步骤 访问Flink WebUI,请参考访问FlinkServer WebUI界面。 单击“流表管理”进入流表管理页面。 单击“新建流表”,在新建流表页面参考