检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
数据序列化 操作场景 Spark支持两种方式的序列化 : Java原生序列化JavaSerializer Kryo序列化KryoSerializer 序列化对于Spark应用的性能来说,具有很大的影响。在特定的数据格式的情况下,KryoSerializer的性能可以达到JavaS
应用场景 大数据在人们的生活中无处不在,在IoT、电子商务、金融、制造、医疗、能源和政府部门等行业均可以使用华为云MRS服务进行大数据处理。 海量数据分析场景 海量数据分析是现代大数据系统中的主要场景。通常企业会包含多种数据源,接入后需要对数据进行ETL(Extract-Tran
不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 华为提供开源镜像站,各服务样例工程依赖的Jar包通过华为开源镜像站下载,剩余所依赖的开源Jar包请直接从Maven中央库或
域相关参数,参数详情可参考创建HetuEngine计算实例章节或保持默认值即可。 创建计算实例时的默认配置只申请极少量的资源,仅供基本功能测试。用户需要根据实际业务需求和可用资源进行参数配置,可参考配置HetuEngine资源组和配置HetuEngine Worker节点数量。
在“连接”区域,单击“添加”新建一个的连接,在“连接器”中选择“generic-jdbc-connector”,输入配置连接参数,单击“测试”验证连接是否可用,待提示“测试成功”后单击“确定”。 表1 “generic-jdbc-connector”连接参数 参数名 说明 示例 名称 关系型数据库连接的名称。
不同的IntelliJ IDEA不要使用相同的workspace和相同路径下的示例工程。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 安装Scala Scala开发环境的基本配置。版本要求:2.12.10。 安装Scala插件 Scala开发环境的基本配置。版本要求:2018
IDEA不要使用相同的workspace和相同路径下的示例工程。 安装Junit插件 开发环境的基本配置。 安装Maven 开发环境的基本配置。用于项目管理,贯穿软件开发生命周期。 华为提供开源镜像站,各服务样例工程依赖的Jar包通过华为开源镜像站下载,剩余所依赖的开源Jar包请直接从Maven中央库或
Maven”,继续单击“Next”,直到“Finish”。 样例代码为Maven工程,可以根据实际需要进行工程配置调整。不同版本IntelliJ IDEA操作略有不同,请以软件界面实际界面提示为准。 将工程中的“src”、“conf”目录添加到源文件路径。 工程导入完成后,在Intellij IDEA的菜单栏选择“File
le-partition-connector、mysql-fastpath-connector),输入配置连接参数,单击“测试”验证连接是否可用,待提示“测试成功”后单击“确定”。 与关系数据库连接时,可以选择通用数据库连接器(generic-jdbc-connector)或者专
le-partition-connector、mysql-fastpath-connector),输入配置连接参数,单击“测试”验证连接是否可用,待提示“测试成功”后单击“确定”。 与关系数据库连接时,可以选择通用数据库连接器(generic-jdbc-connector)或者专
le-partition-connector、mysql-fastpath-connector),输入配置连接参数,单击“测试”验证连接是否可用,待提示“测试成功”后单击“确定”。 与关系数据库连接时,可以选择通用数据库连接器(generic-jdbc-connector)或者专
ser_libs/cdluser.keytab Principal cdluser Description xxx 参数配置完成后,单击“测试连接”,检查数据连通是否正常。 连接校验通过后,单击“确定”完成数据连接创建。 (可选)选择“ENV管理 > 新建ENV”,进入“新建EN
Client 在这种情况下,磁盘的IO是主要瓶颈。所以可以选择一种压缩率非常高的压缩算法。 编解码器可配置为Snappy,Benchmark测试结果显示Snappy是非常平衡以及高效的编码器。 mapreduce.map.output.compress.codec 说明: 需要在客
新建集群连接,如:flink_hive。 选择“系统管理 > 集群连接管理”,进入集群连接管理页面。 单击“创建集群连接”,在弹出的页面中参考表1填写信息,单击“测试”,测试连接成功后单击“确定”,完成集群连接创建。 表1 创建集群连接信息 参数名称 参数描述 取值样例 集群连接名称 集群连接的名称,只能包
/user_libs/cdluser.keytab Principal cdluser Description - 参数配置完成后,单击“测试连接”,检查数据连通是否正常。 连接校验通过后,单击“确定”完成数据连接创建。 (可选)选择“ENV管理 > 新建ENV”,进入“新建EN
Presto Presto是一个开源的用户交互式分析查询的SQL查询引擎,用于针对各种大小的数据源进行交互式分析查询。其主要应用于海量结构化数据/半结构化数据分析、海量多维数据聚合/报表、ETL、Ad-Hoc查询等场景。 Presto允许查询的数据源包括Hadoop分布式文件系统
le-partition-connector、mysql-fastpath-connector),输入配置连接参数,单击“测试”验证连接是否可用,待提示“测试成功”后单击“确定”。 与关系数据库连接时,可以选择通用数据库连接器(generic-jdbc-connector)或者专
Flink作业引擎概述 Flink WebUI提供基于Web的可视化开发平台,用户只需要编写SQL即可开发作业,极大降低作业开发门槛。同时通过作业平台能力开放,支持业务人员自行编写SQL开发作业来快速应对需求,大大减少Flink作业开发工作量。 Flink WebUI特点 Flink
以root用户登录主OMS节点,进入客户端配置文件所在路径(默认为“/tmp/FusionInsight-Client/”),解压软件包后获取“Hive/config”路径下的表1中相关配置文件。 例如客户端软件包为“FusionInsight_Cluster_1_Services_Client.tar”,下载
DBService服务异常。 Yarn服务异常。 Mapreduce服务异常。 环境故障:网络异常,Loader服务无法与其依赖的内部服务通信,无法提供服务。 软件故障:Loader服务无法正常运行。 处理步骤 检查ZooKeeper服务状态。 登录MRS集群详情页面,选择“组件管理”。 选择“Zoo