检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
JavaDStream<java.lang.String> textFileStream(java.lang.String directory) 入参directory为HDFS目录,该方法创建一个输入流检测可兼容Hadoop文件系统的新文件,并且读取为文本文件。
默认使用操作系统的换行符。 string 否 \n 分割长度单位 长度单位,可选择“char”字符或“byte”字节。 enum 是 char 输入字段 配置输入字段相关信息: 固定长度:设置字段长度,第2个字段起点从第1个字段终点开始,以此类推。 字段名:配置输入字段名。
动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减Executor个数,从而实现动态分配资源,使整个Spark系统更加健康。 操作步骤 需要先配置External shuffle service。
ALTER TABLE修改表结构 本章节主要介绍ClickHouse修改表结构的SQL基本语法和使用说明。 基本语法 ALTER TABLE [database_name].name [ON CLUSTER cluster] ADD|DROP|CLEAR|COMMENT|MODIFY
配置Hive业务使用其他组件的用户权限 操作场景 Hive业务还可能需要关联使用其他组件,例如HQL语句触发MapReduce任务需要设置Yarn权限,或者Hive over HBase的场景需要HBase权限。以下介绍Hive关联Yarn和Hive over HBase两个场景下的操作
用户通过Hive客户端对配置了数据脱敏策略的表执行select操作,系统将对数据进行处理后进行展示。 处理数据需要用户同时具有向Yarn队列提交任务的权限。 父主题: Ranger权限策略配置示例
前提条件 用户已经将作业所需的程序包和数据文件上传至OBS或HDFS文件系统中。 如果作业程序需要读取以及分析OBS文件系统中的数据,需要先配置MRS集群的存算分离,请参考配置MRS集群存算分离。 通过管理控制台提交作业 登录MRS管理控制台。
配置MRS租户队列 用户可以根据业务需求,在MRS修改指定租户的队列配置,对队列进行扩容或缩容。Yarn任务队列和资源池关联,可实现资源的分配和调度。 前提条件 如果通过MRS管理控制台操作,需要已完成IAM用户同步(在集群详情页的“概览”页签,单击“IAM用户同步”右侧的“同步”
准备本地应用开发环境 选择Windows开发环境下,安装Eclipse,安装JDK。 JDK使用1.8版本,Eclipse使用4.3.2及以上版本。 若使用IBM JDK,请确保Eclipse中的JDK配置为IBM JDK。 若使用Oracle JDK,请确保Eclipse中的JDK
ClickHouse分区设计 合理设置分区键,控制分区数在一千以内,分区字段使用整型。 分区part数与查询性能关系 图1 分区part数与查询性能关系图 分区建议 建议使用toYYYYMMDD(pt_d)作为分区键,pt_d是date类型。 如果业务场景需要做小时分区,使用pt_d
使用Hue提交Oozie HQL脚本 操作场景 该任务指导用户通过Hue界面提交Hive脚本作业。 操作步骤 访问Hue WebUI,请参考访问Hue WebUI界面。 在界面左侧导航栏选择“ > Workflow”,打开Workflow编辑器。 单击“文档”, 在操作列表中选择Hive
添加Kafka的Ranger访问权限策略 操作场景 Ranger管理员可通过Ranger为Kafka用户配置Kafka主题的读、写、管理权限以及集群的管理权限,本章节以为用户“test”添加 “test” 主题的“生产”权限。 前提条件 已安装Ranger服务且服务运行正常。 已创建用户需要配置权限的用户
hoodie.insert.shuffle.parallelism = 100; set hoodie.upsert.shuffle.parallelism = 100; set hoodie.delete.shuffle.parallelism = 100; 重置(Reset): RESET 系统响应
对系统影响 操作过程中需要重启Oozie服务。重启过程中,Oozie服务无法提供服务。 前提条件 已安装Oozie、ZooKeeper服务,且服务正常运行。 没有任务正在运行。
“priority_network”主要用于帮助系统选择正确的网卡IP作为FE或BE的IP,建议任何情况下,都显式的设置该参数,避免后续机器增加新网卡导致IP选择不正确问题。“priority_network”的值是CIDR格式表示的,用于保证所有节点都可以使用统一的配置值。
PARTITIONPATH_FIELD_OPT_KEY, "partitionpath"). option(TABLE_NAME, tableName). mode(Overwrite). save(basePath); "obs://testhudi/cow_table/"是OBS路径,testhudi是并行文件系统名称
对系统的影响 部分ClickHouseServer实例不可用。 可能原因 安装或扩容过程中,实例数或分配方式不能满足拓扑要求。
Impala样例程序开发思路 场景说明 假定用户开发一个Impala数据分析应用,用于管理企业雇员信息,如表1、表2所示。 开发思路 数据准备。 创建三张表,雇员信息表“employees_info”、雇员联络信息表“employees_contact”、雇员信息扩展表“employees_info_extended
Hive样例程序开发思路 场景说明 假定用户开发一个Hive数据分析应用,用于管理企业雇员信息,如表1、表2所示。 开发思路 数据准备。 创建三张表,雇员信息表“employees_info”、雇员联络信息表“employees_contact”、雇员信息扩展表“employees_info_extended
Presto样例程序开发思路 场景说明 假定用户开发一个Presto数据分析应用,用于获取Presto提供的TPCDS Catalog的call_center表。 开发思路 数据准备。 创建三张表,雇员信息表“employees_info”、雇员联络信息表“employees_contact