检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
约束限制: 不涉及 取值范围: 只能由英文字母和数字组成,且长度为[1-64]个字符。 默认取值: 不涉及 cluster_id 是 String 参数解释: 集群ID。如果指定集群ID,则获取该集群做过补丁更新的最新版本元数据。获取方法,请参见获取集群ID。
配置SSL传输,用户主要在客户端的“flink-conf.yaml”文件中做如下配置: 打开SSL开关和设置SSL加密算法,配置参数如表2所示,请根据实际情况修改对应参数值。
使用具有Hive管理员权限的用户在Hive客户端创建全局的UDF算法: 创建CheckSum函数(在default数据库下执行): create function checksum_aggregate as 'com.huawei.hive.checksum.ChecksumUdaf
单击“Brokers”、“Topics”、“Consumer Group”下方的数字,可自动跳转至对应页面,查看并操作对应信息。 在“Cluster Action”栏,可创建Topic与分区迁移,具体操作请参考增加Kafka Topic分区。
例如要筛选命名规则为字母数字组合的文件,如file1可输入“file\d*”。 在第二个输入框输入正则表达式,支持标准正则表达式。例如要筛选包含“test”的对象,请输入“.*test.*”。例如要筛选以“test”开头的对象,请输入“test.*”。
replicas中的数字对应Broker_ID。replicas必须与分区的副本数相对应,不然会造成副本缺少的情况。在本案例中分区所在的replicas对应6和5,只迁移Broker_ID为6的节点的分区中的数据时,也必须把Broker_ID为5的节点的分区带上。
目前Spark支持三种压缩算法:snappy,lz4,lzf。Snappy为默认压缩算法,并且调用native方法进行压缩与解压缩,在Yarn模式下需要注意堆外内存对Container进程的影响。
配置SSL传输,用户主要在客户端的“flink-conf.yaml”文件中做如下配置: 打开SSL开关和设置SSL加密算法,配置参数如表2所示,请根据实际情况修改对应参数值。
下图清晰地描述了MapReduce算法的整个流程。 图3 算法流程 概念上shuffle就是一个沟通数据连接的桥梁,实际上shuffle这一部分是如何实现的呢,下面就以Spark为例讲一下shuffle在Spark中的实现。
D表示内存、CPU比,以具体数字表示,例如4表示内存和CPU的比值为4。
执行命令vi $BIGDATA_HOME/tmp/random_ldap_ip_order,修改末尾数字,若原来为奇数则改为偶数,若原来为偶数则修改为奇数。 执行命令vi /etc/sssd/sssd.conf,将ldap_uri配置项的前两个IP进行颠倒,保存退出。
表1 Hive UDF说明 名称 说明 AutoAddOne 对输入的数字加1后返回 一个普通Hive UDF必须继承自“org.apache.hadoop.hive.ql.exec.UDF”。
约束限制: 不涉及 取值范围: 只能由英文字母和数字组成,且长度为[1-64]个字符。
图1 添加HiveSql作业 表1 作业配置信息 参数 描述 示例 作业名称 作业名称,只能由字母、数字、中划线和下划线组成,并且长度为1~64个字符。 hivesql SQL类型 SQL语句提交类型。 SQL:直接运行手动输入的SQL语句。
D表示内存、CPU比,以具体数字表示,例如4表示内存和CPU的比值为4。
所以可以选择一种压缩率非常高的压缩算法。 编解码器可配置为Snappy,Benchmark测试结果显示Snappy是非常平衡以及高效的编码器。 mapreduce.map.output.compress.codec 参数解释:指定用于压缩的编解码器。
ALTER TABLE employees_info_extended ADD COLUMNS (tel_phone STRING, email STRING); 建表时配置Hive数据加密 指定表的格式为RCFile(推荐使用)或SequenceFile,加密算法为ARC4Codec
所以可以选择一种压缩率非常高的压缩算法。 编解码器可配置为Snappy,Benchmark测试结果显示Snappy是非常平衡以及高效的编码器。
执行命令vi $BIGDATA_HOME/tmp/random_ldap_ip_order,修改末尾数字,若原来为奇数则改为偶数,若原来为偶数则修改为奇数; 执行命令vi /etc/ldap.conf进入编辑模式,按“Insert”键开始编辑,然后将URI配置项的前两个IP进行调换
名称 指定当前租户的名称,长度为3~50个字符,可包含数字、字母或下划线(_)。 根据业务需求规划租户的名称,不得与当前集群中已有的角色、HDFS目录或者Yarn队列重名。