云服务器内容精选

  • 操作场景 Ranger管理员可通过Ranger为Spark2x用户进行相关的权限设置。 Spark2x开启或关闭Ranger鉴权后,需要重启Spark2x服务。 需要重新下载客户端,或手动刷新客户端配置文件“客户端安装目录/Spark2x/spark/conf/spark-defaults.conf”: 开启Ranger鉴权:spark.ranger.plugin.authorization.enable=true,同时需要修改参数“spark.sql.authorization.enabled”值为“true”。 关闭Ranger鉴权:spark.ranger.plugin.authorization.enable=false Spark2x中,spark-beeline(即连接到JD BCS erver的应用)支持Ranger的IP过滤策略(即Ranger权限策略中的Policy Conditions),spark-submit与spark-sql不支持。
  • 加载CarbonData表数据 CarbonData table创建成功后,可使用LOAD DATA命令在表中加载数据,并可供查询。 触发数据加载后,数据以CarbonData格式进行编码,并将多维列式存储格式文件压缩后复制到存储CarbonData文件的HDFS路径下供快速分析查询使用。 HDFS路径可以配置在carbon.properties文件中。 CarbonData相关配置参数请参考CarbonData常见配置参数。 父主题: CarbonData数据分析
  • 解决方法 找到重启前的主NameNode,进入其数据目录(查看配置项“dfs.namenode.name.dir”可获取,例如/srv/BigData/namenode/current),得到最新的FSImage文件的序号。一般如下: 查看各JournalNode的数据目录(查看配置项“dfs.journalnode.edits.dir”可获取,例如/srv/BigData/journalnode/hacluster/current),查看序号从第一步获取到的序号开始的edits文件,看是否有不连续的情况(即前一个edits文件的最后一个序号和后一个edits文件的第一个序号不是连续的,如下图中的edits_0000000000013259231-0000000000013259237和后一个edits_0000000000013259239-0000000000013259246就是不连续的)。 如果有这种不连续的edits文件,则需要查看其它的JournalNode的数据目录或NameNode数据目录中,有没有连续的该序号相关的连续的edits文件。如果可以找到,复制一个连续的片段到该JournalNode。 如此把所有的不连续的edits文件全部都修复。 重启NameNode,观察是否成功。如还是失败,请联系技术支持。
  • Hive数据脱敏 Ranger支持对Hive数据进行脱敏处理(Data Masking),可对用户执行的select操作的返回结果进行处理,以屏蔽敏感信息。 登录Ranger WebUI界面,在首页中单击“HADOOP SQL”区域的“Hive” 在“Masking”页签单击“Add New Policy”,添加Hive权限控制策略。 根据业务需求配置相关参数。 表3 Hive数据脱敏参数 参数名称 描述 Policy Name 策略名称,可自定义,不能与本服务内其他策略名称重复。 Policy Conditions IP过滤策略,可自定义,配置当前策略适用的主机节点,可填写一个或多个IP或IP段,并且IP填写支持“*”通配符,例如:192.168.1.10,192.168.1.20或者192.168.1.*。 Policy Label 为当前策略指定一个标签,您可以根据这些标签搜索报告和筛选策略。 Hive Database 配置当前策略适用的Hive中数据库名称。 Hive Table 配置当前策略适用的Hive中的表名称。 Hive Column 可添加列名。 Description 策略描述信息。 Audit Logging 是否审计此策略。 Mask Conditions 在“Select Role”、“Select Group”、“Select User”列选择已创建好的需要授予权限的对象,单击“Add Conditions”,添加策略适用的IP地址范围,然后再单击“Add Permissions”,勾选“select”权限。 单击“Select Masking Option”,选择数据脱敏时的处理策略: Redact:用x屏蔽所有字母字符,用0屏蔽所有数字字符。 Partial mask: show last 4:只显示最后的4个字符,其他用x代替。 Partial mask: show first 4:只显示开始的4个字符,其他用x代替。 Hash:用值的哈希值替换原值,采用的是hive的内置mask_hash函数,只对string、char、varchar类型的字段生效,其他类型的字段会返回NULL值。 Nullify:用NULL值替换原值。 Unmasked(retain original value):原样显示。 Date: show only year:仅显示日期字符串的年份部分,并将月份和日期默认为01/01。 Custom:可使用任何有效返回与被屏蔽的列中的数据类型相同的数据类型来自定义策略。 如需添加多列的脱敏策略,可单击按钮添加。 单击“Add”,在策略列表可查看策略的基本信息。 用户通过Hive客户端对配置了数据脱敏策略的表执行select操作,系统将对数据进行处理后进行展示。 处理数据需要用户同时具有向Yarn队列提交任务的权限。
  • 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 HBase表类型 配置HBase表类型,可选项为normal(普通表)和phoenix表。 enum 是 normal HBase表名 配置HBase表名。仅支持一个HBase表。 string 是 无 HBase输入字段 配置HBase输入信息: 列族:配置HBase列族名。 列名:配置HBase列名。 字段名:配置输入字段名。 类型:配置字段类型。 长度:配置字段长度,字段值实际长度太长则按配置的长度截取,“类型”为“CHAR”时实际长度不足则空格补齐,“类型”为“VARCHAR”时实际长度不足则不补齐。 主键:配置是否为主键列。普通HBase表主键只能指定一个;phoenix表主键可以指定多个,配置多个列为主键时,会按照配置列的先后顺序对其进行拼接。必须配置一个主键列。 map 是 无
  • 样例 以HBase导出到sqlserver2014数据库为例。 在sqlserver2014上创建一张空表test_1用于存储HBase数据。执行以下语句: create table test_1 (id int, name text, value text); 配置“HBase输入”算子,生成三个字段A、B和C: 设置了数据连接器后,可以单击“自动识别”,系统将自动读取数据库中的字段,可根据需要选择添加,然后根据业务场景手动进行完善或者修正即可,无需逐一手动添加。 此操作会覆盖表格内已有数据。 通过“表输出”算子,将A、B和C输出到test_1表中: select * from test_1;
  • 注意事项 表必须已经存在。 用户应属于数据加载组以执行数据加载操作。默认情况下,数据加载组被命名为“ficommon”。 CarbonData表不支持Overwrite。 源表和目标表的数据类型应该相同,否则源表中的数据将被视为Bad Records。 INSERT INTO命令不支持部分成功(partial success),如果存在Bad Records,该命令会失败。 在从源表插入数据到目标表的过程中,无法在源表中加载或更新数据。 若要在INSERT操作期间启用数据加载或更新,请将以下参数配置为“true”。 “carbon.insert.persist.enable”=“true” 默认上述参数配置为“false”。 启用该参数将降低INSERT操作的性能。
  • 参数说明 表1 算子参数说明 参数 含义 类型 是否必填 默认值 el操作之后生成的字段 配置EL表达式: 名称:表达式输出结果的名称。 el表达式:表达式,格式为:表达式名称(输入字段名,是否用小写字母表示输出结果)。例如,md5sum(fieldname,true)。 md5sum:生成md5校验值。 sha1sum:生成sha1校验值。 sha256sum:生成sha256校验值。 sha512sum:生成sha512校验值。 类型:表达式输出结果类型,建议选择“VARCHAR”。 时间格式:表达式输出结果格式。 长度:表达式输出结果长度。 map 是 无
  • 操作场景 此功能在 MRS 3.x之前版本适用于Hive,Spark。在MRS3.x及后续版本适用于Hive,Spark2x。 开启此功能后,仅有Hive管理员可以创建库和在default库中建表,其他用户需通过Hive管理员授权才可使用库。 开启本功能之后,会限制普通用户新建库和在default库新建表。请充分考虑实际应用场景,再决定是否做出调整。 因为对执行用户做了限制,使用非管理员用户执行建库、表脚本迁移、重建元数据操作时需要特别注意,防止错误。
  • hdfs-connector 表5 hdfs-connector目的连接属性 参数 说明 写入目录 最终数据在HDFS保存时的具体目录。必须指定一个目录。 文件格式 Loader支持HDFS中存储数据的文件格式,默认支持以下两种: CS V_FILE:表示文本格式文件。目的连接为数据库型连接时,只支持文本格式。 BINARY_FILE:表示文本格式以外的二进制文件。 压缩格式 文件在HDFS保存时的压缩行为。支持NONE、DEFLATE、GZIP、BZIP2、LZ4和SNAPPY。 是否覆盖 文件在导入HDFS时对写入目录中原有文件的处理行为,支持以下两种: True:默认清空目录中的文件并导入新文件。 False:不清空文件。如果写入目录中有文件,则作业运行失败。 换行符 最终数据的每行结束标识字符。 说明: hdfs作为目的连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“换行符”配置无效。 字段分割符 最终数据的每个字段分割标识字符。 说明: hdfs作为目的连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“字段分割符”配置无效。
  • obs-connector 表1 obs-connector目的连接属性 参数 说明 桶名 保存最终数据的OBS文件系统。 写入目录 最终数据在文件系统保存时的具体目录。必须指定一个目录。 文件格式 Loader支持OBS中存储数据的文件格式,默认支持以下两种: CSV_FILE:表示文本格式文件。目的连接为数据库型连接时,只支持文本格式。 BINARY_FILE:表示文本格式以外的二进制文件。 换行符 最终数据的每行结束标识字符。 字段分割符 最终数据的每个字段分割标识字符。 编码类型 最终数据的文本编码类型。只对文本类型文件有效。
  • hbase-connector 表4 hbase-connector目的连接属性 参数 说明 表名 保存最终数据的HBase表名称,支持通过界面查询并选择。 导入方式 支持BULKLOAD、PUTLIST两种方式导入数据到HBase表。 导入前清空数据 标识是否需要清空目标HBase表中的数据,支持以下两种类型: True:清空表中的数据。 False:不清空表中的数据,选择False时如果表中存在数据,则作业运行会报错。
  • ftp-connector或sftp-connector 表3 ftp-connector或sftp-connector目的连接属性 参数 说明 写入目录 最终数据在文件服务器保存时的具体目录。必须指定一个目录。 文件格式 Loader支持文件服务器中存储数据的文件格式,默认支持以下两种: CSV_FILE:表示文本格式文件。目的连接为数据库型连接时,只支持文本格式。 BINARY_FILE:表示文本格式以外的二进制文件。 换行符 最终数据的每行结束标识字符。 说明: ftp或sftp作为目的连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“换行符”配置无效。 字段分割符 最终数据的每个字段分割标识字符。 说明: ftp或sftp作为目的连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“字段分割符”配置无效 编码类型 最终数据的文本编码类型。只对文本类型文件有效。
  • ftp-connector或sftp-connector 表3 ftp-connector或sftp-connector数据源连接属性 参数 说明 源目录或文件 源数据实际存储的形态,可能是文件服务器包含一个目录中的全部数据文件,或者是单个数据文件。 文件格式 Loader支持文件服务器中存储数据的文件格式,默认支持以下两种: CSV_FILE:表示文本格式文件。目的连接为数据库型连接时,只支持文本格式。 BINARY_FILE:表示文本格式以外的二进制文件。 换行符 源数据的每行结束标识字符。 说明: ftp或sftp作为源连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“换行符”配置无效。 字段分割符 源数据的每个字段分割标识字符。 说明: ftp或sftp作为源连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“字段分割符”配置无效 编码类型 源数据的文本编码类型。只对文本类型文件有效。 文件分割方式 支持以下两种: File:按总文件个数分配map任务处理的文件数量,计算规则为“文件总个数/抽取并发数”。 Size:按文件总大小分配map任务处理的文件大小,计算规则为“文件总大小/抽取并发数”。
  • hdfs-connector 表5 hdfs-connector数据源连接属性 参数 说明 源目录或文件 源数据实际存储的形态,可能是HDFS包含一个目录中的全部数据文件,或者是单个数据文件。 文件格式 Loader支持HDFS中存储数据的文件格式,默认支持以下两种: CSV_FILE:表示文本格式文件。目的连接为数据库型连接时,只支持文本格式。 BINARY_FILE:表示文本格式以外的二进制文件。 换行符 源数据的每行结束标识字符。 说明: hdfs作为源连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“换行符”配置无效。 字段分割符 源数据的每个字段分割标识字符。 说明: hdfs作为源连接时,当“文件格式”配置为BINARY_FILE时,高级属性中的“字段分割符”配置无效。 文件分割方式 支持以下两种: File:按总文件个数分配map任务处理的文件数量,计算规则为“文件总个数/抽取并发数”。 Size:按文件总大小分配map任务处理的文件大小,计算规则为“文件总大小/抽取并发数”。