检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
日志。 表1 参数说明 参数 描述 默认值 spark.jobhistory.address JobHistoryServer页面的地址,格式:http(s)://ip:port/jobhistory。例如,将参数值设置为“https://10.92.115.1:26014/jobhistory”。
changelog.enabled 选填 是否写入changelog消息。默认值为false,CDC场景填写为true。 false 表名必须满足Hive格式要求 表名必须以字母或下划线开头,不能以数字开头。 表名只能包含字母、数字、下划线。 表名长度不能超过128个字符。 表名中不能包含空格和特殊字符,如冒号、分号、斜杠等。
Table中使用的Short和Long数据类型在DESCRIBE命令中分别显示为Smallint和Bigint。 可以使用DESCRIBE格式化命令查看表数据大小和表索引大小。 操作结果 根据命令创建表。 父主题: CarbonData数据分析
ert|analyze操作前需要单独对hdfs上的表目录赋予写权限。 当前对spark datasource表赋予Insert权限时,若表格式为:text|csv|json|parquet|orc,则不会修改表目录的权限。因此,对以上几种类型的datasource表赋予Inser
ta/omm/oms/ha/scriptlog/floatip.log”,查看故障出现前后1-2分钟的日志是否完整。 例如:完整日志为如下格式: 2017-12-09 04:10:51,000 INFO (floatip) Read from ${BIGDATA_HOME}/om
Table中使用的Short和Long数据类型在DESCRIBE命令中分别显示为Smallint和Bigint。 可以使用DESCRIBE格式化命令查看表数据大小和表索引大小。 操作结果 根据命令创建表。 父主题: CarbonData数据分析
日志。 表1 参数说明 参数 描述 默认值 spark.jobhistory.address JobHistoryServer页面的地址,格式:http(s)://ip:port/jobhistory。例如,将参数值设置为“https://10.92.115.1:26014/jobhistory”。
待导入的本地库名.本地表名。 testdb1.testtb1 thread_num 并发导入线程数。 10 data_format 待导入数据的格式。 CSV is_security_cluster 是否为安全模式集群。 true:表示安全模式 false:表示普通模式 true 保存修改后的
rt|analyze操作前需要单独对hdfs上的表目录赋予写权限。 当前对spark datasource表赋予Insert权限时,如果表格式为:text|csv|json|parquet|orc,则不会修改表目录的权限。因此,对以上几种类型的datasource表赋予Inser
ta>:在请求中可能无法识别“&”符号,需对其进行转义。 <python -m json.tool>(可选): 把响应的请求转换为json格式。 [ { "aggregateTags": [], "dps": { "1524900185":
嵌套json的层级前缀,使用英文逗号(,)进行分隔。 例如:data,info表示取嵌套json中data,info下的内容,作为json格式数据输入 分隔符 选择不同“映射表类型”对应的含义为:用于指定CSV字段分隔符。当数据“编码”为“CSV”时存在此参数。 例如:“,” 行分隔符
嵌套json的层级前缀,使用英文逗号(,)进行分隔。 例如:data,info表示取嵌套json中data,info下的内容,作为json格式数据输入 分隔符 选择不同“映射表类型”对应的含义为:用于指定CSV字段分隔符。当数据“编码”为“CSV”时存在此参数。 例如:“,” 行分隔符
族名称 备集群ID 表名 开始时间必须早于结束时间 开始时间和结束时间需要填写时间戳的格式,例如执行date -d "2015-09-30 00:00:00" +%s将普通时间转化为时间戳格式。 指定主备集群写数据状态。 在主集群HBase shell界面,使用“hbase”用户执行以下命令保持写数据状态。
通过HQL语言非常容易的完成数据提取、转换和加载(ETL)。 通过HQL完成海量结构化数据分析。 灵活的数据存储格式,支持JSON、CSV、TEXTFILE、RCFILE、ORCFILE、SEQUENCEFILE等存储格式,并支持自定义扩展。 多种客户端连接方式,支持JDBC接口。 Hive主要应用于海量数
从而显著提升了数据加载的速度和效率。 BulkLoad方式调用MapReduce的job直接将数据输出成HBase table内部的存储格式的文件HFile,然后将生成的StoreFiles加载到集群的相应节点。这种方式无需进行flush、compact、split等过程,不占
--database Hive database名称 N default --table Hive表名 Y - --base-file-format 文件格式 (PARQUET或HFILE) N PARQUET --user Hive用户名 N - --pass Hive密码 N - --jdbc-url
CAST操作永远不会失败,而是返回NULL,类似于TRY_CAST,但不会推断正确的类型。 对于某些转换为CHAR/VARCHAR/STRING的格式化操作,结果可能略有不同。 我们不建议使用此标志,并强烈建议新项目保持禁用该标志并使用新的类型转换行为。该标志将在未来的Flink版本中被移除。
解决扩容的节点ssh key不清理问题 大数据组件 解决Hive表存在多个TIMESTAP字段,在插入时存在某个字段不是时间格式会导致原来能够是时间格式的数据显示错位问题 解决Hive表int列分区,值为01场景,无法删除分区问题 解决FlinkServer页面单击任务详情,业务不能正常跳转问题
/home/XXXX chown XXXX /home/XXXX su - XXXX 访问OBS,无需再配置AK、SK和Endpoint。 OBS路径格式:obs://OBS并行文件系统名称/XXX hadoop fs -ls "obs://obs-example/job/hadoop-mapreduce-examples-3
CSV文件。 -td <directory>:用于为导出的CSV文件指定输出路径。 -tf <time-format>:用于指定时间格式,时间格式必须遵守ISO 8601标准。如果想要以时间戳方式来保存时间,需设置为-tf timestamp。例如,-tf yyyy-MM-dd\