检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
如果开启了HDFS联邦,HFile文件输出路径必须和需要导入数据的HBase在同一个NameService中。 例如:HDFS目录挂载情况如表3所示,如果HBase服务目录挂载在NS1上,则Spark Bulkload工具输出路径必须挂载在NS1上,因此,可以指定输出路径在“/tmpns1”目录下。 表3 HDFS目录挂载示例
x之前版本,如下参数见表4,在MRS的Flink默认配置中不存在,用户如果开启外部连接SSL,则需要添加以下参数。开启外部连接SSL后,因为YARN目前的开源版本无法代理HTTPS请求,所以无法通过YARN代理访问Flink的原生页面,用户可以在集群的同一个VPC下,创建windows虚拟机,在该虚拟机中访问Flink
add("DROP TABLE child"); executeSql(url, sqlList); 样例工程中的data文件需要放到HDFS上的home目录下 保证data文件和创建的表的所属的用户和用户组保持一致 拼接JDBC URL。 HA模式下url的host和port必须为“ha-cluster”。
如果在导出过程中出现错误,可能会有导出文件残留在远端存储系统上,Doris不会清理这些文件,需要手动清理。 导出命令的超时时间同查询的超时时间,可以通过SET query_timeout=xxx进行设置。 对于结果集为空的查询,依然会产生一个大小为0的文件。 文件切分会保证一行数据完整的存储在单一文件中,因此文件的大
window_start, window_end; 窗口去重语句 Window Deduplication是一种特殊的重复数据删除,它删除在一组列上重复的行,为每个窗口和分区键保留第一个或最后一个。 语法: SELECT [column_list] FROM ( SELECT [column_list]
https://pypi.org/project/setuptools/#files 将下载的setuptools压缩文件复制到客户端机器上,解压后进入解压目录,在客户端机器的命令行终端执行python3 setup.py install。 如下内容表示安装setuptools的47.3.1版本成功。
https://pypi.org/project/setuptools/#files 将下载的setuptools压缩文件复制到客户端机器上,解压后进入解压目录,在客户端机器的命令行终端执行python3 setup.py install。 如下内容表示安装setuptools的47.3.1版本成功。
Manager(MRS 3.x及之后版本),选择“集群 > 服务”。 选择“Loader”,在“Loader WebUI”右侧,单击链接,打开Loader的WebUI。 在Loader页面,单击“新建作业”。 在“连接”后单击“添加”,配置连接参数。 参数介绍具体可参见Loader连接配置说明。
Manager,具体请参见访问集群Manager,选择“集群 > 服务”。 选择“Loader”,在“Loader WebUI”右侧,单击链接,打开Loader的WebUI。 在Loader页面,单击“新建作业”。 在“连接”后单击“添加”,配置连接参数。 参数介绍具体可参见Loader连接配置说明。
准备本地应用开发环境 准备开发环境 在进行应用开发时,要准备的开发和运行环境如表1所示。 表1 开发环境 准备项 说明 操作系统 开发环境:Windows系统。 运行环境:Linux系统。 如需在本地调测程序,运行环境需要和集群业务平面网络互通。 安装JDK 开发和运行环境的基本配置,版本要求如下:
SparkStreaming批量写入HBase表 场景说明 用户可以在Spark应用程序中使用HBaseContext的方式去操作HBase,使用streamBulkPut接口将流数据写入Hbase表中。 数据规划 在客户端执行hbase shell进入HBase命令行。 在HBase命令执行下面的命令创建HBase表:
single.replication.exclude.pattern”配置项设置单副本的数据文件和目录。 在MRS管理控制台,选择“服务管理 > HDFS > 服务配置 > 全部配置”,在右上角搜索“dfs.single.replication.enable”,查看该参数值是否为“false”。
“drop”操作。 ALTER操作 在“Policy Name”填写策略名称。 “database”右侧填写并选择对应的数据库,在“table”右侧填写并选择对应的表,在“column”右侧填写并选择对应的列名称,支持通配符(“*”)匹配。 在“Allow Conditions”区域,单击“Select
节点的操作系统熵值不足,可能导致该节点上加解密等命令执行慢,进而引起各实例业务处理性能下降,甚至业务进程无法正常执行。 可能原因 haveged或者rng-tools工具未安装或未启动。 系统熵值连续多次检测低于100。 处理步骤 检查haveged或rng-tools工具是否安装或启动。 在FusionInsight
高,可以配置为2倍的逻辑CPU。 参数 描述 默认值 yarn.nodemanager.resource.cpu-vcores 表示该节点上YARN可使用的虚拟CPU个数,默认是8。 目前推荐将该值设置为逻辑CPU核数的1.5~2倍之间。 若任务为计算密集型,该参数可设置为与逻辑CPU核数一致。
kafka-test 安全模式下,在提交“source.jar”之前,请确保已经进行kerberos安全登录,并且keytab方式下,登录用户和所上传keytab所属用户必须是同一个用户。 安全模式下,Kafka需要用户有相应Topic的访问权限,因此首先需要在Kafka所在集群上使用Kafka管
/spark.apache.org/docs/2.2.2/monitoring.html#rest-api。 准备运行环境 安装客户端。在节点上安装客户端,如安装到“/opt/client”目录。 确认服务端Spark组件已经安装,并正常运行。 客户端运行环境已安装1.7或1.8版本的JDK。
高级配置 最大数量:一次性显示的最大日志条数,如果检索到的日志数量超过设定值,时间较早的将被忽略。不配表示不限制。 检索超时:用于限制每个节点上的最大检索时间,超时后会中止搜索,已经搜索到的结果仍会显示。 单击“检索”开始搜索,结果包含字段如表2所示。 表2 检索结果 参数名 说明 时间
HetuEngine使用HyperLogLog数据结构实现rox_distinct()函数。 数据结构 HyperLogLog(hll)是一种统计基数的算法。它实际上不会存储每个元素出现的次数,它使用的是概率算法,通过存储元素的32位hash值的第一个1的位置,来计算元素数量。通常分为稀疏存储结构和密集存
开启级联授权功能的集群极大地提升了鉴权易用性,用户只需在Ranger页面上对业务表进行一次授权,系统就会自动细粒度关联数据存储源的权限,不需要感知表的存储路径,无需进行二次授权。同时也补齐了基于存算分离授权功能缺陷,可以在Ranger上实现对存算分离表的授权鉴权。Hive表的级联授权功能主要体现为: