检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
myhuaweicloud.com 西南-贵阳一 cn-southwest-2 dli.cn-southwest-2.myhuaweicloud.com 亚太-曼谷 ap-southeast-2 dli.ap-southeast-2.myhuaweicloud.com 中国-香港 ap-southeast-1
driverMemory executorMemory numExecutor A 8核32G内存 2 1 7G 4G 6 B 16核64G内存 2 2 7G 8G 7 C 32核128G内存 4 2 15G 8G 14 表4 resources参数说明 参数名称 是否必选 参数类型
准备一个linux弹性云服务器ECS,用于安装DLI Livy。 ECS需要放通30000至32767端口、8998端口。具体操作请参考添加安全组规则。 ECS需安装Java JDK,JDK版本建议为1.8。配置Java环境变量JAVA_HOME。 查询弹性云服务器ECS详细信息,获取ECS的“私有IP地址”。
datasource v2表(以下简称V2表):spark开源的Datasource表,建表/插入/truncate命令使用spark开源的command,表的数据路径为$tablepath/数据文件。 图2 DLI datasource v2表 DLI各Spark版本对V1、V2表兼容性 表1
功能总览 功能总览 全部 数据湖探索 权限管理 弹性资源池 DLI元数据 DLI SQL作业 DLI Spark作业 DLI Flink作业 跨源连接 DLI自定义委托 自定义镜像 OBS 2.0支持 数据湖探索 数据湖探索(Data Lake Insight,以下简称DLI)是完全兼容Apache
partition_specs 格式 partition_specs : (partition_col_name = partition_col_value, partition_col_name = partition_col_value, ...); 说明 表的分区列表,以k
在创建的新数据源配置界面中,输入Kyuubi服务器的相关信息。 数据库名称:本例输入DLI数据库名称。 服务器地址:输入Kyuubi服务器的弹性公网IP地址。 端口号:Kyuubi服务监听的端口,使用Hive Thrift协议,默认端口10009。 用户名和密码:按需配置Kyuubi服务器用户名和密码。 按需配置其他高级选项,然后保存配置。
服务。用户不需要管理任何服务器,即开即用。支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。
配置Kyuubi主机IP的映射关系。 执行ifconfig查看主机IP地址。 图2 查看主机IP地址 将该IP配置在/etc/hosts文件中。 图3 在/etc/hosts文件中配置IP地址 步骤2:Fine BI安装数据连接驱动 下载并安装Fine BI 获取Fine BI安装包
设置提交SQL作业的配置项。 详细内容请参见《数据湖探索SQL语法参考》。 标签:以“key/value”的形式设置SQL作业的标签。 表2 SQL作业运行参数配置说明 参数名称 默认值 描述 spark.sql.files.maxRecordsPerFile 0 要写入单个文件
确保Kyuubi可以连接到DLI。 步骤2:配置Beeline连接Kyuubi:在BI工具中创建一个新的数据连接,通过JDBC连接Kyuubi。 步骤1:安装并配置Kyuubi连接DLI 如需使用外网访问Kyuubi请确保弹性云服务器绑定弹性公网IP,并配置安全组入方向开启10009和3309端口。
String Spark应用的Driver内存,参数配置例如2G, 2048M。该配置项会替换“sc_type”中对应的默认参数,使用时必需带单位,否则会启动失败。 driverCores Integer Spark应用Driver的CPU核数。该配置项会替换sc_type中对应的默认参数。
在创建的新数据源配置界面中,输入Kyuubi服务器的相关信息。 数据库名称:本例输入DLI数据库名称。 服务器地址:输入Kyuubi服务器的弹性公网IP地址。 端口号:Kyuubi服务监听的端口,使用Hive Thirft协议,默认端口10009。 用户名和密码:按需配置Kyuubi服务器用户名和密码。 按需配置其他高级选项,然后保存配置。
得到单条平均大小) 单表数据量大小(G) = 单表数据总条数*单条数据大小/1024/1024 非分区表桶数 = 单表数据量大小(G)/2G*2,再向上取整,如果小于4就设置桶数为4 分区表 最近一个月最大数据量分区数据总条数 = 入湖前咨询产品线 单条数据大小 = 平均 1KB(华为建议通过select
elastic_resource_pool_max_cu_num 弹性资源池最大CU 展示用户弹性资源池的最大CU。 ≥0 弹性资源池 5分钟 维度 表2 维度 Key Value queue_id 队列 flink_job_id Flink作业 通过云监控服务CES查看DLI监控指标 在管理控制台搜索“云监控服务”。
DLI将Flink作业的输出数据输出到云搜索服务CSS的Elasticsearch 引擎的索引中。 Elasticsearch是基于Lucene的当前流行的企业级搜索服务器,具备分布式多用户的能力。其主要功能包括全文检索、结构化搜索、分析、聚合、高亮显示等。能为用户提供实时搜索、稳定可靠的服务。适用于日志分析、站内搜索等场景。
用户不需要管理任何服务器,即开即用。 DLI支持标准SQL/Spark SQL/Flink SQL,支持多种接入方式,并兼容主流数据格式。数据无需复杂的抽取、转换、加载,使用SQL或程序就可以对云上CloudTable、RDS、DWS、CSS、OBS、ECS自建数据库以及线下数据库的异构数据进行探索。
strategy.max.bytes.per.group=2147483648 // 默认值为2G,根据业务场景指定。一般不需要指定,因为正常每个file group下的数据量不会超过2G hoodie.clustering.plan.strategy.max.num.groups=30
DLI将Flink作业的输出数据输出到云搜索服务CSS的Elasticsearch中。Elasticsearch是基于Lucene的当前流行的企业级搜索服务器,具备分布式多用户的能力。其主要功能包括全文检索、结构化搜索、分析、聚合、高亮显示等。能为用户提供实时搜索、稳定可靠的服务。适用于日志分析、站内搜索等场景。
DLI将Flink作业的输出数据输出到云搜索服务CSS的Elasticsearch中。Elasticsearch是基于Lucene的当前流行的企业级搜索服务器,具备分布式多用户的能力。其主要功能包括全文检索、结构化搜索、分析、聚合、高亮显示等。能为用户提供实时搜索、稳定可靠的服务。适用于日志分析、站内搜索等场景。