Apache Kylin | 建立系统 Cube

什么是系统 Cube

为了更好的支持自我监控，在系统 project 下创建一组系统 Cubes，叫做 “KYLIN_SYSTEM”。现在，这里有五个 Cubes。三个用于查询指标，”METRICS_QUERY_EXECUTION”，”METRICS_QUERY_SPARK_JOB”，”METRICS_QUERY_SPARK_STAGE”。另外两个是 job 指标，”METRICS_JOB”，”METRICS_JOB_EXCEPTION”。

如何建立系统 Cube

请查看文档：How to use System Cube in Kylin4.0

系统 Cube 的细节

普通 Dimension

对于这些 Cube，admins 能够用四个时间粒度查询。从高级别到低级别，如下：

KYEAR_BEGIN_DATE	year
KMONTH_BEGIN_DATE	month
KWEEK_BEGIN_DATE	week
KDAY_DATE	date

METRICS_QUERY_EXECUTION

这个 Cube 用于在 Spark Execution 级别收集查询 metrics。在 kylin4.0 中，每一条查询对应一个 Spark Execution。

METRICS_QUERY_SPARK_JOB

这个 Cube 用于收集 Spark Job 级别的查询 metrics。

METRICS_QUERY_SPARK_STAGE

这个 Cube 用于收集 Spark Stage 级别的查询 metrics。

METRICS_JOB

在 Kylin 中，主要有三种类型的 job：
- “BUILD”，为了从 HIVE 中 building Cube segments。
- “MERGE”，为了在存储引擎中 merging Cube segments。
- “OPTIMIZE”，为了在存储引擎中基于 base cuboid 动态调整预计算 cuboid tree。

这个 Cube 是用来收集 job 指标。细节如下：

Dimension
PROJECT
CUBE_NAME
JOB_TYPE
CUBING_TYPE	in kylin，there are two cubing algorithms，Layered & Fast(InMemory)

Measure
COUNT
MIN，MAX，SUM of DURATION	the duration from a job start to finish
MIN，MAX，SUM of TABLE_SIZE	the size of data source in bytes
MIN，MAX，SUM of CUBE_SIZE	the size of created Cube segment in bytes
MIN，MAX，SUM of PER_BYTES_TIME_COST	= DURATION / TABLE_SIZE
MIN，MAX，SUM of WAIT_RESOURCE_TIME	a job may includes serveral MR(map reduce) jobs. Those MR jobs may wait because of lack of Hadoop resources.

METRICS_JOB_EXCEPTION

这个 Cube 是用来收集 job exception 指标。细节如下：

Dimension
PROJECT
CUBE_NAME
JOB_TYPE
CUBING_TYPE
EXCEPTION	when running a job，exceptions may happen. It's for classifying different exception types

Measure
COUNT