数据湖探索 DLI
数据湖探索(Data Lake Insight,简称DLI)是完全兼容Apache Spark、Apache Flink、openLooKeng(基于Presto)生态,提供一站式的流处理、批处理、交互式分析的Serverless融合处理分析服务。企业使用标准SQL、Spark、Flink程序就可轻松完成多数据源的联合计算分析,挖掘和探索数据价值
立即联系
Serverless DLI的优势
Serverless Spark/Flink/openLooKeng

无需大数据背景,会SQL就会大数据分析。SQL语法全兼容标准ANSI SQL 2003

完全兼容Apache Spark、Apache Flink、Presto生态和接口,线下应用可无缝平滑迁移上云,减少迁移工作量;一份资源支持流处理、批处理、交互式分析多种计算

企业级多租户

支持对计算资源和数据按租户进行细粒度授权管理,满足中大企业使用数据中台时对权限管理的需求

跨源分析

支持多种数据格式,云上多种数据源、ECS自建数据库以及线下数据库,数据无需搬迁,即可实现对云上多个数据源进行分析,构建企业的统一视图,帮助企业快速完成业务创新和数据价值探索

All in SQL
不同业务场景下使用DLI服务
  • 数据库分析
  • 电商行业
  • 游戏行业
  • 大企业
  • 基因行业
  • 金融行业
  • 政府行业
  • 地理大数据分析






数据库分析



应用的数据(如:注册信息)存在关系型数据库中,想对数据库内的数据进行分析



痛点


  • 数据量日益增多,复杂查询关系型数据库查不出来

  • 数据分库分表存在多个关系型数据库中,无法做全量分析

  • 不想因为分析业务影响在线业务


优势


  • 熟悉的SQL体验

    DLI的SQL语法全兼容关系型数据库的标准ANSI SQL 2003,0学习成本,使用习惯保持一致

  • 极致性能

    DLI采用分布式内存计算模型,轻松处理海量数据












精准营销



电商行业需要获取多个途径的信息做关联分析,以便更好地做精准营销,提高转化率。如:关联【页面广告点击事件数据】和【用户注册数据】,获取不同年龄段喜欢的广告类型,以便对不同年龄段用户投放更精准的广告



优势


  • 跨源分析

    数据免搬迁,就可以关联分析存在OBS中的【页面广告点击事件数据】和RDS中的【用户注册数据】

  • 纯SQL操作

    DLI已对接多个数据源,直接通过SQL建表就可以完成数据源的映射












日志分析



游戏公司日常通过数据分析平台,借助数据力量没突破行业瓶颈。例如:寻找优质的投放渠道、提高新手期玩家留存、优化运营活动提升玩家活跃、数据驱动产品迭代等



痛点


  • 日志分析通常是按周期进行调度,每次调度之间存在大量空闲期


优势


  • 按量计费

    DLI按量计费只在使用期间收费,成本较独占集群降低50%以上

  • 融合分析

    DLI三大引擎间元数据互通,数据实时清洗后入库进行离线ETL处理,处理结果直接可用交互式分析进行数据探索









日志分析



大企业的部门比较多,不同部门在使用云服务时,需要对不同部门的员工的权限进行管理,包括计算资源的创建、删除、使用、隔离等。同时,也需要对不同部门的数据进行管理,包括数据的隔离、共享等



优势


  • 细粒度权限控制

    列级别权限控制;INSERT

    INTO/OVERWRITE单独权限控制;表元数据只读权限控制

  • 统一的管理机制

    使用统一的IAM管理用户(无需单独创建DLI用户),支持IAM细粒度授权










基因数据处理



现在基因行业有很多基于Spark分布式框架的第三方分析库,如ADAM、Hail等



痛点


  • 安装ADAM、Hail等分析库比较复杂

  • 每次新建集群都需要安装一遍


优势


  • 支持自定义镜像

    支持基于基础镜像打包ADAM、Hail等第三方分析库,直接上传到容器镜像服务SWR,在DLI中运行作业时会自动拉取SWR中的自定义镜像

  • 内置多个基础镜像

    内置华为增强版Spark/Flink多版本基础镜像,开源Tensorflow/Keras/PyTorch的AI镜像











实时风控



为了提高消灭或减少风险事件发生的各种可能性,需要使用风控系统对典型的场景包括:注册风控、登录风控、交易分控等进行风控



痛点


  • 风控系统对实时性要求很高


优势


  • 高吞吐低时延

    采用Apache Flink的Dataflow模型,完全的实时计算框架。采用高性能计算资源,单CPU每秒吞吐1千~2万条消息

  • 丰富的云生态

    使用SQL就可以将处理后的数据流式写入CloudTable、SMN等多个云服务











实时大屏



为了更好地做好新冠疫情的管控,各地政府需要通过实时大屏掌握新冠疫情的现存确诊、累计确诊、境外输入等关键数据,为下一步疫情调控提供数据支撑



痛点


  • 政府技术人员通常会SQL,但对大数据了解不多


优势


  • 毫秒级查询性能

    内置的openLooKeng引擎在内存计算框架的基础上,还利用许多查询优化技术来满足高性能毫秒级的交互式分析的需要

  • 简单易用

    纯SQL开发方式,SQL语法全兼容标准ANSI SQL 2003











地理大数据分析



地理大数据具有大数据的相关特征,数据体量巨大,例如全球卫星遥感影像数据量达到PB级;数据种类多,有结构化的遥感影像栅格数据、矢量数据,非结构化的空间位置数据、三维建模数据;在大体量的地理大数据中,通过高效的挖掘工具或者挖掘方法实现价值提炼,是用户非常关注的话题



优势


  • 提供地理专业算子

    支持全栈Spark能力,具备丰富的Spark空间数据分析算法算子,全面支持结构化的遥感影像数据、非结构化的三维建模、激光点云等巨量数据的离线批处理,支持带有位置属性的动态流数据实时计算处理

  • CEP SQL

    提供地理位置分析函数对地理空间数据进行实时分析,用户仅需编写SQL便可实现例如偏航检测,电子围栏等地理分析场景

  • 大数据治理能力

    能快速将海量遥感影像数据接入上云,快速完成影像数据切片处理,为分布式批处理计算提供弹性分布式数据集