数据平台构建思路

构建大数据平台思路,企业如何大数据化?

全面数据化

  1. 数据化是一个政/企能够通过深入数据分析,实现自身优化的基础。
  2. 政/企采集并存储政务/生产经营中的一切数据,形成自己的数据资产。

整理数据资源、建立数据标准、形成管理规范

  1. 通过自顶向下的方式,成立数据委员会。了解数据资源的整体情况并建立数据资源情况更新的流程和规范
  2. 数据资源最基本的呈现方式是一个数据目录。企业管理团队至少应该掌握到3级目录,技术团队掌握到4级目录。

(范例)某集团数据资源管理办法

第一章 总 则

  • 第一条 为适应集团信息化发展要求,充分利用数据资源为生产、经营、管理和决策服务,保证各类信息合理、有序流动和信息安全,确保集团信息化建设快速协调有序安全发展,根据国家有关法律法规以及《集团信息安全管理办法》(中平〔2013〕188号)、等规定,特制定本管理办法。
  • 第二条 本办法适用于集团各职能部室,直属和特设机构、专业化公司、事业部、区域公司及其所属各单位(以下简称各单位)。

第二章 管理范围

  • 第三条 本办法管理范围包括:各单位与生产、经营、办公、安全等相关的应用系统和数据,以及为其提供支撑的基础设施资源、计算存储资源和办公终端资源等。

第三章 组织机构和工作机制

  • 第四条 集团信息化领导小组是集团数据资源管理体系的最高层,负责审定集团有关数据资源管理的规章、制度、办法,负责审核有关标准、规范、重要需求等。集团信息化领导小组办公室(以下简称集团信息办)负责集团数据管理的监督、检查和考核,指导集团数据管理工作,查处危害集团数据安全的事件。各单位负责本单位数据的采集、传输、使用、安防、备份等管理工作。中国平煤神马集团平顶山信息通信技术开发公司(以下简称信通公司)作为技术支撑及运维部门,负责集团数据中心的运维和运营工作。

第四章 数据分级管理

  • 第五条 根据数据在生产、经营和管理中的重要性,结合有关保密规定,按照集团级应用系统和数据、厂矿级应用系统和数据、区队(车间)级应用系统和数据分别制定管理标准。
  • 第六条 集团级应用系统和数据,技术管理由集团信息办负责,业务管理由相关业务处室负责,运维管理由信通公司负责。厂矿级应用系统和数据由各单位信息管理部门管理,集团需要利用的管理数据和生产数据要同步上传到集团数据中心。区队(车间)级应用系统和数据由各单位信息管理部门管理和维护。

第五章 数据标准管理

  • 第七条 集团信息办负责集团数据编码和接口标准的统一规划和标准制定,负责对集团及各单位应用系统的数据标准管理进行引导和考核。各单位新建应用系统应严格执行集团下发的数据编码和接口标准,在用应用系统应根据自身实际逐步按照集团标准进行完善。

  • 第八条 数据编码和接口标准应符合以下要求:

    1. 数据编码应能够保证同一个对象编码的唯一性及上下游管理规范的一致性;
    2. 接口应实现对外部系统的接入提供企业级的支持,在系统的高并发和大容量的基础上提供安全可靠的接入;
    3. 提供完善的数据安全机制,以实现对数据的全面保护,保证系统的正常运行,防止大量访问,以及大量占用资源的情况发生,保证系统的健壮性;
    4. 提供有效的系统可监控机制,使得接口的运行情况可监控,便于及时发现错误并排除故障;
    5. 保证在充分利用系统资源的前提下,实现系统平滑的移植和扩展,同时在系统并发增加时提供系统资源的动态扩展,以保证系统的稳定性;
    6. 在进行扩容、新业务扩展时,应能提供快速、方便和准确的实现方式。

第六章 数据资源管理

  • 第九条 基础设施资源集中管理。为了避免信息机房等基础设施资源重复投资建设,造成资金浪费、设施利用率低等问题,各单位应充分利用集团数据中心资源,集团信息办负责统一协调集团及各单位的基础设施资源。

    1. 各单位未经集团批准不得私自新建、改建、扩建信息机房。
    2. 集团数据中心要按照《集团机房建设技术规范》建设,满足各单位应用系统及数据统一到集团数据中心所需的各项使用要求。
    3. 各单位现有机房自行管理、统一管控。各级信息管理部门作为主要责任部门,要保证信息机房各项运行指标达到集团要求。
  • 第十条 计算存储资源集中管理。为了消除“信息孤岛”,实现集团数据共享和集成,提升数据安全防护等级,各单位所需计算和存储资源,要统一使用集团数据中心的云计算资源,做到资源集中、高效利用。

    1. 现有的集团级应用系统及数据(安全监测系统除外)、各单位应用系统及数据(直接用于生产安全、自动化控制和监测监控的系统除外)要按照在用服务器、存储的服务年限和系统生命周期科学制定迁移到集团数据中心的计划和方案,并报集团信息办批准后实施。
    2. 新建应用系统原则上不再购置新的服务器和存储,所需计算和存储资源应使用集团数据中心的云计算资源。各单位如有特殊生产要求,确需购置服务器或存储的,需报请集团领导批准,由集团信息办备案后,按集团采购管理相关规定执行。
    3. 对于当前集团网络不具备实施条件的单位,可向集团提出申请建设集团区域性数据分中心,并根据建设进度制定应用系统和数据迁移计划。集团区域性数据分中心建成后,新建系统需要集中部署、分级管理。
  • 第十一条 办公终端资源集中管理。为了提高办公效率、降低办公成本、实现节能降耗,集团级应用系统要统一使用集团数据中心云桌面,并在厂矿和区队(车间)级应用系统中逐步实现全面使用。

    1. 各单位新建系统所需计算机和新增办公用计算机要使用集团数据中心云桌面。
    2. 原有集团推广的应用系统所使用的计算机,以及各单位在用的计算机,分别由应用系统主管部门和各单位按年度提出云桌面更换计划,逐步完成云桌面更换工作;集团信息办负责协调和监督。
    3. 各单位申请云桌面使用,应与信通公司签订租用协议,由信通公司负责云桌面运维,各单位信息管理部门负责本单位云桌面管理。
    4. 对于当前集团网络不具备实施云桌面替换条件的单位,应协同集团相关部门接入集团网络或建设集团区域性数据分中心。在网络接入后或集团区域性数据分中心建成后,按计划完成云桌面的部署工作。
  • 第十二条 各单位使用资源应按集团规定支付相关费用。

第七章 数据分析管理

  • 第十三条 数据分析是采取科学合理的方法,利用现代信息技术手段,对计算机应用系统生成的数据进行分析,充分发掘数据中蕴涵的信息,用数据描述现状,预测趋势,规范生产行为,优化管理流程,加强经营监管,提供决策支持。
  • 第十四条 集团信息化领导小组应加强对各单位数据分析的指导,鼓励各单位结合自身实际,充分利用“大数据”技术,自行组织开发业务选题和数据模型,组织经验交流,提高分析水平。集团信息办要做好数据分析引导和管理工作,为集团安全生产、经营管理工作服务。基层各单位要充分挖掘和利用现有数据资源,不断探索和创新数据分析方法,规范数据分析程序,提高数据分析质量,做好本单位各项应用的数据分析工作。
  • 第十五条 集团级数据分析、处室级数据分析和厂矿级数据分析分别由集团信息办、相关业务处室和各基层单位负责策划和实施,集团信息化领导小组负责监督和考核。

第八章 数据应用管理

  • 第十六条 数据应用是指利用数据分析的成果,查找存在问题,开展业务运转状况评估,提出改进措施,提高管理水平,规避管理风险。
  • 第十七条 各级信息管理部门应加强数据应用。集团信息办负责代表集团对各单位以及单位之间数据共享应用的统一规划并制定标准。各单位要严格按部门、按层级落实数据应用工作,对数据进行科学统计、分析、挖掘和应用,为各级领导决策提供依据。

第九章 数据安全管理

  • 第十八条 各级信息管理部门应建立数据安全管理制度及相关措施,主要包括:数据访问的身份验证、权限管理及数据的加密、保密、日志管理、网络安全、容灾备份等。
  • 第十九条 为统一规范操作权限,各单位应明确工作人员的录入权限、访问权限及维护权限的管理部门,任何人不得擅自设立、变更和注销。
  • 第二十条 各级信息管理部门要指定专人负责系统数据及介质资料的安全管理工作。要加强数据库的安全管理,制定和明确管理员用户和数据查询用户的操作权限及规程。
  • 第二十一条 对数据的各项操作至少要建立运行日志,严格监控操作过程,对发现的数据安全问题,要及时处理和上报。管理员应掌握和运用数据库访问审计技术,实现对数据库操作的监测和追溯。
  • 第二十二条 各级信息管理部门要加强用户身份验证管理、网络安全管理,采取严格措施,做好计算机病毒的预防、检测、清除工作,建立针对网络攻击的防范措施,保证数据传输和存储安全。
  • 第二十三条 各级信息管理部门要加强数据的容灾备份工作,建立数据容灾备份机制,保障系统应急恢复和数据溯源。重要数据要上传至集团数据中心备份。

###第十章 附 则

  • 第二十四条 本办法解释权归集团。
  • 第二十五条 本办法自本文印发之日起执行。

建设数据管理平台

  1. 数据管理平台要为政/企量身定做一套数据组织和管理的解决方案。特别是各部门之间数据的共融共通,以及企业数据怎么样进行索引和关联。
  2. 其次,数据管理平台是由业务所引导的,要为业务提供直接的支撑。
  3. 最后,数据管理平台的建设要量体裁衣,建设未必一次到位,但强调鲁棒性和可扩展性。

数据资源目录和资源交换管理

数据资源目录管理是实现政务信息资源共享交换、数据整合和大数据应用的桥梁和基础设施,是提高数据治理、数据管理能力和提高信息标准化服务水平的重要技术手段。

系统要求

  • 符合国家信息资源目录体系及元数据标准,按照统一的标准规范实现对政务信息资源的梳理、元数据采集、描述、编目、分类目录管理和可视化应用展现;
  • 系统支持手工录入及在线连接梳理各种类型的数据资源,包括各种异构关系型数据厍、NoSQL数据库和大数据平台(HBase、Hive、MongoDB等)、以及各种格式化文件如 XML、Jason、CSV、TXT、Excel等资源类型的梳理,为分散异构的政务信息资源提供统一的梳理、元数据管理、目录管理,并提供分类导航、资源搜索和定位等应用服务功能

厂商

具备海量数据的深入分析能力

建立针对多元异构、跨域关联的海量数据,通过深度分析挖掘获取价值的能力,关键需要具备以下的几点能力。

  1. 结构化数据的分析处理能力。
  2. 非结构化数据的分析处理能力。
  3. 大数据下的机器学习能力。

支持作业类型

  • ETL:kettle,Sqoop,flume作业管理。
  • MapReduce:离线处理作业。
  • Hive:关系型分析查询作业。
  • Pig:数据清洗,ETL 等脚本作业。
  • Spark Streaming:基于 Spark 的在线/流式 作业。
  • Spark MLlib:基于 Spark 的机器学习作业。
  • Spark GraphX:基于 Spark 的图处理作业。
  • Spark SQL:基于 Spark 的数据科学交互式作业。

    作业管理

  • 作业(Hadoop/Spark/Hive/Pig)可任意组合成执行计划。
  • 执行计划可分为立即执行和定时周期执行。
  • 对作业和任务状况进行监控。

    自动化部署

  • 根据业务量的上升可对集群动态扩容。
  • 自由选择开源大数据生态软件组合和版本,包括 Hadoop 和 Spark。

    数据挖掘管理

  • 可选择统一数据仓库,封装为统计数据对外开放。
  • 可执行数据挖掘脚本对平台内的制定范围数据进行分析和挖掘。

建立外部数据的战略储备

架构需要实际业务来验证。政企除了自身的数据之外,需要引入外部的数据来比对,样本的多样化有助于进一步分析和挖掘现有的数据。

  1. 持续建立自己的外部数据战略储备。
  2. 自建具备采集、清洗、存储和索引等功能的自动化系统,自动累计外部数据。
  3. 通过和数据供应商合作,获得一些数据。

推动自身数据的开放与分享

  1. 有了大量数据和一定的分析能力后,不故步自封充分借助社会的力量,尽最大可能发挥数据潜藏的价值。
  2. 通过数据开放计划,可以学习先进的算法和最具创新的数据应用思路实现自身数据的价值最大化。

数据产业的战略投资布局

产业集成。

todo

技术集成。

todo