系统功能模块
逻辑架构 · 数据流图
数据流图 · 方案阐述
  • 数据生产与服务

      数据生产源:

    • 数据生产分为外部交换数据、已建业务系统数据、实时生产系统数据;
    • 外部交换数据主要为用户方与第三方业务系统交换得到的数据;
    • 已建业务系统数据指已建的业务系统沉淀的历史数据;
    • 实时生产系统数据虽然也从已建系统中输出,但是主指需要实时汇聚、清洗、展现、分析的数据。
    • 大数据服务:

    • 大数据服务不再拘泥于传统的数据可视化、统计分析、数据仓库;
    • 大数据服务融合了区块链、人工智能分析、知识图谱、电子归档、智能检索引擎、数据大屏、数据挖掘等各类服务。

  • 数据存储与流传

    • 针对交换数据、历史数据、生产数据,运用不同的数据清洗技术分别进行离线清理和实时清理;
    • 同时,对于全部数据,在数据汇聚的过程中,大数据平台会进行元数据治理形成有效、可靠、可持续维护的数据资产;
    • 数据中心对于ETL过后的数据进行分类存储,对于相同业务数据进行再聚合并向各个系统提供数据服务。
  • 大数据支撑底层

    • 大数据支撑底层较为重要的五个部分为统一数据标准、数据资产管理、数据堡垒、数据监控管理、数据安全交换层;
    • 在标准方面,统一数据标准规范了汇聚至大数据平台的数据标准并使第三方系统或者内部系统以标准、清晰、可靠的数据格式进行交换;
    • 在元数据管理方面,数据资产管理囊括了数据实体关系图、C-U矩阵、全域关系图、系统功能分级图、数据资源目录等各种管理模型;
    • 在数据安全方面,数据堡垒解决内部权限、安防的问题,数据安全交换层则解决数据泄露、数据确权的问题;
    • 在监控运维方面,数据监控管理整体对于数据的流转、数据流量压力、数据质量评效、数据服务状态进行统一的监控监管。

逻辑架构 · 技术路线
界面展示 · 数据大屏
逻辑架构 · 技术文档
数据资产管理介绍

大数据画像

大数据用户画像是表级模型。大数据用户画像描述需求方的不同用户种类。大数据用户画像可能包括自然人、法人、不同岗位的用户、不同职能的用户、不同层级的用户、业务中相关联的用户、系统管理员、开发商等。

  • 全域共享交换数据模型

    全域共享交换数据模型提供信息共享交换资源目录,可以科学有效管理各种业务数据和交换数据。全域共享交换数据模型的建立帮助整个大数据平台梳理全部对外的交换的业务数据。

    数据实体关系模型

    全域数据实体关系模型(E-R模型)表达云平台以及需求方的业务系统的表关系以及表结构。实体关系模型主要面向结构化数据库的表的关系,但是非结构化数据库的表结构也会在全域数据实体关系模型内进行管理。

  • 数据功能关系矩阵

    全域数据功能关系矩阵(C-U矩阵)表达了功能模块运行过程中对于数据的影响。C-U矩阵的横向为数据库中的表,纵向为具体的功能模块。C-U矩阵表达了功能模块具体产生(Create)或者使用(Use)了哪些表。

    统一数据标准模型

    统一数据标准模型一方面包括云平台的数据标准,另一方面根据需求方的行业因素、地方因素、政策因素等因素指定的数据标准。

  • 系统功能分级模型

    全域系统功能分级模梳理了云平台以及需求方的全部系统及功能模块的分级从属关系。全域系统功能分级模型可以通过后台的方式进行动态编辑。

自然语言处理

自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。

  • 词性标注

    词性标注(Part-Of-Speech tagging, POS tagging),是语料库语言学中将语料库内单词的词性按其含义和上下文内容进行标记的文本数据处理技术。

    知识图谱

    知识图谱致力于为特定业务围绕人、事项、关系三者建立关联图谱。知识图谱的建立一方面以全局的角度清晰透察局部的管理和信息要素,另一方面增强了对预警、推荐、提醒、监控等方面的业务精度,以大数据的模式为用户提供快捷、高效、准确的数据服务。

  • 中文摘要

    自动摘要(或摘要技术Automatic Summarization),是指从单篇或者多篇文章中,摘取要点来概括文章大意的技术,旨在通过机器自动输出简洁、流畅、保留关键信息的摘要。

    短语关键词

    关键词提取就是从文本里面把跟这篇文章意义最相关的一些词语抽取出来,在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。

  • 情感分析

    文本情感分析,简单而言,是对带有情感色彩的主观性文本进行分析、处理、归纳和推理的过程。基于此,用户可以通过分析情感色彩来了解文本对某一事件或产品的看法。

数据安全交换层

数据安全交换层

数据安全交换层负责大数据平台和第三方业务系统的数据交换。在数据交换的过程中,第三方业务系统提交业务处理代码到数据安全交换层,数据安全交换层调用大数据平台的数据进行实际的业务处理并最后将结果返回给第三方业务系统。

  • 监控首页

    监控首页用来监控和展示数据安全层目前所有的业务,任务运行状态以及用户访问量。界面分为四部分,业务图表,任务运行图表,访问图表以及说明及引导。访问图表用来统计当前访问数量;业务图表展示访问内容和具体业务;

    服务管理

    服务管理分为公有服务管理和私有服务管理。公有服务指的是在上传测试文件时选择了共开的服务,是所有用户都可以看到的服务。私人的服务列表定义在不同的登录账号里,每个用户都可以看到自己账号下的独有的私有服务。

  • 测试环境

    测试环境主要分为三个模块,分别是业务上传,在线测试和运行状态。 业务上传模块可以直接上传写好的文件,提交进行测试,如果上传错误可以进行重置;在线测试模块可以在线编写代码,在线提交进行测试;

    调用标准

    调用标准给出了所有可调用参数的类型,比如参数为有范围数值取值(1-100)或Boolean选择取值(true/false)。章节描述部分将调用标准按照属性和重要性进行分类并展示,供用户参考使用。

  • 后台管理

    后台管理是针对开发人员的后台管理平台,用于修改错的调用标准或者随着时间的推移被更新替换掉的调用标准,以及禁用非法的服务等。共分为四个模块,分别是调用标准,正式环境,测试环境和服务管理。

    正式环境

    正式环境指将测试环境已经测好的文件导入进行正式环境下的测试,它没有在线测试部分,只能一次性提交文件进行统一测试,测试的结果可以在运行状态中看到。

数据存储方案介绍

Hbase

HBase是一个分布式的、面向列的开源数据库,它在Hadoop之上提供了分布式存储的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。

  • MySQL

    MySQL是一个关系型数据库管理系统,关系数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。

    Redis

    Redis是一个key-value存储系统。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。

  • MongoDB

    MongoDB是一个基于分布式文件存储的数据库,介于关系数据库和非关系数据库之间,是非关系数据库当中功能最丰富,最像关系数据库的数据库。

    Oracle数据库

    Oracle数据库是甲骨文公司推出的一款关系数据库管理系统,是当前数据库领域最有名、应用最广泛的数据库管理系统之一,Oracle产品覆盖了大、中、小型机等几十种机型。

  • DB2数据库

    DB2是美国IBM公司开发的一款关系型数据库管理系统,主要应用于大型应用系统,具有较好的可伸缩性,可支持从大型机到单用户环境,应用于所有常见的服务器操作系统平台下。

数据ETL

数据ETL简介

数据ETL用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。它的流程可以用任何的编程语言去开发完成,常用的工具有Kettle和Hive。

  • 萃取

    数据萃取一般是通过工具从各个不同的数据源抽取到一个中间层中,分为全量抽取和增量抽取两种方式。捕获变化数据的方法有触发器,时间戳,全表比对和日志对比。

    Kettle

    Kettle把各种数据放到一个容器里,然后以一种指定的格式输出, 它允许用户管理来自不同数据库的数据。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

  • 加载

    数据加载要做的工作是把所有数据的模板、标准、计算规则等进行统一,如存储结构、数据编码等。数据加载有两种装载方式:直接SQL语句进行操作和采用批量装载方法。

    Hive

    Hive可以将结构化的数据文件映射为一张数据库表,通过类SQL语句快速实现简单的MapReduce统计。Hive的体系结构分为用户接口,元数据存储, 解释器、编译器、优化器、执行器和Hadoop。

  • 转置

    数据转置是指将不符合要求的数据除掉,包括错误数据、不完整数据、重复数据等。数据转置共有三个步骤,分别是数据清洗,数据转换和数据加工。

联盟链操作手册

联盟链子平台

联盟链子平台基于改进的pdft算法,在云上可以构建不同的联盟从而对不同行业或者子单位的数据进行库级隔离,同时在联盟内部可以协同所有节点进行高可用、公开透明的数据共享交换。

  • 联盟管理

    联盟链中分多个联盟,每个联盟代表各自的产业或者集团,同时拥有自己唯一的区块链。联盟管理模块可以增删改相关联盟的信息。只有在联盟管理中创建了联盟,才可以进行进一步的节点配置。

    节点配置

    节点配置根据用户的需要,可以将节点部署在任何有防护机制的物理节点内,支持传统的部署方式,也支持Docker+K8s的微服务方式。节点配置需要用户提供真实可接入的ip和端口以用来连通。

  • 熔断机制

    由于联盟链管理端只在一地集中控制,实际的联盟内节点分布在各个不同地区,为防止一些突发问题以及未来黑客技术不断升级,联盟链管理端拥有熔断机制。熔断机制一旦开启,全部联盟内的节点都会中止连接并锁死,其中数据不会丢失。

  • 区块服务

    区块服务支持多数据格式的区块增加功能并在多节点间自动进行同步,同时也支持文档的增加,确保文档的不可篡改。区块服务可以动态扩容,以应对更大量的存储和流量。

国产化

永中Office

永中office是一款自主创新的优秀国产办公软件。它集成了文字处理、电子表格和简报制作三大应用,有效解决了Office各应用之间的数据集成共享问题。

  • 达梦数据库

    达梦数据库管理系统是达梦公司推出的具有完全自主知识产权的高性能数据库管理系统,简称DM。达梦数据库管理系统的最新版本是7.0版本,简称DM7。 DM7采用全新的体系架构,极大提升了达梦数据库产品的性能

    火狐浏览器

    火狐浏览器是一个自由及开放源代码的网页浏览器,使用Gecko排版引擎,支持多种操作系统,如Windows、Mac OS X及GNU/Linux等。该浏览器提供了两种版本,普通版和ESR版。

  • 360安全卫士

    360安全浏览器是一款基于IE和Chrome双内核的浏览器。它拥有全国最大的恶意网址库,采用恶意网址拦截技术,可自动拦截挂马、欺诈、网银仿冒等恶意网址。独创沙箱技术,在隔离模式即使访问木马也不会感染。

    东方通TongLINK/Q

    消息中间件TongLINK/Q作为东方通科技公司的消息中间件产品,它以其独特的消息、队列、可靠等机制和技术优势为各种分布式应用系统的开发注入了强大动力,极大地推动了数据交换及应用系统集成的发展。

  • 中标麒麟系统

    中标麒麟系统是国内首款自主和高安全等级的可信操作系统软件产品。采用强化的Linux内核,广泛的使用在能源、金融、交通、政府、央企等行业领域。

联系我们