据研究表明,在数据分析的整个过程中,数据准备会占大约80%的时间。怎样把数据收集起来,并确保数据可直接用于分析展示,是最麻烦、最耗时的事情,倘若数据未处理妥当,炫酷好看的可视化展示也毫无意义。
首先,需要由业务人员提出业务需求,并描述业务需求所需的数据内容。其次,通过业务人员及技术人员合作,根据业务对象抽象出数据概念,定义其描述、分类与关系。技术人员根据数据概念描述、分类,抽取出数据实体,并利用ER图描述其关系。
最后,技术人员针对数据库特性将数据实体物化为数据库表,支撑实际应用。
由于互联网及通信技术的飞速发展以及数据量的爆发式增长,各类数据也大规模增长,可依据相关规范对数据质量即数据的及时性、完整性以及准确性进行限制,详细地通过事前防范、事中监控、事后管控3个时间段进行监督。
根据已确定的企业核心逻辑数据模型,将模型中的数据项抽取出来。然后根据预定的业务数据项筛选方法,筛选出需要进行业务定义的数据项。再根据业务对所筛选出的业务数据项进行分类,产生用于通用数据标准及公共代码定义的数据标准项清单。
而具体的通用数据标准的制定包括定义工作目标、流程、及模版,其分类标准则根据数据在业务中的使用频度和业务需求,参考业界模型,通过汇总分析,对通用数据进行分类,形成统一的数据标准在数据层面的定义,并以数据项自然分类为基础,对数据进行分类。
主数据是描述核心业务实体的数据,是企业内跨业务重复使用的数据,存在于多个异构的应用系统中,是关键数据,而不是全部数据;是操作性数据,动态参与业务流程,而不是静态数据。
在企业中主数据是全员共享,全员服务的重要数据,与其他数据分离,作为单独的部分进行管理。
数据的生命周期包括数据创建、数据使用、数据归档、数据销毁4个阶段。而数据在生命周期内有效则可以满足业务操作和管理分析的需要;满足对历史数据查询相关政策和管理制度的要求;满足审计管理要求;减少数据冗余,提高数据一致性;减少存储、硬件、运维等方面基础设施投入;提升应用系统性能,提高响应速度。因此,数据生命周期的管理必不可少。
数据是数据仓库的灵魂,它不仅提供了数据仓库中数据结构的逻辑层,也提供了数据仓库的构建和使用规则。
为了使数据仓库中各个软件能够无缝地合作,必须在数据层进行有效的集成。所以,研究数据的作用与意义相当重要.数据是关于数据的数据,即是对数据资源的描述,按其描述对象的不同可以分3大类:技术数据、业务数据和管理数据。
应该从企业级、体系化视角开展数据安全管理顶层设计。
数据统一分类分级后,通过数据鉴权来控制某一类数据可以被哪些系统调取,可以被哪些人员查看,可以被哪些部门共享,对不符合权限的对象进行限制,有效地防止数据泄露风险。
报名热线/微信:18024510019