# 数据加工

理论上讲,拥有稀缺数据源的企业将拥有竞争优势。然而,我们看到的情况并不是这样,许多企业在大数据投资上耗费了大量的人力和财力,看起来像是取得了关注和专业性的口碑,但最终往往却是没有获得预期的回报。同样的数据,在有些场景,价值能够实现指数级增长,但是换另一种场景,价值表现就可能很一般,这些都会涉及到数据的加工模式。

# 数据加工的通用模式

类似语言和文字,数据不仅是人们生活所需,也是社会发展的必然产物。我们现在看到的数据产品,背后可能都是要经过一系列的数据加工,按照数据加工的内在逻辑,我们可以将数据的加工过程分为如下两种模式。

# 单一加工模式

单一加工模式是指数据加工过程中由三个基本环节构成,这三个基本环节构成一个闭环,源数据经过该闭环过程产生价值。这三个基本环节分别是:采集(Collecting)、处理(Interpreting)、应用(Contextualizing),简称CIC模式。

这种模式下,在固定单一固定数据源中,采集可以综合包含收集和汲取等含义,涵盖了记录收集、访谈调研、多方合作等各种加工动作。处理是解析、理解和演绎数据等复杂过程,其会有目的的进行信息提炼,从看似无序的数据中探索出内在规律,最终得出结论,这个过程涵盖了数据清洗、编码分析和信息提取等加工动作。应用是指向用户提供咨询报告、形成决策依据或生成数据可视化像等加工动作。

# 复合加工模式

数据复合加工模式是指以“源数据”为中心的单一加工和以“用户生成数据”为中心的单一加工叠加在一起,在对初始源数据进行加工的基础上,两个数据在单一模式加工之间,在采集环节主动创造条件和用户产生互动,使用户在使用数据的过程中产生更多的数据,这些数据生成数据可以被再加工产生新价值,形成一个数据源源不断的动态闭环。

这里,将初始的原始数据成为“源数据”,将用户参与所产生的新数据称为“用户生成数据”。这两类数据产生价值的过程,仍然都需要经过采集、处理和应用三个基本环节。例如,我的前东家剑南春经过多年经营,可能已经拥有了大量的如消费者姓名、联系方式等数据,这些数据可以称为 “源数据”。剑南春想开拓新市场,准备面向消费者进行营销,为了精准营销,将必须要设法采集到消费者收入、职业、和消费偏好等数据,于是剑南春需要和消费者进行二次互动,包括一系列会员运营活动,借此来主动采集到所需要的新数据,这些数据可以称为 “用户生成数据”。对这两个数据进行联合加工,才可以更充分的发挥数据价值。

数据复合加工模式,最大特点是有用户参与,用户在参与的过程中继续生成新的数据,这些用户生成的内容经过采集、处理和应用,往往会发现曾未想到的新问题,我们找到新问题解决方法的同时,也就是在创造新的价值。

# 数据加工的三个层次

数据无论是单一加工还是复合加工,最终产出的数据加工品都会给人们的工作和生活带来或多或少的影响。从紧密度和影响力来考量,可以将数据加工过程分为点、线、面三个层次。这三个层次分别对应着三个层次的数据价值。

点层次加工没有改变数据本身,没有发生质变。线层次加工使数据发生了质变,数据变成了具有特定功能和形态的数据加工品。面层次的加工使在多个数据加工品的基础上再进行抽象整合,数据被加工成了更有广泛意义的产品。 假如把数据比做一张白纸,如果给纸染上各种不同的颜色就是点层次的加工,该加工过程没有改变纸的本质,不同颜色的纸是点层次的加工品。如果将白纸印上各式各样的图文内容,该加工过程就是线层次加工,对消费者而言,这些纸张是具有特定功能和用途的实用产品。如果用白纸生产出内容丰富的书籍,可以被更广泛的消费者使用,老少咸宜,该加工过程就属于面层次加工,这些书籍属于面层次的加工品。白纸作为原料,从加工品所产生的价值大小来判别,书籍的的价值>图文纸张>彩色纸张的价值层次。

据我观察,目前大部分企业开展的数字化转型仅能实现点-线层次的数据加工。有些企业搭建的IT系统仍停留在采集企业经营或生产过程中的各项数据以及初级数据的可视化呈现。比较理想的企业通过数据加工发现市场和生产规律和趋势,数据作为企业的决策依据,满足运营决策和机会预测需求。有的企业有能力将自身成熟的数字化产品出售给同类企业,具备面向某一特定行业提出解决问题方案的能力。例如,通用电气(GE)公司旗下的Predix数字化工业物联网系统,在行业中就创造了不菲的收入,虽然看起来这套技术比较成熟,但是该系统的数据加工依然处于线层次,它并没有更深层次的挖掘数据潜在的价值。

# 提升加工效能的方式

提升数据加工效能有三种通用方式,其分别是:自动化、实时化和模版化。其中自动化包括随时调取、标准规范、集中管理和机器学习等方式。实时化包括实时融合、即时动态、打通数据孤岛和实时托管等方式。模板化包括业务定制、场景预制等方式。这些方式都可以一定程度的提升数据产生的效能。

# 自动化

数据的自动化加工方式是指在没有人或较少人的直接参与下,通过某种自动处理技术,人们只需要调整参数,数据就可以被采集、处理或应用,端到端的实现预期目标。端到端的数据流要实现自动化,可以通过配置参数进行管理。丰富的数据加工策略被灵活组合,可以最大效能的满足用户对数据使用的差异化诉求。

自动化程度也有强弱差别。有的过程需要较多的人为干预,如公司的经营数据经过自动化加工并分析后得到一些决策建议,如果决策影响范围比较大,就必须人为介入,不能由机器完成。有些过程可以由机器完全自主完成,例如物联网技术越发成熟,嵌入式设备仪器在没有人为干预的情况下,可以直接与环境通过数据产生联系。这种不与人直接接触就能够自动完成信息感知和采集的主动计算方式是自动化处理数据未来的趋势。

# 实时化

数据的实时化加工方式是指数据可以实时贯穿在采集、处理和应用的整个过程,不仅数据源会自动刷新同步异地最新的数据,而且可以被及时处理和应用。随时在线处理数据,意味着需要一个媒介可以实时自动更新源数据,然后数据加工后传给需求方。通用电气公司(GE)的Predix倡导的实时智能运维,核心理念就是实现数据的实时化处理。

# 模板化

数据的模板化加工方式是指对不同业务场景的数据应用进行抽象,将所需的干净数据和配置参数保存为公共模板,使今后遇到相似或相关的用户需求时,可以自由组合使用模板,最大程度上重用这些数据,以快速响应和解决不同用户需求,从而提升数据产生价值的效能。

模板化的一般步骤是:首先,将每个相对独立的数据应用共性提取处理,并把它对外数据接口标准化,形成可以重用的模板。然后,将具有标准接口的可互换模板作为数据加工的基本单元,通过配置策略,形成面向特定行业的解决方案。

有一点需要强调,模板化设计和模块化设计并不相同。模块化设计是从技术方案来考虑的,指在工程领域的可适应设计和大规模定制设计中的方法,模块化设计是通过功能模块的不同组合实现产品定制化快速设计。而模板化是从用户角度来考虑的,产品具有某个功能和产品的其他功能可以互不相干,在满足用户需求的过程中,通过选择适当的配置参数,快速响应用户的定制化需求。