我们经常提到产品晃动数据统计,但所谓“数据”,有多少人能准确理解其含义?本文作者将为我们讲解,数据的完整概念究竟是什么。
我们为什么要讲数据?
《大数据时代》一书指出:数据目前未计入公司财务报表,但这种情况即将改变。
数据的价值不言而喻。
我们要如何认识数据?
从最根本处入手,明白源头,了解记载,逐步深入,把抽象的事物变得清晰可见。以周围的信息作为开端,加以梳理归纳。
那么,什么是数据?
从外在特征来看:资料是针对现实发生的事情所留下的标记,并且能够被识别出来,是关于现实事物的特征、情形以及彼此之间的联系等内容的记录,可以表现为具体的记号,或者是这些记号的集合。
它是一种能够被辨认的、概括性的标记。它不仅包含特定的数值,还可以是带有特定含义的文宇、字符、数字记号的拼合、图画、影像、声响等,同时也是实际事物的性质、多少、地点及其彼此间的联系的概括性体现。
从资源构成方面看:数据已经演变为数字经济发展中的关键资源。
我们称现在为“大数据时代”。
数据的种类有哪些?
不同的划分角度会有不同的类型。比较常用的是:
时间信息通常包含年份、月份、日期等要素。空间信息主要涉及位置坐标和地区说明,例如经度、纬度以及省、市名称。性质信息用来描述事物的特征。性质信息可以分成两类,一类是不存在增减顺序的数据科学与大数据技术就业前景分析,比如渠道编号、手机操作系统类型;另一类是存在增减顺序的,例如成绩优异者、表现中等者、成绩欠佳者。测量数值:表示物体大小或多少的数值,通常用于对比高低,例如年纪二十有八,身长一米八二。
举个栗子:
倩倩是某酒店的前台工作人员,她在2024年6月27日14:00这个时间点,于酒店大厅的位置,运用发票系统,为豆豆公司开具了三张发票,这三张发票的总金额为2000元。
那么,上述案例中
记录的时间为六月份的最后一天下午两点;采集的位置位于一家酒店的正门区域;涉及的软件系统包括票据管理平台以及豆豆企业法人信息;具体数量为三份文件;涉及金额为两千元整。
我们周围充斥着海量信息,各类信息对于不同个体而言价值各异,部分具有实际用途,部分则可能毫无用处。
因此,数据是有“质量”的。
那么,什么是“质量好”的数据呢?
优质的资料是有效的,经过适当的整理加工,可以带来相应的效益。
它们具有准确性、真实性、完整性、唯一性、一致性、关联性。
精确性即为稳定性,旨在判断并筛选出错误或无效的信息,不稳定的资料可能引发重大后果,进而导致欠缺妥当且欠佳的判断。
场景一:数据采集是否重复或遗漏。
场景二:字段是否拋送正确,比如手机号列中是否都是手机号。
数据应当确切地表现客观事物的实际状况或真实的业务活动,可靠的原始统计信息是统计工作的核心,是管理工作的根基,也是经营者做出正确经营抉择不可或缺的参考。
数据是否真实反映客观情况需要核实,例如要确认其中是否掺杂了测试产生的数据,是否混入了自充的数据贝语网校,是否还有机器人产生的数据。
核实信息真伪,因特定意图而进行的统计资料伪造行为,例如“人有多大胆,地有多大产”就是显著事例。
完整性:数据中想要分析的角度是否齐全,主要是事件或者维度。
该场景涉及事件完整性核查,比如针对支付服务测试环境生成的真实支付订单数据,需要确认是否已准确传送至数据中心。
场景二:检查信息是否齐全,比如银行流水,要确认发卡机构名称,同时也要看有无对应标记
独特性:旨在分辨并评估重复的、累赘的信息,倘若重复信息统计出的结果相同,尚可接受,倘若不一致,便会导致无休止的核对信息。
该事件是否具备唯一性,某个操作信息不应反复发送;例如,若客户完成了一次付款,但付款记录文档中却登记了两次。
场景二:字段是否具备唯一性特征。若在某个独立事件里,两个或更多字段在实质上指向同一个概念,为了提升数据操作的便捷程度,就必须舍弃其中某个字段。
一致性:所有系统的数据不存在信息含义及内容结构的冲突。
统计标准必须保持统一,针对相同数据,例如收入,某些统计时扣除手续费,另一些统计时则不扣除手续费。
场景二:表示相同内容但是字段名不一致,如,,。
关联性方面,数据关联问题表现为关联数据间的关系存在缺失或者不正确的情况
场景一:需要确认身份信息是否相同,比如玩家在游戏中登录和付费时,其账号编号是否为同一个。
场景二:需要确认各类用户信息是否相同,比如用户开始使用的途径编号数据科学与大数据技术就业前景分析,与完成登记的途径编号,以及进行支付的途径编号,这三者是否完全相同。
各类商品包含多种形式的信息记录。以面向个人用户的产品为例,涉及用户登记信息、身份验证记录、首次使用情况、账户启用记录、资金缴纳信息、会员身份资料等;而面向企业用户的产品,则涵盖客户注册情况、系统访问记录、机构构成资料、财务账户信息等相关内容。
数据类型多种多样,彼此关联,在辨识和使用数据时,通常要面临哪些难题?
以财务数据为例:
信息分散:各个系统自成体系,彼此之间缺乏连接,信息无法共享;不同系统间数据提取困难,需要人工逐一处理。统计标准不一:各项数据统计的标准不统一,同一个名称的指标,在不同系统中可能代表不同的含义和计算方式。数据质量低劣:数据在传输过程中没有有效的质量监控和校验机制,导致应用系统在使用前必须进行大量数据清理。数据需要脱离线上进行人工收集,过程中容易产生差错,这些差错又不容易被发现,因此需要返工重做的情况经常出现。收集的数据品质不高:各个业务部门分别进行数据采集,导致数据格式难以统一,提交上来的数据品质欠佳,给后续的汇总整理带来了繁重的负担。核心数据缺乏规范:核心数据没有进行集中管理维护,不同业务部门之间,以及业务部门与财务部门之间各自采用不同的数据标准。
这些困难要如何应对?
制定指标规范用以确立主数据准则,连接多个业务系统采集原始资料,并对资料执行清理工作,把清理完毕的资料借助映射关联变换为规范资料,再按照统计要求对规范资料实施归纳统计。
实现企业内外部数据的治理、采集、加工、应用全流程。
图源:中兴新云