企业网站建设

什么叫企业网站数据处理的欺骗性

阅读  ·  发布日期 2021-05-18 23:04

数据处理过程中的欺骗性是较难被察觉的一类欺骗方法,由于数据在进行结论展现前会经过取样、清洗、模型和分析方法选择以及应用等过程,每个过程都有可能存在问题。 (1)数据...

详细信息
数据处理过程中的欺骗性是较难被察觉的一类欺骗方法,由于数据在进行结论展现前会经过取样、清洗、模型和分析方法选择以及应用等过程,每个过程都有可能存在问题。
(1)数据样本问题
在进行数据分析之前可能存在需要抽样的问题,并且在数据量越大的情况下出现抽样的概率越大。合理的抽样有助于提高数据分析和挖掘的效率,能在保证数据质量的前提下减少人力和时间成本,因此抽样是大数据分析和挖掘的必要步骤。
数据抽样的方法因人而异,只要能代表全部样本特征的抽样方法都可用,因此不存在最好的抽样方法,只有最适合的抽样方法。如果抽样过程中出现问题,会直接影响后期所有的数据工作,恶意的抽样方法甚至会直接导致数据结论的错误。常见的数据抽样问题是抽样主体不同和抽样样本量不同。
抽样主体不同。相同的样本,在所有条件都相同的情况下,哪怕只有一个抽取逻辑不同,就可能导致后期的结果更符合或不符合“预期”。比如要执行用户挽回业务的动作,需要提炼出更具备挽回可能性的用户,假如抽样样本分别是最近6个月未访问和最近6个月未购物但有访问行为的用户,几乎可以不用做业务测试和效果分析,最终的结果必然是最近6个月有过访问行为的用户具备更高的挽回概率。
抽样样本量不同。严格来说样本量不同并不一定是故意欺骗,因为受客观环境的影响确实存在具备某些特征的用户样本很少,比如有年龄信息的用户在互联网公司的CRM系统中的比例占比很低,这是无法改变的。但即使是这样的客观情况,基于较大差异的样本量分析和挖掘的数据结果也很可能具备一定的偶然性,可信度较低。
(2)数据处理问题
数据处理指的是在开始分析数据之前的清洗工作,通常需要对样本进行整体数据观察,以确认样本数量、均值、极值、方差、标准差及数据范围等。数据在应对异常情况的处理时也会存在故意“说谎”的问题,最常见的异常情况包括极大值和极小值、缺失值、错误值等。每种异常值的处理方法都不同会对数据处理结果产生直接影响,并且异常值的样本数量越多,对数据处理结果的影响就越大。
举例:某公司一天的销售数据显示,当天的销售额异常高。在对数据进行整体观察后发现当天存在异常离群值——极大值,该值直接将当天的整体数据拉升到一个不可信的高度。该异常值可能是恶意下单、行单、测试订单,甚至是系统问题引起的,无论是哪种原因,都直接导致了销售额异常。如果忽视该异常值的处理,直接对包含异常值的数据样本进行分析与挖掘,结论就是利好的,但并不符合实际。
(3)数据分析问题
在数据分析和挖掘的过程中,同一种目标下都存在多种可供选择的分析方法与挖掘模型。不同的方法和模型产生的结果未必相同,尤其是具有定性分析的对比类分析,所对照的样本不同,结果就不一样。
举例:某公司一天的销售额是1000万元,该销售额是多是少?对比昨日、上周同期、上月同期、去年同期,甚至是随便选择一天的销售数据,结果可能都会存在很大的差异。这就意味着不同的对比对象决定了数据解读的方向。
对于该类数据取样、处理和分析的欺骗识别,在业务人员与数据分析师沟通的过程中,双方都要把基本的数据选取规则、处理方法沟通清楚,对其中明显的错误或失误进行及时纠正。