品牌网站建设

企业网站数据统计计算分为哪几种?

阅读  ·  发布日期 2021-05-24 23:27

数据计算按照计算结果输出的时间性可分为实时计算和离线计算,部分企业还会在实时计算和离线计算之间加入临时计算。数据计算模块对于大多数中小企业来说没有必要单独进行拆分...

详细信息
数据计算按照计算结果输出的时间性可分为实时计算和离线计算,部分企业还会在实时计算和离线计算之间加入临时计算。数据计算模块对于大多数中小企业来说没有必要单独进行拆分,原因是在较小的数据体量和应用需求下,完全可以通过数据实时计算获得结果。数据计算模块只对大中型企业或具备海量数据处理需求的企业有存在意义。
(1)实时计算
实时计算需求通常是基于实时性数据需求产生的,实时性数据需求基于特定场景和规则,受动态数据集、时间周期、算法变化等因素的综合影响。实时计算要求数据每次都是实时收集、实时计算、实时反馈、实时输出。实时计算的时间需求通常都是秒级甚至微秒级,Yahoo的S4、Twiter的storm都属于这一类。
实时计算的应用更多的是侧重于在线服务。实时计算的常见应用场景包括:站外基于用户行为的实时广告投放的RTB和DSP系统、站内基于用户行为的个性化推荐系统、站内广告竞价系统、网站实时信息推送服务、公司智能预警、站内搜索系统等。
例如,假设站内推荐引擎需要针对用户实时浏览行为进行挖掘,并在用户下一次点击后实时推荐出用户可能喜欢的产品或内容。算法层可能包括回归、协同过滤、关联、神经网络等,数据层需要综合用户属性、历史行为、站内搜索行为、站内购物行为,以及上一次行为,大型网站数据运算量可能达到上亿条,推荐结果要在用户下一个浏览的页面中直接体现。
(2)离线计算
离线计算相对于实时计算,区别在于时间窗口不需要实时性,同时由于离线计算有相对充裕的时间可以对全部数据进行运算挖掘,因此其数据结果相对实时计算更准确。离线计算一般是批量处理数据的过程,比如利用Hadoop的Mapreduce就属于离线计算类。
离线计算的数据处理时间通常是分钟或小时级,甚至可能是天;数据处理量通常在TB、PB级以上。
离线计算的应用场景包括:用户流失预警系统、基于用户购买的挽回系统、用户特征和规则提取系统、数据分析系统和产品报表、用户画像系统、渠道和用户价值系统等,除实时计算外的数据挖掘都采用离线计算方式实现。
(3)临时计算
临时计算是介于实时计算和离线计算之间的一种计算方式,它既能保持数据的相对实时性,又能兼顾数据结果的准确性,它是针对实时计算和离线计算中间层需求的一种过渡性解决方案。临时计算的处理时间在秒到分钟之间,数据处理量在GB到TB之间。