登陆注册
15339400000005

第5章 数据的收集管理和使用(2)

很多大公司正在数据管理这条路上学习,而当前我们面临着很多以往不曾遇见的问题。比如,我们是应该在各个部门里运作,还是集中管理数据?我们是应该在数据安全的前提下更开放,让更多人找到数据的价值,还是应该更封闭,让泄露数据的可能性更小?另外,个人隐私怎么去保护?我们怎么才能成为一家负责任的数据管理公司?这些都是代表性的难题。

现在,大型的互联网公司通常都同时拥有成百上千种在开发的项目,它们都在直接或间接地改变着数据,而在这种情况下,又如何保障数据安全?事实上,数据的源头已经“脏”了,而下游使用数据的人还不知道,同时,源头的数据使用者也没有责任告诉下游这些数据已经“脏”了。

所以,如果你数据使用得不好,这对你的发展影响也不会很大。但是如果你数据使用得好,而且将它作为公司的核心竞争力,那么你的麻烦就大了。因为你的数据源本来就来自各个地方,而每一个来源都没有责任要告诉你,今天从它那儿来的数据是正常的和可靠的。特别是大数据出现后,数据的精准与否更加重要。因为大数据在很多情况下,是利用外部数据来帮助内部数据进行调整的,如果你的内部数据难以保证“干净”的话,那么外部数据同样无法保证“干净”。

数据管理,是大数据行业的“脏活”、“苦活”和“累活”,是最悲催和最难解决的事情。如果没有这些背景做铺垫,人们对很多公司在做的所谓的大数据的运营就持有怀疑态度了。

注意数据分类的维度

在观察与分析数据中,我们要从中抽象出来,更好地将数据进行归类和整理,从而更加清晰地识别出数据的价值。

今天,我们多数人把自己关注的焦点放在结果上而忽略了过程,而事实上这些过程其实也蕴含了数据管理的过程和数据分类的过程。有些关键数据必须做好保护,若这几个数据变了,或者被污染了,前面的价值也就无法保证了。

有人肯定会问,管理数据是一个过程,能不能分解?能不能区分哪些元素是比较重要的?哪些是有代替品的?哪些是无可取代的?哪些是不可或缺的核心?其实,这些问题就包含数据战略。

所以,我们不可以含糊地应对,要从中抽象出来,更好地将数据进行归类和整理,从而更加清晰地给出数据的价值。

权威的数据公司从数据分类的角度将数据分为以下4种:

1.按照是否可以再生的标准来看,可以分为不可再生数据和可再生数据

不可再生数据通常就是最原始的数据,比如用户在访问网站时,浏览记录会追踪用户的行为,如果当时没有被记录下来,就没有其他数据来还原用户的行为了。这个有点像拿着相机拍闪电,抓拍很重要,一旦错过,闪电就不可能再重复刚才那一瞬间的光影了。因此,对于用户日志类等不可再生数据而言,必须要有很完善的保护措施和严格的权限设置。现在,很多系统都有备份多份数据的功能,理想情况应该是,因为磁盘损坏而造成数据丢失的案例应该越来越少。但是,因为系统升级失败和误操作等造成的数据丢失在各家公司都屡见不鲜,见怪不怪了。

可再生数据就是通过其他数据可以生成的数据,原则上,指标类数据的衍生数据都是可再生的——只要原始的不可再生数据还在,就可以通过重新运算来获得。不过千万不能因为“可再生”这个词语的存在,就对可再生数据不重视。有些可再生数据是通过很长时间的积累不断加工而成的,是长时间从海量数据中计算出来的,比如对某个用户在数个月内的连续购买行为产生的规律,如果未做保护,虽然仍然可再生,但是再生的时间却会给企业带来问题。因为即便对于有顶尖计算能力的公司来讲,都可能是数日,甚至是数周、数月,而这个时间过程可能就会对公司的某一项核心业务造成毁灭性的打击。

对不可再生的数据而言,已有的数据要严格保护,想要但是还没有的数据就要及早收集。举个例子,很多电子商务网站是不关注客户在商品详情页面有没有做滚屏操作的。如果这一类型的数据没有被记录下来,企业就无从知道详情页的有效性。当商品页面进行改版,需要对此类数据进行参考时,就没有办法来获得相应的数据支持,最后能做的就只能是等待在页面上进行布点开发,等待数据收集到之后再进行决策,这就造成了决策的延误。

对于可再生数据而言,要及早做好业务的预判和数据处理的规划,这样一来,数据在需要的时候就能够快速地获得应用,人们把这一数据称为数据中间层。

2.按照数据所处的存储层次来看,可以分为基础层、中间层和应用层

从数据的存储角度来说,数据有很多层次。基础层通常与原始数据基本一致,也就是仅仅存储最基本的数据,不做汇总,以尽量避免失真,从而用作其他数据研究的基础;中间层是基于基础层加工的数据,通常也被认为是数据仓库层,这些数据会根据不同的业务需求,按照不同的主体来进行存放;应用层则是针对具体数据问题的应用,比如作为解决具体问题的数据分析和数据挖掘的应用层的数据。

在存储层这个层面上,最大的问题就是数据的冗余和管理的混乱。尤其是对于一些拥有海量数据的大公司而言,数据的冗余问题尤为严重,由此造成了大量的浪费。

在大公司中,进行数据分析、开发、挖掘的人可能有数十甚至是数百人,这些人可能归属于不同的业务团队,为了满足不同的业务各自分析数据应用。这样一来,不同的人可能都从头开始建立起了一套包含基础层、中间层和应用层的数据,而彼此之间又没有合适的交流方式,也就造成了工作的浪费。那是不是应该把所有的数据进行更好的归纳或者管理呢?任何管理方法,无论是集中式管理,还是分散式管理,都各有利弊,而且人和业务多了之后,企业也很难进行集中式管理。专家给出的建议是,基础层必须统一,因为这是最基本的数据,而且基本数据是原始数据。除了备份的需求外没有必要在各个场合保留多份数据。只要保证这个数据有良好的元数据管理方式,就能极大地降低成本。

而对于中间层和应用层而言,则要视具体情况而定:如果公司的业务相对单一且成本压力比较大,则建议集中式管理;如果公司的业务量非常大,则可以由多个数据团队来进行分散式管理和应用,以保证基础层单位有最高的灵活性。

同类推荐
热门推荐
  • 凐灭虚空

    凐灭虚空

    我们现在所做的一切,只是为了拥有更美好的将来,不管为了谁,努力,加油!本书QQ群:512127997
  • 凤颜绝世:独家呆萌大小姐

    凤颜绝世:独家呆萌大小姐

    为毛师傅给了一个黑不溜秋的手链,就莫名其妙的穿越了?好吧,大家都说既来之,则安之!就宽宏大量的原谅师傅好了!可是废物?白痴?草包?纨绔?这又是要闹哪样??哼!这一世,她定要扭转乾坤,活出光彩!丹药?神兽?那又算什么?后面的小包子接着给力的一手抓起一把丹药,一手拿起某只一脸无辜的小神兽,“娘亲,你给的糖豆豆真好吃!这只小兽看起来真好吃,能不能做个红烧小兽?”
  • 冷血杀手

    冷血杀手

    战争并非人间才有,动物界也充满了争斗与厮杀。在《冷血杀手》里,看娇小美丽的箭毒蛙如何称霸丛林,看漏斗蜘蛛如何将猎物玩弄于股掌之间,看湾鳄如何给猎物来个“死亡翻滚”……《冷血杀手》生动揭示动物界鲜为人知的战斗场景,告诉小读者一个真实的大自然;并以高清晰图片从多个角度展现所选动物的风采,努力为孩子们奉献一道视觉上的美味大餐。
  • 农家贵妻

    农家贵妻

    重生成了古代农家女,家徒四壁穷不铃铛,渣男爹无情无义不是人,娘亲软弱无能任人欺,还有不知歪瓜裂枣未婚夫,为了娘亲和弟弟,打倒毒辣公主后娘,斗倒强悍婆婆,忽悠精明公公,且看,她如何从一个不起眼的村姑,一步步走上高处。--情节虚构,请勿模仿
  • 封道之门

    封道之门

    众神之战后,诸神尽皆陨落,源界崩灭化为无数大陆碎片遗失于浩瀚虚空。之后,三千大道显现而出演化出三千大界,无数源界种族入主其中为了栖息之地掀起长达无数年的惊天大战。自源界崩灭,天地法则冥冥中似被封印,修行之路变得难入上青天。每当修士实力晋升之时,会有劫封之门和劫封之力降临,阻挡修士晋升之途。且天降末世,以崩灭万物生灵为一纪,自三千大界天地初开至今已轮回过六纪。天地道显化万法,万物生灵皆为长生所求,可冥冥中却有天堑鸿沟难以跨越而正道永生。第七纪无数年后,世间已然万法争鸣,进入修炼鼎盛之世,在这天骄辈出的新纪元……
  • 茗倾天下

    茗倾天下

    她,叶家大小姐叶茗儿。天生七窍玲珑心,智计百出。二九年华独挑摇摇欲坠的家业族业。打丫鬟,灭渣男,贪心婶婶黑心叔伯……统统来过招,招招不落空。宅斗商战,手到擒来,鬼魅魍魉尽逃不出她纤纤掌心。谁说心机宅斗不上台面,只能是茶杯里的风暴?什么皇族皇子、天下第一才子、南疆赫赫毒司……各种美男为我折腰。巧手煮一杯清茶倾天下英豪,看我江山为杯,权谋为茶,绕指缠绵为水,泡出堂堂盛世天下。
  • 岕茶汇抄

    岕茶汇抄

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 徒步千里只因为爱求婚

    徒步千里只因为爱求婚

    ???游记中8个故事情节为杜撰,游记历程乃作者历经九天半的时间徒步穿越粤东四市(深圳、惠州、河源、梅州)的真实写照。从2014年1月23日至2月2日的时间里途经深圳、惠州、河源,梅州,在第十天的中午终抵达作者的故乡兴宁市,全程徒步公里数大约350公里。故事情节是以徒步千里求婚为主题贯穿全文,也是为了枯燥乏味的游记更加生动撩人。作者奇思妙想把每一天的走的历程杜撰成一个搞笑或动人心弦的小故事,让读者在品味作者旅途中既感受到一路上的风光美景,也能读出一番乐趣或感悟。
  • 苍海惊天悬案

    苍海惊天悬案

    两个高智商的大学生,鬼使神差的卷入了一场又一场的诡异案件,他们能否找到最后的真相
  • 源起拾梦

    源起拾梦

    人生如镜如梦,从来就是一场空。带着本世的伤害闯入另一空间重启一段人生又能收获什么?爱情、亲情、友情?抑或依旧两手空空?一人、一琴、一兽,孤单的时空,纷繁的家族之争,言不尽的情爱之争……争与不争?且看女主如何演绎一段新的人生……