• 什么样是人性化的服务?

    想听一首歌,不必想好其歌名,到搜索引擎里去搜索、下载;而是输入现在的心情,比如“激昂”,播放器就自动播放出《男儿当自强》这样的歌曲,而且一首接着一首。

    想去旅游,不必苦思要去什么具体的城市,而是输入大概想法,比如“浪漫的周末度假”,就能马上看到十个建议:里面包括一家临海宾馆的情侣房、烛光晚餐、一套在周五晚起飞周日晚返归的机票。

    要完成这些人性化服务靠搜索引擎是不行的,得靠数据挖掘。现在,数据挖掘的各种应用离为我们提供上面这些真实服务已经越来越近了。


    数据挖掘(Data Mining)与我们所熟悉的信息检索(Information Retrieval)的不同之处在于:信息检索是针对数据的明显特征来寻找信息,比如Google等搜索引擎就是寻找含有某关键词的网页、并且根据链接数来判断其重要性。而数据挖掘则要复杂很多,其目的是要在大量数据中“挖掘出有趣的可理解的知识”,这是搜索引擎不能完成的。所以数据挖掘也叫数据库中知识发现(Knowledge Discovery in DatabaseKDD)

    本质上,数据挖掘能够把海量数据变成可被人类可直接利用的信息,是一个“把冰冷信息人性化”的过程。现在,针对数据挖掘的前沿应用已经非常之多,覆盖了不同的领域,以不同的方式呈现出来。今后,互联网用户所接触到的不再只会是传统搜索引擎输出的一排排的网页,而可能是温情脉脉的令自己更加亲切和感动的方式。

    A音乐。

    听音乐的确是件放松的事情,所以应该尽可能地简单。所谓简单,就是你说出你现在的心情,是感伤、怀旧、励志,还是安静?那么播放器就自动找出符合这个心情的风格的歌曲。这就是网易有道搜索引擎的新产品“音乐随心听”的表达方式。

    有道随心听提供包括伤感、爱情、温馨、安静等十几类心情,以及相应的歌曲。只要点击某种心情,就会自动播放相应的歌曲。并且,即使点击同一个心情,上一次和下一次播出的歌曲都是不一样的。比如“励志”这个心情,所播出的歌曲是《龙的传人》,《亚洲雄风》,《永远不要说放弃》,《永远不回头》;而第二次点击“励志”,出来的是《红日》,《愚公移山》,《壮志雄心》,《没什么不可以》。是不是还算靠谱?

    有道所采用的工具就是数据挖掘。

    互联网用户会在很多场合,比如博客和论坛里,留下很多自己对音乐的看法,比如在某种心情下推荐的歌曲,在某种情绪下整理了一张歌单。就留下了比如“今天我好亢奋,我在听《男儿当自强》”这样的线索。有道把这千千万万个用户的“声音”整合起来,通过提炼、去除噪音、自动聚合相关词、配对,就实现了心情和音乐的一一对应。

    Google音乐里的“挑歌”功能,与有道随心听也神似。Google挑歌的方式是:提供可供用户自己调节的音调、音色等搜索选项,每一个选项都有一个滑块可供自由调节。用鼠标点击拖动滑块,通过节奏的舒缓或强烈、音调的低沉或尖锐、音色的丰富或单纯来查询最希望听到的音乐。笔者尝试挑出一首“节奏舒缓,声调低沉,音色适中”的歌,“挑歌”输出的结果是张学友的《相思风雨中》和徐小凤的《蒙蒙夜雨》。

    这两个产品会完全改变以往的寻找音乐的方式:只有当你想好某一首歌的名字后,才能去搜索引擎里把它找出来。其实音乐的历史远远早于文字,所以音乐应当回归人类沟通的本能,挑歌和随心听的功能可以用音乐自身特性去搜索音乐,让音乐跨越语言和文字的障碍,成为人类最自然的沟通方式。

     

    广告。

    创业公司PeerSet新发布了一个广告数据工具,能够通过网页内容分析提供网络用户“心理”方面的特征。Peerset的技术能够有机的把用户的兴趣、价值观、生活方式、对品牌的态度关联在一起。让广告主了解到这些背景信息。

    基本上,Peerset的套路是跟踪社交媒体上的各种互动,试图加以解释、并且把各种信息加以关联,然后为广告主给出结果。比如,如果广告的特征“时尚”,那么Peerset就可能根据对信息的检测和梳理得出:那些谈论“情欲都市”和“麦当娜”的人就是合适的受众。Peerset就是要通过“心理”方面的特征把对不同广告合适的不同人群找出来。

    Peerset不只是提供关于目标人群的数据库给广告主,还会整合当前的广告系统,直接把相应的广告放到合适的网页位置上去。比如,对于想做广告的时尚服装广告主,Peerset会在接单以后,直接把广告投放到Facebook上一个喜欢《情欲都市》电影的那个用户的页面上。他的那些喜欢跟他交流比如《情欲都市》这样的电影的朋友都会看到。

    这种广告方式又与搜索引擎的广告有了本质的不同。搜索引擎广告的优势在于对准了有明确购买倾向的用户,而Peerset广告能够把有潜在购买倾向的用户“挖掘”出来。是的,这种方式与传统的品牌展示广告目的相似,不过,Peerset要更有效率。因为品牌广告是撒大网,而Peerset试图做到“精准”匹配。

     

    调研。

    Facebook手里有3亿用户和每天4000万次状态更新,利用如此巨大的海量数据,可以对几乎任何话题做评测。诸如人们最关注的品牌,最关心的政治问题。于是工程师们决定利用这些数据,来评测国民幸福指数(Gross National Happiness。这个新应用将最大可能地评测美国Facebook用户是幸福还是悲观的。产品开发人员是这样描述的:

    把来自全国各地的数百万Facebook用户的状态更新数据集合在一起,可以说明国民的幸福感有多强。评测国民感到幸运、幸福,以及对生活满意的程度是这项国民幸福指数评测项目的一部分。当用户在状态更新中使用比平时多的积极词汇(或少的消极词汇)时,表示这一天比平时更幸福。

    这些数据都是匿名从Facebook论坛上收集的。为确定某些状态信息究竟表示幸福还是悲伤,或两者都不是,这项应用还必须搜索开发人员确定的与每个情绪相联系的流行短语和词汇。结果是:周一人们的幸福指数最低,然后一直到周末,幸福指数不断上升,在下一周开始时,又跌至最低。通常,幸福指数在假期附近较高。今年6月底,人们的幸福指数急速下滑,这可能与流行音乐之王Michael Jackson的逝世有关。

     

    旅游。

    Center’d是由YahooLocal这款产品的前总经理Dulski掌舵的一个活动组织网站,也就是把促成一个聚会活动所需要的三要素便捷的组织起来:人,地点,计划(peopleplaceplan)。不过,Cener’d特别之处是,在其搜索结果里加入了“语义分析”,号称其结果要比同类网站的“关键词”搜索结果更好。

    Center’d已经积累了100万次的针对活动的搜索,并把这些搜索根据其目的进行分类。为此,Center’d的蜘蛛大量的分析发生在网上的关于某个活动的谈话或者讨论,以对这个活动打上“正面”或者“负面”的标签。然后形成数据库,再形成图表。

    Dulski认为,这种基于语义的分析要比普通的关键词搜索更好,因为能够筛除很多不精确的匹配。比如,一个“不适合同性恋的Party”,就不会出现在一个对“同性恋Party”做搜索的结果里。因为Center’d已经通过语义分析知道了,“同性恋”前面的“不合适”就表示一个“负面”评价。

    基于这个数据库,Center’d就能够形成一个针对不同标准的活动指南。比如,在北京的浪漫之旅、廉价旅游四川,等等。这些特定标准的搜索结果大部分由数据库自动生成,但也有少量编辑参与其中,以确保质量。

    Dulski说,很多用户来到Center’d时其实脑袋里并没有一个明确的目的,所以诸如“北京的浪漫之旅”或者“儿童们的六一节日”这样的柔性、感性、概念性的东西能够容易的激起他们的兴趣,并且一步步诱导他们完成一次活动的准备。看,这个看法跟Google挑歌和有道随心听的逻辑是多么神似。唯一不同的是所针对的对象不一样,一个是音乐,一个是旅游。

    任何服务或者工具面对的都不是一个对自己需求有明确认识的理性人,而是一个有着一点感觉,但需要被引导的感性人。这无疑是一条正确的发展之路。

     

    产品改进。

    数据挖掘也在帮助产品经理们改善用户体验。在很多大的互联网公司,这实际上成为了辅佐公司战略的数字神经系统。

    互联网公司一般都记录了所有用户在其网站(尤其是网络游戏和社交网络)上的所有点击、行为路径、相应的时间。如果用户一尝试一个新产品,用一两秒钟就退出来了,说明这个可能有问题,而不是用户不想用;而其中出问题的很可能就在用户的最后一次点击发生的地方。

    比如腾讯就一款网游中的子弹射出后的弹道设置做研究,根据对用户的挖掘数据认为,游戏原本设计的逼真效果对中国用户并不合适,而用户对一种新设计的“比较爽快的、节奏快的、鲜明的”的弹道设计更加兴奋。

    在网游业,数据挖掘的最系统应用就是盛大的“平台”战略。也就是,把任意一款游戏拿到其从04年就开始建立的一套“评测”体系去走流程,就可以知道这款游戏到底会不会受到玩家的欢迎。其根据,就来自于盛大在过于运营的上百款游戏的用户数据的记录、分析、关联、最后建立模型。基于这套评测流程,盛大就可以对一款新游戏做出判断,到底该不该运营、如何去改进、潜力有多大,都有了一套从数字出发的答案。

     

    Tag:
  • 连岳:把悲观留在心里 

    因为我昨天只参加了一个小组的封闭年会,参加中文网志年会的时间非常短,所以给大家道个歉,说声对不起。这次我的活动的重点是放在《南方都市报》主办的一个论坛,下午和另外两位老师的论坛,大概有三个小时吧,因为还要准备一些材料,所以把重点放在那个地方了。 

    《南方都市报》的论坛,我觉得它的主题和我们网志年会的主题“和而不同,多志兴邦”是很贴切的,都是讲公民社会的形成和改变的事。我觉得其实“博客 ”现在在做的就是这个事。因为很多人向我提问的时候指出”我悲观”,意思是说:自己说的和做的以及别人做的一切都没有用。当时我讲的一个主题就是说,在现阶段我们说悲观,它是一个不道德的事;只不过如果你是一个悲观主义者,你要把这个东西放到你的心里。 

    现在我们每个的公民社会,包括这种“博客”的力量能不能顺导社会进步,刚开始还只是看到几个结成网络的点,很幼小、很无聊、很自不量力。在这个时候你是要打击他呢?还是跟他说你的这个东西是没有用的?如果你说这个东西是没有用的话,它没有用的话,它又如何发生,又如何发展呢?这个公民社会的萌芽就扼杀了。所以这个时候我认为说,在现阶段,中国现阶段,悲观主义是不道德的事。 

    我们为什么会写博客?会来参加这个中文网志年会?大家会在一起沟通?就表示说,我们相信自己的力量,我们相信能改变这个社会。我们能相信自己,也一定要相信别人。这是因为我认为我们这里的每一个人都不是比别人更高明的,别人的力量一点不比我们弱小。网志年会这一些人,这一百多个人,这一百多个人做事情、说话,它能改变这个社会多少?说实话,很有可能一点都改变不了这个社会,那么它的作用在什么地方呢?它的作用是每个人都是一个种子,你要把自己当成种子,也许一年以后每个人能影响四十个人,两年以后每个人能影响一万个人,这时候社会就会开始改变。 

    我们这些想改变社会的人,在现阶段不会存在一个认识的误区?其实我觉得存在两个误区。一个就是说我们存在“传道”的焦虑,当我们的影响力不够的时候,或是我们说一些重要的话题的时候,旁边没有人马上应和,或是社会不马上改变的话,我们就会很焦虑,我们就会马上说,我们做的可能是没有用的东西。但这个公民社会,往往正常的社会,它的进步是很缓慢的。在美国,每个人能投一票,所有的人他只能投一票。奥巴马是一票,小布什是一票,亿万富翁是一票,穷人是一票。所以我觉得在公民社会,我们每一个博客每一个人,我们写好自己的博客,做好自己的东西,我们就赚到了,我们就完成了公民社会该完成的事情。如果你的博客有两个人阅读,你就赚到了一票。所以我觉得说,我们没有必要,完全没有必要悲观,更加不能悲观。就说如果你能参加网志年会的话,你一定是影响了一批人的,你一定应该是一个乐观主义者,而你实际上的效应就是一个乐观主义者。 

    原来我经常会说,中国没有救了,我们做了没有用的。在07年之前我会说这种话,到07年之后,我意识到,这种话不能说了,我们永远不能说这种话。我们永远要鼓励做事情的人,永远不能打击做事情的人。有时候悲观主义者会形成一种抒情冷血。一个声音出来以后,我们写一篇文章,社会没有搞定,事情没有改变;然后我们就抒情说,没有用了,中国没有救了,中国人的人性就是这个样子。你会觉得好像很美,像林黛玉的抒情姿态一般。但这个事情我们应该要有一种意识,我们不再说这样的话。我们要觉得说这样的话是一个非常不道德的事情。 

    第二,我们要把悲观主义,尽管其实我们可能天生就是悲观主义者,但也要把悲观主义留在自己的心里,不要说出来,权且当成一个记忆。 

    还有,我觉得说,我们要怎么样防止成为一个受迫害幻想狂。或者换一个角度讲,也许在座的各位多多少少受过迫害。就是在迫害的状态下,我们怎么保持正常的心态、正常的心境。这也是我在去年想通的一个事情。 

    去年刚开始知道的时候,每天我电话拿起来,我就觉得非常恐慌,是不是会有人在旁听,我当时一直想这个问题,突然就想通了。如果说这个公权力知道一个人不停的批评它,不停的否认它的事情,它没有采取这个手段,反而不正常的。这个手段是你允许的,我给你。那我在电话说我该说的话,我不让它影响我的生活。我照样在电话里和老婆打情骂俏,当这些人不存在。就不让它介入到我的生活。我做一个想法、每出一次门都弄得很紧张,我觉得这对我精神上是有损害的。我要恢复到一个很平和的状态,所以完全没有必要有受迫害的想法。 

    这一点很重要,我们要,即使我们受到迫害,即使你觉得受到压力,也要保持一个平和的心态。该享受生活就享受生活,该写博客就写博客。尽量使自己不要成为一个被迫害者,甚至成为一个受迫害幻想狂。这是我在去年这段时间里想清楚的几点事情。可能很多人没有想通,迟一点就想通了。其他也没有别的可说了,谢谢大家。 

    Tag:
  • 3、数据挖掘可以做什么?

    数据挖掘的用处有很多,在这里我只想从技术和应用两个层面来简单谈谈。

    从技术层面来说,按照数据挖掘产出的知识可以粗分为两大类:描述型挖掘和预测型挖掘。描述型挖掘是对现有数据的进一步精炼和归纳,从中抽取中更宏观的反映数据特征的概念描述。举个例子来说,某家银行有几百万客户,数据仓库中存储了每个客户的人口统计信息、账户信息、交易信息、客服联络信息等详细数据。但是银行不可能清楚地了解每位客户是什么样的客户,客户的消费模式到底是怎样的?这时一般需要把全体客户进行细分,划分为几个客户群,而且这种划分可以保证具有相似行为、相似价值的客户会被放入同一个群组中。有了这些客户群,银行就能更容易地发现营销机会并制定营销战略。这个例子中所用的挖掘技术是聚类模型,它就是一种典型的描述型挖掘。

    预测型挖掘,顾名思义,就是建立的挖掘模型具备预测能力。这种预测能力可能包括预测哪些客户下个月会流失,哪些客户对促销活动会积极响应,哪些客户的未来价值会成长以及成长多少等等。预测型挖掘常常对企业运营具有更强的指导作用,从而更快地见效。

    从应用层面来说,数据挖掘可以应用到很多行业中,包括电信、银行、证券、保险、制造、因特网等等。抛开具体行业的特定应用不谈,在各个行业中一般都会把数据挖掘应用在客户关系管理(CRM)之中。在CRM中的数据挖掘应用,包括客户细分、客户价值分析、客户获取、客户保持、交叉销售和提升销售等等。此外,信用评分、欺诈侦测和文本挖掘等也是常见的应用。

    客户细分已经在描述型挖掘的例子中予以阐述,不再赘言。

    准确地评价客户价值是企业成功运营的关键。这里的客户价值不仅仅包括客户当前给企业带来的收入,还包括消耗在客户身上的各种成本,以及客户未来会给企业带来多少价值。把客户的当前价值和未来价值合起来就构成了对客户整个生命周期(从成为企业的客户到最终流失)价值的综合评价,即LTVLifeTime Value)。当我们明确了解客户价值之后,就可以有针对性地区分对待,尽量留住高价值客户,推动中低价值的客户向高价值发展,并为不同价值的客户提供不同等级的服务。

     

    图: 客户生命周期各阶段的数据挖掘应用

    上图中给出了客户生命周期各个阶段中可以用到的数据挖掘,横轴为时间轴,纵轴则为客户在不同时间点给企业带来的利润。整个生命周期可以分为四阶段:起始期(从潜在客户变成新客户)、发展期(逐步扩大使用产品的范围和数量)、成熟期(对企业的利润贡献达到顶峰)、终止期(逐渐远去流失)。

    在客户生命周期的不同阶段,数据挖掘可以帮我们做什么呢?在起始期,由于潜在客户尚未与企业有多少接触,对各种品牌和产品缺乏了解和认知,他还在观望,看看有没有适合自己的产品。此时潜在客户基本上还谈不上对企业有多高的忠诚度,我们可以运用数据挖掘技术来协助锁定目标潜在客户群,通过对现有客户和营销活动的分析,发现哪些人最有可能变成我们的客户,通过什么促销手段和渠道来更有效地打动他,并评价如果把他发展为客户之后会给企业带来多少收益。这种数据挖掘应用称为“客户获取”。

    在发展期,客户对企业的产品和服务使用频率相对偏低,用量也不大,这时可以运用数据挖掘技术来激活睡眠客户,刺激用户购买更多不同的产品(交叉销售),或者扩大现有产品的购买量(提升销售)。数据挖掘技术中的关联分析可以帮助企业发现哪些产品之间的关联程度最高,预测技术可以帮助我们了解客户对特定营销活动是否会积极响应,聚类技术则可以帮助我们找到具有相似行为和偏好的客户群体,从而进一步推动客户向高价值客户发展。

    在成熟期,客户对企业的利润贡献已经最大化。但这时企业不能躺在功劳簿上睡大觉,而应该居安思危,谨防优质客户的衰退和流失,及时对激烈的市场竞争作出反应。此时可以运用数据挖掘中的预测技术来及早发现哪些客户已经出现了异动,可能会流失,并采取有针对性的挽留行动。

    实际上,在整个客户生命周期,我们都要不断对客户的行为和价值进行分析,随时掌握他们的偏好和异动,这样才能加强企业对客户的洞察力,对运营进行有力的指导和促进。而这些分析都是数据挖掘可以帮助我们做到的。

     

    4、数据挖掘流程及主流工具

    限于篇幅,本文并不想对数据挖掘的技术多加阐述,读者可以阅读一些经典教材来获得相应的知识,比如《数据挖掘:概念与技术》、《数据挖掘原理》、《机器学习》等。一般来说,常用的数据挖掘技术包括:用于客户细分的聚类算法,用于交叉销售的关联分析和序列分析算法,用于客户价值分析、流失分析、交叉销售的决策树、神经网络和回归等预测算法,用于互联网的文本挖掘和Web分析等等。

    Eric King在“如何在数据挖掘上投资:避免预测型分析中昂贵的项目陷阱的框架”一文(发表于200510月的“DM Review”)中主张数据挖掘是一段旅程,而非终点。他把这段旅程定义为数据挖掘过程。该过程包含如下要素:

    l         一个发现过程

    l         具有灵活的框架

    l         按照清晰定义的策略进行

    l         包含多个检查点

    l         多次定期的评估

    l         允许在反馈环路中对函数进行调整

    l         组织为叠代式的架构

    很多数据挖掘工具的厂商都对这个过程进行了简化,使之更加清晰。SAS将数据挖掘过程划分为五个阶段: 抽样(Sample),探索(Explore),处理(Manipulate),建模(Model),评估(Assess)。过去人们常用循环式的饮水器来比喻数据挖掘过程。水(数据)首先涌上第一层(分析阶段),形成漩涡(精炼和反馈),等到聚积了足够多“已经处理过”的水之后,就溢出来流到下一个更低的层中。不断地进行这种“处理”,直到水流到最低层。在那里它被抽回顶层,开始新一轮的“处理”。数据挖掘和这种层次式的叠代过程非常相像。甚至在很多数据挖掘算法的内部处理也是如此,比如神经网络算法,就是在数据集上多次运行(epochs),直至发现最优解。

    但使用饮水器来比喻数据挖掘过程还不算恰当,因为它没有反映出反馈环路,而反馈环路在数据挖掘过程中是很常见的。例如,通过数据评估可以发现异常的数据,从而要求从源系统中抽取更多的数据。或者,在建模之后,会发现需要更多的记录才能反映总体的分布。

    “工欲善其事,必先利其器”。当企业打算运用数据挖掘来改善企业运营时,选择合适的数据挖掘工具就变得很重要了。工具的选择通常会从以下角度来考虑(同时还需结合企业的信息化水平、具体的业务目标、要处理的数据量、对业务流程的改变等因素):

    l         数据存取能力:能否访问各种类型的数据,数据接口的效率如何

    l         数据准备能力:数据处理能力,包括抽样、过滤、变换、整合、探索等等

    l         模型算法的广度和深度:是否支持各种挖掘算法,多模型的比较及部署

    l         可视化能力:多种图形展示,交互操作

    l         性能:软硬件平台支持,并行,多CPU,多线程,分布式架构

    l         对各种用户和行业解决方案的支持能力

    l         其它能力支持:中文支持,友好界面,批处理,API,元数据管理等

    企业也可以参考第三方评估机构的评测结果,来选择数据挖掘工具,比较权威的评估机构包括GartnerIDC等等。以下引用Gartner2007年第2季度发布的“客户数据挖掘魔力象限”评估报告的部分内容,向大家简单介绍主流的数据挖掘产品。

    “最近,著名软件评测商Gartner对数据挖掘领域软件进行了评测,最终的结果是,SASSPSS以及领域中的传统地位仍然位于数据挖掘的领导者象限。异军突起的是KXENPortrait Software,作为远见卓识家而出现。挑战者是一片空白,其它的十余个厂商占据着利基市场。”

    “在此项评测中,共有SASSPSSKXENPortrait SoftwareAngoss SoftwareUnicaThinkAnalyticsFair IsaacInfor CRM Epiphany等九家公司入选,这代表着当今的市场情况,在中国市场,主要的数据挖掘工具是SASKXENSPSS。”

    2006年第1季度的评估报告中,还曾包含ChordiantTeradata等厂商。

    评测的结果参见下图。评估标准主要划分为两个角度:执行力(纵轴)和视角完整性(横轴)。其中执行力的评估包括七个评估标准,分别是产品/服务、市场反应和跟踪记录、总体生存能力、客户体验、市场执行、销售执行/定价和运营能力。视角完整性的评估包括八个评估标准,分别是产品策略、市场理解力、市场策略、销售策略、垂直/行业策略、商业模型、创新能力和地理战略。

     

    图: Gartner客户数据挖掘魔力象限(2007年第2季度)

    在上图中,把主流的数据挖掘厂商划分为四个象限,分别是领导者(Leaders)、挑战者(Challengers)、远见卓识家(visionaries)和利基市场(niche players)。以下对数据挖掘领域内的两大领导厂商SASSPSS分别简要介绍。

    SAS

     

    在数据挖掘市场,SAS是最大的厂商,它有众多的分析师,最多的客户经验,是数据挖掘的传统标准工具,外包和服务提供商都非常熟悉SAS的产品。

    SAS有最完整的数据准备和分析工具,很少有SAS不能解决的问题。寻求“一站式商店”平台的企业应该考虑SAS

    SAS拥有广泛的数据挖掘成功案例,从而让客户对SAS充满信心。

    SPSS

     

    SPSS在分析各种类型的数据有最广泛的视角(行为、人口统计学、调查、非结构化数据等)。试图充分利用多种数据类型(尤其网页,流量,文本,调查)的企业应该考虑SPSS

    SPSS对于模型管理环境有最好的视角,这可以更好的管理几个数据挖掘工具的结果。

    Tag:
  • 当数据遇到挖掘

    SAS软件有限公司资深顾问 张磊博士

     

    信息化的浪潮给全世界带来的翻天覆地的变化。当你使用信用卡刷卡消费的时候,刷卡交易的信息和购物情况已经进入了银行和商场的数据库;当你拿起手机拨打电话的时候,话单的信息已经进入了电信运营商的数据库;当你在医院挂号就医的时候,门诊和处方的信息已经进入了医院的数据库;当你使用公交卡乘车的时候,购买车票的信息也已经进入了公交公司的数据库。各种的情况都在表明,信息无处不在,而且每时每刻都有大量新的信息在产生,如同上下班高峰期的人流,拥挤而又嘈杂。

    这还只是一幅幅静止的画面,如果让我们以时间为胶片,把这些画面连接起来,更会真切地发现在最近的二三十年内,企业中积累的各种数据已经远远超乎我们的想像。就像观看一部科幻式的灾难片,日积月累的数据如同因全球变暖而不断上升的海平面,一步步逼近我们生存的陆地,那些我们曾经熟悉的大楼、公园、道路,则在一个个沉没……

    是否觉得有些危言耸听?但是对于企业来说,这并不是一个神话。让我来举一个例子,你就可以看到数据量的急速增长给企业带来多么大的困扰和改变。萨姆·沃尔顿1918年出生于美国俄克拉何马的金菲舍镇,是一个土生土长的农村人,他7岁就开始送牛奶和报纸,另外还饲养兔子和鸽子出售,学费与生活费用大部分全靠自己打工筹措,取得了萨姆大学的商学士学位。1945年他退伍后,萨姆在阿肯色州的本顿维尔小镇开了一家廉价商店,这是一家典型的旧式杂货店,50英尺宽,100英尺深,面临前大街,位于市中心,向外远望看得到铁路。商店里有现金收银机,整个店堂每个柜台后面都有供店员走动的通道,店员们坐等着顾客上门。创业之初,客户非常少,萨姆可以记住那些熟客的名字,知道他们喜欢什么样的杂货商品,常用的是哪些品牌,什么商品最好卖,下个月应该进什么货等等。此时他对数据的处理分析只需通过纸笔就可以了。

    经过几十年的锲而不舍的奋斗,萨姆的连锁店已经遍布全球,2006年的营收高达3511亿美元,超过美国石油巨头埃克森美孚公司,占据美国“财富”杂志世界五百强的榜首。萨姆的公司名字就叫做“沃尔玛”(WalMart)。

    作为全球第一大的零售业巨头,今天的规模已远非当年创业时可比了,遍布14个国家,7131家连锁店,近200万员工,上亿的客户。每天大量的交易信息都在源源不断地传输到公司总部的数据仓库,数据容量超过了数百TB。如何从信息的海洋中发现营销机会,找到有利可图的客户,调整货物的摆放位置,协调物流的计划和调度等等问题,已经不能简单地根据人的经验、通过查看报表或者手工分析来获取答案,人们需要更加依赖于计算机的处理能力,需要更高级的分析技术来协助从海量数据中发现潜在的规律。

    这种高级的分析技术之一就是数据挖掘,而数据挖掘领域里最典型的案例就是“啤酒与尿布”的故事。

     

    1、三个小故事

    故事一、啤酒与尿布

    世界零售连锁企业巨头沃尔玛拥有世界上最大的数据仓库系统之一,里面存放了各个门店的详细交易信息。为了能够准确了解顾客的购买习惯,沃尔玛利对顾客的购物行为进行了购物篮分析,想知道顾客经常一起购买的商品有哪些,结果他们有了意外的发现:“跟尿布一起购买最多的商品竟是啤酒!”

    这是数据挖掘技术对历史数据进行分析的结果,它符合现实情况吗?是否是一个有用的知识?是否有利用价值?

    于是,沃尔玛派出市场调查人员和分析师对这一挖掘结果进行调查分析。经过大量实际调查和分析,揭示了一个隐藏在“尿布与啤酒”背后的美国人的一种行为模式:一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。

    既然尿布与啤酒一起被购买的机会很多,于是沃尔玛就将尿布与啤酒并排摆放在一起,结果是尿布与啤酒的销售量双双增长。

    按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析,沃尔玛是不可能发现数据内在这一有价值的规律的。

     

    故事二、犯罪的根源

    格洛斯特郡是英格兰西部的一个郡,大约有五十多万人口。在有一段时间内,发生了多起抢劫案,民众不再感觉到安全,对郡警察局的舆论压力也陡然增加了,强烈要求及时破获这些案件,并避免案件的进一步发生。警方一方面在加快破案的同时,也在努力思考怎么样才可以降低发案率。

    按照传统的做法,一般会采取这样的措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常的人员加强盘查等等。然而,格洛斯特郡警察局发现,这些措施的收效甚微,发案率依然居高不下,因为抢劫案的发案地点并不集中,分散在多个不同的街区,这让巡逻警力的安排显得捉襟见肘,难以全面顾及。

    此时,来自警察局内部的分析系统却有了新的发现。系统中保存了多年的案件和案犯的卷宗信息,通过利用数据挖掘等分析技术,揭示出最近这段时间的抢劫犯具有一些非常显著的特征:他们大多是没有固定住所,无家可归,而且也没有稳定的工作。另外,在很多抢劫案发生前,这些罪犯都吸食了毒品。正是在毒品的刺激作用下,他们失去了自控能力,临时见财起意,对单身女性或情侣实施抢劫。

    新的发现给警察局带来了新的思路,警方当机立断,对原来的增加警力加强巡逻的做法进行了调整,改为采取如下措施:一是加强对无业人员和有吸毒前科人员的管理,并通过社会福利机构对他们实施救助;然后,加强了对毒品交易易发场所的严打和治理,从源头上掐断毒品的供应。

    治理得到了良好的效果,抢劫案的发案率迅速降低,格洛斯特郡的人们又重新恢复了平静的生活。

     

    故事三、电邮加新闻

    Yahoo是第一家招募了首席数据官的公司,以验证对公司而言,数据的确是一笔真实而有战略意义的财富。目标是通过提供以客户为中心的数据平台和洞察力服务,激励用户积极参与,对营销方案进行创新,从而为消费者和卖家带来价值。Usama Fayyad博士是Yahoo的首席数据官,他在和KDnuggetsGregory的访谈中介绍了一些Yahoo在数据挖掘方面的成功案例。

    “产品整合:一个例子就是你今天在Yahoo电子邮箱上看到的,数据挖掘的可视结果。通过对用户使用行为的意外模式分析,我们发现在每次会话中,人们阅读邮件和阅读新闻的行为之间存在很强的相关关系。我们把这个发现传达给Yahoo电子邮箱产品小组,他们首先想到的就是验证这种关系的影响:在一组测试用户的邮箱首页上显示一个新闻模块,其中的新闻标题被醒目显示。”

    “对于象电子邮箱这种产品,最头痛的问题就是如何获取新的‘轻量级用户’,并推动他们的用量,使之变成‘重量级用户’。如果你做到了,那么流失率就会显著下降。实际上,在我们的试验中,最显著的一组流失率下降了40%。于是Yahoo立刻开发并完善了新闻模块,并嵌入Yahoo电子邮箱的首页,到现在,上亿的消费者都可以看到并使用这种产品。我喜欢提及这个故事,因为它很好地说明了我们产品团队的及时反应能力,也证明了在用户使用行为数据中蕴含着很多很多极具价值的潜在模式。”

    “即时通信:我们对雅虎通(Instant Messenger)的使用情况进行了分析,以了解激励用量的关键因素是什么。结果发现,最重要的因素是让用户扩大他们的‘好友列表’,至少增加5个新的好友。据此Yahoo精心设计了相应的营销活动,鼓励用户增加好友列表中的好友数,从而显著激励了雅虎通的用量。”

    Yahoo首页的搜索框:一个简单的例子就是我们发现,在Yahoo的首页上,把搜索框放在居中的位置(而不是以前的左侧)将提高用户的用量。这样一方面可以促进用户的积极使用,对Yahoo来说也没有成本支出。这个结果的发现过程也很有趣,我们首先发现Netscape浏览器的用户比IE的用户更多地使用了搜索功能,进一步探查发现两个浏览器在视觉上的唯一区别就是:二者中的搜索框位置不同!搜索框在Netscape浏览器中是居中放置,而在IE中则是靠近左侧。很不明显的差别,但却很重要。一般谁会想到呢?”

     

    2、什么是数据挖掘?

    关于什么是数据挖掘,很多学者和专家给出了不同的定义,以下我们列出几种常见的说法:

    “简单地说,数据挖掘是从大量数据中提取或‘挖掘’知识。该术语实际上有点用词不当。数据挖掘应当更正确地命名为‘从数据中挖掘知识’,不幸的是它有点长。许多人把数据挖掘视为另一个常用的术语‘数据库中知识发现’或KDD的同义词。而另一些人只是把数据挖掘视为数据库中知识发现过程的一个基本步骤。” ——《数据挖掘:概念与技术》(J. Han and M. Kamber

    “数据挖掘就是对观测到的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对其有价值的新颖方式来总结数据。”——《数据挖掘原理》(David Hand, et al

    “运用基于计算机的方法,包括新技术,从而在数据中获得有用知识的整个过程,就叫做数据挖掘。”——《数据挖掘--概念、模型、方法和算法》(Mehmed Kantardzic

    “数据挖掘,简单地说,就是从一个数据库中自动地发现相关模式。”——《构建面向CRM的数据挖掘应用》(Alex Berson, et al

    “数据挖掘(DM)是从大型数据库中将隐藏的预测信息抽取出来的过程。”——《数据挖掘:机遇与挑战》(John Wang

    而作为数据挖掘领域的华人第一人,韩家炜教授在《数据挖掘:概念与技术》的教学幻灯片中,给出一个更清晰的定义:“数据挖掘,就是从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式的过程。”

    这里我们可以看到数据挖掘具有以下几个特点:

    l         基于大量数据:并非说小数据量上就不可以进行挖掘,实际上大多数数据挖掘的算法都可以在小数据量上运行并得到结果。但是,一方面过小的数据量完全可以通过人工分析来总结规律,另一方面来说,小数据量常常无法反映出真实世界中的普遍特性。

    l         非平凡性:所谓非平凡,指的是挖掘出来的知识应该是不简单的,绝不能是类似某著名体育评论员所说的“经过我的计算,我发现了一个有趣的现象,到本场比赛结束为止,这届世界杯的进球数和失球数是一样的。非常的巧合!”那种知识。这点看起来勿庸赘言,但是很多不懂业务知识的数据挖掘新手却常常犯这种错误。

    l         隐含性:数据挖掘是要发现深藏在数据内部的知识,而不是那些直接浮现在数据表面的信息。常用的BI工具,例如报表和OLAP,完全可以让用户找出这些信息。

    l         新奇性:挖掘出来的知识应该是以前未知的,否则只不过是验证了业务专家的经验而已。只有全新的知识,才可以帮助企业获得进一步的洞察力。

    l         价值性:挖掘的结果必须能给企业带来直接的或间接的效益。有人说数据挖掘只是“屠龙之技”,看起来神乎其神,却什么用处也没有。这只是一种误解,不可否认的是在一些数据挖掘项目中,或者因为缺乏明确的业务目标,或者因为数据质量的不足,或者因为人们对改变业务流程的抵制,或者因为挖掘人员的经验不足,都会导致效果不佳甚至完全没有效果。但大量的成功案例也在证明,数据挖掘的确可以变成提升效益的利器。

    “数据挖掘”这个术语是在什么时候被大家普遍接受的,已经难以考证,大约在上世纪90年代开始兴起。其中还有一段趣话。在科研界,最初一直沿用“数据库中的知识发现”(即KDDKnowledge Discovery in Database)。在第一届KDD国际会议中,委员会曾经展开讨论,是继续沿用KDD,还是改名为Data Mining(数据挖掘)?最后大家决定投票表决,采纳票数多的一方的选择。投票结果颇有戏剧性,一共14名委员,其中7位投票赞成KDD,另7位赞成Data Mining。最后一位元老提出“数据挖掘这个术语过于含糊,做科研应该要有知识”,于是在科研界便继续沿用KDD这个术语。而在商用领域,因为“数据库中的知识发现”显得过于冗长,就普遍采用了更加通俗简单的术语——“数据挖掘”。

    严格地说,数据挖掘并不是一个全新的领域,它颇有点“新瓶装旧酒”的意味。组成数据挖掘的三大支柱包括统计学、机器学习和数据库等领域内的研究成果,其它还包含了可视化、信息科学等内容。数据挖掘纳入了统计学中的回归分析、判别分析、聚类分析以及置信区间等技术,机器学习中的决策树、神经网络等技术,数据库中的关联分析、序列分析等技术。

    Tag:
  • 2009-11-23

    当你老了 - [文抄婆]

    WHEN YOU ARE OLD(原文)

      WHEN YOU ARE OLD AND GREY AND FULL OF SEELP
      AND NOODING BY THE FIRE,TAKE DOWN THIS BOOK
      AND SLOWLY READ,AND DREAM KF THE SOFT LOOK
      YOUR EYES HAD ONCE, AND OF THEIR SHADOWS DEEP;

      HOW MANY LOVED YOUR MONMENTS OF GLAD GRACE,
      AND LOVED YOUR BEAUTY WITH LOVE FALSE OR TRUE,
      BUT ONE MAN LOVED THE PILGRIM SOUL IN YOU,
      AND LOVED THE SORROWS OF YOUR CHANGING FACE;

      AND BEDING DOWN BESIDE THE GLOWING BARS,
      MURMUR,A LITTLE SADLY,HOW LOVE FIED
      AND PACED UPON THE MOUNTAINS OVERHEAD
      AND HID HIS FACE AMID A CROWD OF STARS。

      当年华已逝

      LOVER译
      
      当年华已逝,你两鬓斑白,沉沉欲睡,
      坐在炉边慢慢打盹,请取下我的这本诗集,
      请缓缓读起,如梦一般,你会重温,
      你那脉脉眼波,她们是曾经那么的深情和柔美。
      
      多少人曾爱过你容光焕发的楚楚魅力,
      爱你的倾城容颜,或是真心,或是做戏,
      但只有一个人!他爱的是你圣洁虔诚的心!
      当你洗尽铅华,伤逝红颜的老去,他也依然深爱着你!
      
      炉里的火焰温暖明亮,你轻轻低下头去,
      带着淡淡的凄然,为了枯萎熄灭的爱情,喃喃低语,
      此时他正在千山万壑之间独自游荡,
      在那满天凝视你的繁星后面隐起了脸庞。


      当你老了
      
      袁可嘉译
      
      当你老了,头白了,睡意昏沉,
      炉火旁打盹,请取下这部诗歌,
      慢慢读,回想你过去眼神的柔和,
      回想它们昔日浓重的阴影;
      
      多少人爱你青春欢畅的时辰,
      爱慕你的美丽,假意或真心,
      只有一个人爱你那朝圣者的灵魂,
      爱你衰老了的脸上痛苦的皱纹;
      
      垂下头来,在红光闪耀的炉子旁,
      凄然地轻轻诉说那爱情的消逝,
      在头顶的山上它缓缓踱着步子,
      在一群星星中间隐藏着脸庞。
      ──1893


      当你老了
      
      裘小龙译
      
      当你老了,头发灰白,满是睡意,
      在炉火旁打盹,取下这一册书本,
      缓缓地读,梦到你的眼睛曾经,
      有的那种柔情,和它们的深深影子;
      
      多少人爱你欢乐美好的时光,
      爱你的美貌,用或真或假的爱情,
      但有一个人爱你那朝圣者的灵魂,
      也爱你那衰老了的脸上的哀伤;
      
      在燃烧的火炉旁边俯下身,
      凄然地喃喃说,爱怎样离去了,
      在头上的山峦中间独步踽踽,
      把他的脸埋藏在一群星星中。


      当你老了
      
      杨牧译
      
      当你老了,灰黯,沉沉欲眠,
      在火炉边瞌睡,取下这本书,
      慢慢读,梦回你眼睛曾经,
      有过的柔光,以及那深深波影;
      
      多少人恋爱你喜悦雍容的时刻,
      恋爱你的美以真以假的爱情,
      有一个人爱你朝山的灵魂内心,
      爱你变化的面容有那些怔忡错愕。
      
      并且俯身闪烁发光的铁栏杆边,
      嚅嗫,带些许忧伤,爱如何竟已
      逸去了并且在头顶的高山踱蹀,
      复将他的脸藏在一群星星中间。


      当你年老时
      
      傅浩译
      
      当你年老,鬓斑,睡意昏沉,
      在炉旁打盹时,取下这本书,
      慢慢诵读,梦忆从前你双眸,
      神色柔和,眼波中倒影深深;
      
      多少人爱你风韵妩媚的时光,
      爱你的美丽出自假意或真情,
      但唯有一人爱你灵魂的至诚,
      爱你渐衰的脸上愁苦的风霜;
      
      弯下身子,在炽红的壁炉边,
      忧伤地低诉,爱神如何逃走,
      在头顶上的群山巅漫步闲游,
      把他的面孔隐没在繁星中间。


      当你老了
      
      飞白译
      
      当你老了,白发苍苍,睡意朦胧,
      在炉前打盹,请取下这本诗篇,
      慢慢吟诵,梦见你当年的双眼,
      那柔美的光芒与青幽的晕影;
      
      多少人真情假意,爱过你的美丽,
      爱过你欢乐而迷人的青春,
      唯独一人爱你朝圣者的心,
      爱你日益凋谢的脸上的衰戚;
      
      当你佝偻着,在灼热的炉栅边,
      你将轻轻诉说,带着一丝伤感:
      逝去的爱,如今已步上高山,
      在密密星群里埋藏它的赧颜

    Tag: