Archive

Archive for the ‘数据挖掘和用户行为分析’ Category

关于关联推荐功能的权重值

April 21st, 2009

其实现在很多B2C都有关联推荐功能,有的自己开发,有的用第三方(如麦路),体现在两个方面:”看了此商品的用户还看了什么商品”和”买了此商品的用户还买了什么”。但是几乎没看到哪个站把关联推荐的精准性做的特别好,以锐意网举例,关联推荐中:

“看了还看了”用的是麦路(感谢麦路,感谢梁振华同学),推荐的基本上都是同价位或同品牌商品,我们可以认为其是有规律的合理的,但是想一下,一次推荐6个关联,用户会比较茫然,不知道这6个里哪一两个会更符合他的习惯,把6个都看一遍又太麻烦。

“买了还买了”是自己做的,但是很TMD不精准,因为没有权重,比如一块存储卡,推荐里居然有相机,镜头,脚架之类的,因为它们曾出现在同一张订单里。如果看一款相机,推荐个卡,这是没问题的,但是反过来,我想没人看到一块存储卡,想再买个相机吧……

解决方法是什么呢,关联权重,MARS同学的方法是优先推荐权重高的商品(http://www.paidai.com/displaythread.php?boardid=11&topicid=3225),但这个方法有点小问题,就是比较暗箱,没有说服力(至少从表面上,顾客不明白你为什么推荐这个给他)。那么我们换一个方法,把关联商品都推荐上来,给它们打上不同的“权重比例标签”,比如看了或购买了《veryls的电子商务那些事儿》的用户里有60%还看了或购买了《老刑谈电子商务》;有30%还看了或购买了《电子商务愤青骨哥》;有10%还看了或购买了《电商从业者小姨的后现代生活》……这样,我们把所有的关联展现给用户,清楚地告诉用户权重值,告诉用户”民意“,由他自己来做出正确选择,我想这个技术实现起来应该不困难。(JOYO就是这么做的,恩恩)

———

恩恩,还有商城积分和社区积分的打通,把积分和购物分离,买东西有会员级别,积分是靠活跃度和贡献值,比如评论,推荐;发帖,晒单等等,积分再去换礼;兑换卷或折扣;参加特别活动等,这样既把积分用活了,又鼓励用户贡献有价值的内容,带动了氛围,我们都知道有部门用户消费力低但很热衷参与,正好让他们体现购物以外的价值。

———–

关于关联推荐功能,人人都说好,其实是值得用怀疑眼光探讨一下的。例如:
1。对于图书这样品种非常多、购买非常分散、大部分品种销量很低很长尾的商品而言,对于大部分品种而言(畅销品种、典型品种除外),相同两本书被多个客户同时购买的,统计样本量很少,其相关分析是不具备统计学意义的,在一定意义上仅仅是概念性的自娱自乐。
如果不在单品级别而在tag或分类级别分析相关性,可靠性会大增,也许更具备经营上的指导意义,例如经济管理类和英语类图书可能具有高相关性,他们的排行榜可以互见。
只有商品量比较少,单品销售量比较大的,才比较容易在统计意义上获得相关性。
2。某些相关是不具备商业价值的,应在分析前排除之。
veryls的例子举得很好,“如果看一款相机,推荐个卡,这是没问题的,但是反过来,我想没人看到一块存储卡,想再买个相机吧”,如果仅仅从数据上分析,这两个商品很可能被相互推荐,但其实应该在数据录入级别上,就人工排除在存储卡页面推荐相机的机会,只允许在指定的分类里进行相关统计。
3。关联推荐也有一定害处,就是限制了用户接触其他商品的机会。用户需求可能是临时的、多面性的,他买了一本西藏旅游的书可能是因为他最近要去一趟西藏,塞给他其他旅游相关的书他可能不会再有兴趣点击,或者仅仅导致他在几本相似的书之中挑选一本,其实他很可能对一本做菜的书感兴趣,但没有机会在这次到店中遇到它。
如果我们缺乏此用户的历史消费信息,我觉得最安全的做法是不做单品相关推荐,而只做大类(或tag)及关联性强的分类(或tag)的排行榜推荐。
———

在理,关联推荐是统计学范畴,基础就是足够量的样本

在很长时间内,烧包可能还不用这个功能

———

1. 首先,对于推荐,主要是用户群体知识对别人购物的指引,也就是说大部分是这么看,这么买的,就像导购员,但是是自动的,从这点上来说,肯定是有意义的。

2. 浏览行为对于挑选商品,也就是传统商家所说的Cross-Selling,是有价值的,具体表现中,可能是同品牌同价位的,但是也会出现比较有意思的跨越类别的推荐。对于推荐6个的问题,这只是选择的参数,可以视网站具体位置空间大小而定,而对于参数的确认,是可以通过试验调节的,在各个网站上推荐几个是效果最好(点击率最高)完全是可量化的。我们(麦路)给红孩子做了最佳组合促销,也就是Amazon的Better Together,是对每个商品推荐一个最好的,组合在一起促销,对功能感兴趣的可以和我们联系,:-)。

3. 对于购买行为推荐,其实也就是商家所说的Up-Selling的问题,Veryls提及的问题是锐意做的方法的问题,一般的电子商务网站是通过SQL语言简单的查询做的,这样会出现,“如果看一款相机,推荐个卡,这是没问题的,但是反过来,我想没人看到一块存储卡,想再买个相机吧”类似的问题,但是如果用算法来做,就不会出现这样的问题,因为A商品能推出B商品,并不表示B能推出A,也就是说,在一段时间内,买相机的大部分会买存储卡,但是后面再买存储卡就不会反过来还去买相机,所以这个需要算法来甄别支持度和可信度,不能像现在这些网站简单去数据库查,因为数据库是不存在条件和前后的。
4. 推荐权重是可行的,我们原来给TAOBAO用户做的时候就有,其实还是个用户心理的问题,可以跟踪去看实际的点击和购买效果,很多时候是比较有意思的,往往和直觉不一样,所以,推荐功能的本身就是告诉大家互联网能用数据说话,而且能非常快的看出结果。

5. 我们这次给红孩子做了很多复杂的推荐功能,从搜索相关推荐、看了还看、看了这些商品的最终会购买(有权重)、买了还买、个性化推荐、你可能会喜欢,我们会逐步开放这些功能,并且有一个对比试验,就是50%的人会看到这些功能,50%看不到,然后评估各个功能,给出具体的量化依据,试验结束后,我们会在这里公布,谢谢老刑提供的这个交流的空间。

这是麦路网和大家沟通的观点,希望大家互相探讨,特别感谢提到麦路,:-)。

———

oyster好专业。最佳组合促销这个感觉特别好。
推荐肯定是有价值的,记得以前看过一本《鼠标宣言》,印象很深。前面回贴的意思不是否定推荐,而是不是所有场合都合适单品级别的推荐,例如单品销售量非常低时分析不具备统计意义,对于小型b2c,就有这个情况。
基于点击或购买的单品推荐,还有一个问题,是我感到比较困惑的,即互为因果的问题。如果我们在某商品旁边推荐了该商品,那么以后的统计数据会加强这两商品相关的印象,因为访问者同时看到这两商品的机会增加了。要避免这样的伪信息,需要有意识的轮播对比,一般企业是注意不到的,需要专业人士。
我的看法和牛牛晓毅一样,术业有专攻,业务意义的推荐需要专业企业来帮忙做,例如麦路。一般企业自己做是不太合适的,陷阱挺多。
如果不是委托专业人士帮忙,一般b2c最好的推荐手段是推荐排行榜,本类商品和相关类别的排行榜,比推荐单品安全和高效。
另一个角度,专业企业的服务范围,应该不包括单品销量低的企业,

————

参数都需要不断试验,不断调整的。最佳组合推荐在根据最高点击量来推荐时候也可以关联下同类的(如果显示不完,需要优先的时候);购买行为分析可以设置必要因素、充分因素来显示,算法上做出来的。。。。。。。。

admin 数据挖掘和用户行为分析, 电子商务流程和功能设计 ,

电子商务商品推荐算法科普(转自MARS同学BLOG)

April 21st, 2009

[#2: Edit Options>MightyAdsense>Adsense Code]

最近比较关注Customer Segmentation和Personalized Recommendation。

国内电子商务圈好像很少提起这件事情(我之前写过Use personalized recommendation algorithm to enhance conversion rate for ecommerce website,不过也没什么反响)……所以随便写点科普一下。

本文大部分知识来自于一份叫做Item-to-Item Collaborative Filtering的文档,如果有条件,建议看原文。

这个文档的好处是:

  1. 写很短,只有5页,其它相关论文动辄上百页,打印出来都觉得是在浪费森林
  2. 写很简单,我这种技术白痴也可以看
  3. 号称是Amazon官方算法

坏处是:

  1. 写得很简单,所以有基础的同学们不用看了。真想了解的话可以用英文搜索相关关键词,研究论文还是很多的
  2. 2003年出的,比较古老

 

文章主要比较了三种算法:

  • Collaborative Filtering
  • Cluster models
  • Item-to-Item Collaborative Filtering

下面分几个post来详细说:

 

Collaborative Filtering

简单说就是,找到和你喜好类似的那群人,看他们买了什么你还没买的东西,推荐给你。

简化举例来说,你买了哈利波特,羽泉的CD,新宋……他会去找其他买了类似产品的同学们:A, B, C。然后他看到A和B都还买了《九州》,就会推荐你《九州》;你买了《沉默的大多数》,买了《黄金时代》,买了《黑铁时代》,系统去找到了其他买这些书的同学们:D, E, F,发现这三位同学都买了《白银时代》,于是把这本书推荐给你。

详细来讲(当然其实还是省略大量实现上的细节),假设www.MarsOpinion.com(我的博客:P)有M个客户,N种产品,就把每个客户当成一个N维的项量,客户见的相似度可以用这两个项量的COS计算

找到和你“相似”的那些消费者之后,就可以给其他商品打分了,越多和你相似的消费者买了商品X,说明商品X越可能吸引你,所以可以以“有多少和你相似的消费者购买了这个商品”作为这个商品的分数。举例来说:和你相似的消费者中,80个买了《青铜时代》,《白银时代》,70个买了《失乐园》,那么《青铜时代》和《白银时代》分数就是80,《失乐园》分数就是70,要推荐的话就应该先推荐《青铜时代》、《白银时代》,再推荐《失乐园》。

这里还有两点需要考虑,第一是不要推荐客户已经购买的东西,例如如果你已经购买过《青铜时代》,就应该只给你推荐《白银时代》(至少对于书是这样,对于重复购买的消费品再议)。

第二就是要降低那些畅销产品的权重:举例来说,买哈利波特的人动辄百万计,因为你和别人都买了哈利波特而向你推荐他所购买的商品,其实没有什么意义;相反,如果你买了本《MarsOpinion.com电子商务推荐算法》,这本书一共就4个人买过,另外三个人都买了《MarsOpinion.com鬼扯全集》,那么你很可能也会喜欢那本书。因为越大众化的爱好,越难代表一个人的特质(从而没有办法通过这个特质去寻找类似的人),而越小众的爱好,相对能更加说明者个人某方面强烈的偏好。——基本上,解决这个问题的方法很多,有一种就是在设置项量时,将值设置为该产品销量的倒数。例如你买了《哈利波特》(假设有100万人买了它),那么代表你的那个项量的《哈利波特》那个值就是百万分之一;而你如果买了《MarsOpinion.com电子商务推荐算法》,那么你相对应的那个值就是四分之一。

整个算法的复杂度是O(MN),但是因为每个客户购买的商品数量都很有限(远远小于N),所以复杂度很可能降为O(M+N),可是如果产品数量巨大的话,这个复杂度仍然是很可怕的,而相关的降低复杂度的算法(例如限制取样的客户样本大小或者商品样本大小)都会显著影响推荐结果的精度。

 

未完待续

admin 数据挖掘和用户行为分析, 电子商务流程和功能设计 ,

从搜索到发现

April 8th, 2009

[#3: Edit Options>MightyAdsense>Adsense Code]

搜索是你明确地知道自己要找什么东西时所做的事情,而发现是你并不明确地知道一些好东西存于世上的时候,这些东西主动找到了你。

以“发现”为主要功能的网站正如雨后春笋般在互联网上崭露头角。许多公司推出了能够帮助消费者找到新网站、新唱片或者新朋友的推荐功能——不管想要什么,去互联网上都可以发现那些你闻所未闻却又注定会一见钟情的东西。

这种功能并不是互联网时代的专利。早在互联网出现之前,在那些用钢筋混凝土搭建起来的小店面或者大卖场里,个体业主们就已经在靠自己敏锐的目光和三寸不烂之舌,根据你的个性特点把货架上的商品源源不断地放进你的购物篮。

走进任何一条商业街上的某间服饰专卖店,流露出一点购物的倾向,导购人员就会走到跟前,指着不远处说:“那款是最近刚上架的新品,看起来与你的气质比较搭配”。这时你很可能会继续和导购人员交谈,多透露一些自己关于衣着打扮的看法,让他或她继续给出建议,帮助选中最心满意足的款式。

这就是我们所说的“逛”街。在走出家门的时候,你的脑中或许有买衣服的计划,却并不知道应该买哪种品牌、款式、颜色、布料、价位的商品。走进商店之后,顾客面对未知的货架开始了自己的“发现”之旅,而商店向顾客提供的“推荐”机制随即开始运作——虽然在多数情况下,你并不会意识到它的存在。

我们不仅仅是在买商品,我们还和商品紧紧地捆绑在一起。我们和它们之间存在着千丝万缕的联系。看看架上收藏的无数影碟、iTunes播放器里的曲目列表、躺在橱柜里那些用过的手机,从每一样东西身上都可以看出来——你是怎样的一个人,或者说,你想成为怎样的一个人。

每个人都通过所购买的东西把内在的自己呈现出来。从另外一个角度说,人们每天都把个性穿在、戴在、挂在身上,刻意或无意、直白或含蓄地告诉外界:“喏,这就是我。”

在真实的世界中,我们通过外表所蕴含的信息以及所处的环境和既有的经验对他人做出判断。这种直觉通常情况下十分管用而且立竿见影,但是有时候它却会失算,毕竟感觉在很多时候是说不准的。但是如果换到互联网上,这件事情就会变得容易和清晰得多。

“发现”在网上的兴起

日复一日,消费者都会在互联网上以数字化的形态留下自己的心得体验。比如豆瓣网上有一半观众觉得《满城尽带黄金甲》看着“还行”,两成观众打分“力荐”;比如大众点评网的用户对北京川办餐厅的打分是:口味26、环境13、服务12;又比如人们在网上对各张专辑做出的评论、贴上的标签。每当用户留下这样的标记,除了能够让其他人知道这些东西看起来如何、听起来怎样,还在不知不觉地向外界描述自己的口味。

对于那些可以获得、储存并且分析这些信息的公司而言,商机大得惊人。这些公司比传统商店里的导购人员更了解你,更进一步说,指不定比你的闺中密友更清楚你的兴趣所在。这些公司可以精准地描绘你的口味——在专家的帮助下,他们可能比你还更容易说清你自己属于哪类人群——以此判定你最可能会在现有的产品选项中买下什么。这些在过去听起来像“第六感”的东西,现在正以1和0为载体被保存在网络服务器上。

对于那些以推荐功能为核心的网站来说,他们再清楚不过地知道,互联网正在从搜索的时代进入发现的时代。两者的区别在哪里呢?搜索是你明确地知道自己要找什么东西时所做的事情,而发现是你并不明确地知道一些好东西存于世上的时候,这些东西主动找到了你。

在搜索领域,胜负已经非常明显——在国外,Google遥遥领先,在国内,百度一枝独秀。但是,起码到目前为止,还没有哪个推荐引擎是当之无愧的市场领导者。

建造个性化的发现机制需要对目前网上所有的表述、分类及评价方式进行深入研究,这绝非易事。但是如果有公司可以把这样的东西做到手机上,那么,这样的发现工具不仅仅可以改变营销,甚至整个商业社会。“推荐系统将会成为接下来十年中最重要的革新之一。”曾经在90年代中期开发出第一批推荐引擎的米尼苏达大学计算机科学系教授约翰·里德(John Riedl) 说过,“社会化网络将会被这些系统所驱动。”

亚马逊网络商店(Amazon.com) 很早就意识到了一个优秀的推荐系统可以带来什么,直到现在依然是同类网站效仿的对象。亚马逊通过数据挖掘算法和比较机制将用户的消费偏好与其他用户进行对比,借以预测用户可能感兴趣的商品。

这样的推荐系统建立在对商品深入了解的基础之上。看看亚马逊网络书店上的书籍和影音制品,即便是再偏门的品种,他们也被管理员赋予了多种类型(Genre)和关键词(Keyword),而且用户还可以为它贴上自己中意的标签(Tag)。

但是亚马逊“相关图书”和“相关唱片”的推荐机制依然没有做到足够的个性化,它看起来更像是一个固执己见的推销员,而非熟识并且值得信赖的小店老板。亚马逊的系统倾向于向用户推荐那些显而易见的的相关产品,却对用户缺乏更深入的了解,并因人而异地推荐商品。新一代的发现型网站正在弥补这方面的缺失,搞清楚用户为什么选择了某些商品,为用户也贴上复杂的属性标签。

为了建造更好的推荐系统,美国最大的DVD租赁网站Netflix设置了100万美元的奖金,准备奖励给可以让推荐机制性能提高10%的人。在这个竞赛公布之前,Netflix负责推荐系统的副总裁吉姆·贝内特 (Jim Bennett) 曾经怀疑是否能够有人在十年之内完成这个目标,但他也坚持,这个目标确实值得公司付出100万美元。但是在五周之后,已经有37人提交了改进方案,其中有两名选手成绩离获奖标准并不遥远。
两种“发现”

而电影推荐网站“What to Rent” (意为“租点什么”) 已经在发现机制的完善之路上迈出了更大的步伐。该网站的两位创始人马修·库尔克 (Matthew Kuhlke) 和亚当·盖特吉 (Adam Geitgey) 对电影极为痴迷,他们俩用自己在电影方面的知识和分类海量电影的经验来武装自己的电影数据库。

而同时,他们让初次光临的用户回答一系列随机的问题,有的甚至和电影看起来关系不大,比如说:“你最喜好哪一类体验——精神、智力还是身体上的?”或者“给你多少钱才能让你在下半辈子里每天都穿一些滑稽古怪的装束?”他们通过心理测试来了解用户,以推荐合适的电影。“看一部电影的时候,你就与这部电影产生了互动。这种互动和你与人打交道并没有多少区别。” 库尔克说,“你都是在建立一种关系。”

“工欲善其事,必先利其器”。换到发现型网站上,那就是想要推荐给用户最有效的结果,那么就必须先了解自己的用户。如何了解自己的用户,成为此类网站首要解决的问题。

显然,“What to Rent”网站两位创始人的敏锐目光给他们帮上了大忙。在网站上,他们用许多问题来了解用户的特质,并且推荐DVD。在现实生活中,他们会去公司附近的饭店里 挑战一些更有难度的推荐方式。他们随机地挑选一些人,不和他们进行交谈,只是根据对行为举止的观察来推测他们最喜欢的某部电影。

他们会在人群中选中端水送饭兼收盘子的伙计,然后开始描述这个观察对象:“破烂的牛仔裤、金属手镯、各部位有若干纹身”,“20岁以上接近30岁”,“在一个年轻化的餐馆里工作”,“在这里的年轻人很多没有念完高中,因为他们很难集中注意力,但是却花了大部分时间用来阅读一些由艺人兼作家——比如尼克·凯夫 (Nick Cave) ——撰写的哲理书籍”。由此,库尔克认为《星河战队》(Starship Troopers) 这样有点轻微反政府情节又有点刺激动作场面的电影最适合他的口味。果然,他们从对方嘴里得到这个答案。

这种了解内容和用户的特质,送上合适产品的做法,被称为“基于内容的过滤” (Content Based Filtering) 。正如“What to Rent”需要在事前对用户做一个问卷调查,他们同样要对内容产品贴上各种门类的标签并且写入数据库。?荩

在这类发现型网站中,国内用户最熟悉的是音乐推送网站“潘多拉” (Pandora) 。只要在“潘多拉”网站首页的播放器中输入用户最喜欢的歌手名字或者歌曲标题,网站就会自动建立一个网络电台,源源不断地播放最符合用户口味的曲目。用户喜欢或者不喜欢一首歌,可以点击相应的反馈按钮,让系统更明白自己的喜好。

这种有趣的体验建立在惊人的“音乐基因工程”(Music Genome Project)基础之上。45位音乐分析师——其中大部分拥有音乐方面的学位——以每月15000首歌的速度完善“潘多拉”的曲目数据库,每首歌都拥有400字左右的详细介绍。在播放每一首歌的时候,点击“为什么选择这首歌”的选项,就可以得知目前播放的曲目与用户输入曲目的所有相似之处。

而随着社会化网络(Social Network) 的大规模兴起,另一种被称为“协同过滤”(Collaborative Filtering) 的推荐方式也得到了越来越广泛的应用。如果说“基于内容的过滤”可以被视作由机器完成的推荐,那么“协同过滤”就可以被看成由人完成的推荐。

以“协同过滤”推荐机制为核心,网站并不需要做出如同“What to Rent”的“性格—产品”匹配,而只需要了解“用户都在同哪些人进行交往”、“用户加入了哪些组群”、“用户都在看谁的页面”这样的问题,然后根据“物以类聚、人以群分”的思路为用户推荐他的伙伴都感兴趣的事物。

国内以图书推荐起家的“豆瓣”就是这方面的代表。从建站以来,豆瓣就只是提供给用户关于图书、电影和音乐的基本信息,而不需要由网站员工对用户或者产品做出“贴标签”式的逐一了解。用户在“豆瓣”上发现新的产品,完全以他们参与的小组和关注的对象作为切入点,在网站上的参与度越高,发现的效果也就越好。

无论从用户还是服务提供者的角度出发,这两种推荐方式都有各自明显的优劣。如果采用“基于内容的过滤”,那么在完成内容和用户互相匹配的过程中,就可能出现“越读越窄”、“越听越窄”、“越看越窄”的问题,提供的内容完全与用户兴趣点相吻合,而没有发散。

“协同过滤”在很大程度上避免了这个问题,但是他需要用户达到一定数量级之后才能发挥出网站创建者预想的效果,这种“网络效应”使得同一市场上的后来者很难找到切入的机会。而用户一旦不能得到“好处”,可能迅速离去,而来不及提“利他”的后话。■

admin 数据挖掘和用户行为分析 ,