2015-09-08 09:47:29 414浏览
摘要:他曾获中文本科学位,在世贸大厦做汉译英,因下午2点上班逃过了911大爆炸,后成为MIT决战21点队员,从拉斯维加斯猛抢6万美金,因此迷上了数学,还通过统计算法找到了GF。
【编者按】马上就要过年了,又要回家面对各种七大姑八大姨的催命问题,相信对于广大的宅男极客来说——“找女朋友没有?”已经被选为最不受欢迎的一句话了。其实在这个大数据时代里,我们生活在一个充满“数据”的世界,找个女朋友真的很难么?有的人可能说了“天天大数据,大数据能帮我找女朋友么?”回答是肯定的,有了“大数据”的帮助,找女朋友的成功率会高很多。请看来自美国的Chris McKinlay给我们分享的经典案例:如何通过大数据找到你的另一半!
在加州大学洛杉矶分校数学楼5层的一个阁楼里,显示器上闪烁着微弱的灯光。Chris McKinlay正在使用罗拉多州超算为他博士论文(大规模数据处理和并行数值方法 )做实践,而凌晨三点却是能压榨这个计算机资源的最佳时间,他打开了第二个窗口——OkCupid(美国在线约会网站的领头羊 )的收件箱。
McKinlay, 35岁,体型偏瘦,一头蓬乱头发的中年男子。在4000万通过Match.com、J-Date、e-Harmony这些网站在网络上寻找浪漫的美国中,他是非常不起眼的一个。自从去年分手以后,他已经在网上搜索了9个月,可惜毫无结果。他已经给几十个OkCupid网站推荐为潜在配偶的女性们发去了自我介绍信息,但大部分都被忽略了。同时他只去过为数不多的六次约会中的一次。
2012年六月的那天早上,电脑一个窗口显示着编译器正在处理的代码,而另一个显示着被遗弃的约会资料,他突然醒悟到,自己做错了。他一直把自己当做一名相亲对象来在网上寻找其他用户,这样做是不对的,他意识到自己应该像一个数学家一样去约会。
OkCupid由哈佛大学数学专业人士创办于2004,首先吸引交友者的是因为他的相亲对象是通过计算方法来自动匹配的。成员通过回答一系列的问题进行匹配,比如政治、宗教、家人、爱、性f和智能手机。
平均而言,用户从问题库中选择350个类似于“下列哪个最有可能吸引你去看电影吗?”或“宗教/上帝在你的生活中有多重要?“这种问题。通过对每一个用户问题答案的分析寻找和他们问题答案相近的异性伴侣,同时将这些用户从“毫无关系”到“特别亲密”分为5个等级。OkCupid的匹配引擎使用该数据来计算一对夫妇在一起是否合适,得分越接近百分之一百,证明他们是一对越好的灵魂伴侣。
但是推理一下,在洛杉矶,McKinlay与女性的匹配度简直是糟糕透顶。OkCupid的算法只使用两个潜在的选择决定回答问题,以及相匹配的问题(或多或少随机出现),并不能正确的体现出一个人的内心。当McKinlay 查看他匹配对象的时候,发现相互匹配额超过百分之九十女性不超过100个。要知道在洛杉矶这个城市大约有200万女性(在OkCupid上也有8万女性),而从McKinlay的匹配结果和影响来看,他几乎就是一个隐形人。
McKinlay意识到他必须提高这个数据,通过抽样统计,McKinlay可以确定哪些问题关系到他喜欢的那种女性,他可以针对这些问题建立新的“形象”,从而去匹配洛杉矶中所有适合他的女性,而忽视其他人。
MauricoAlejo 从一个数学家的角度来说,Chris McKinlay的故事非常独特。他在波士顿郊区长大,2001年从明德学院毕业,大学本科获中文学位,同年8月到纽约世贸大厦91楼作汉译英,五周后世贸大楼倒塌( McKinlay那天下午两点才上班,侥幸躲过了911爆炸)。“后来我问自己,我到底想做什么?”他说,当时哥伦大学毕业一个朋友招募他加入MIT的决战21点队员,接下来的几年他往返于纽约和拉斯维加斯,曾一年从拉斯维加斯赢得6万美金。
经历了这些事情,他对应用数学非常感兴趣,因此爱上了数学并读了数学博士。他说:“他们的数学天赋可以适用于许多不同的情况。他们可以看到一些新的扑克游戏,然后回家,写一些代码,并想出一个策略来战胜它。”
现在他将这种模式搬到了寻找爱情的过程中。首先他需要数据。他建立了12个OkCupid账户,写了一个Python脚本管理它们,同时也没有忽略他的论文。程序脚本将会收集他的目标人群(年龄在25-45之间的异性恋以及双性恋女士),从这些女士的个人页面上搜集所有可能用到的数据:种族、身高、是否抽烟、星座等等。
为了得到这些数据,他不得不做一些额外的工作。OkCupid中只有你回答别人的问题,你才能看到别人的信息。McKinlay用机器人回答一些简单的问题,他没有使用一些虚假的信息来欺骗这些女士,因为答案对他并不重要,他并不是想要吸引这些女生,他只是想把这些女生的回答收集到自己的数据库中。
McKinlay非常满意他的机器人的工作成果。然而在他收集了一千个资料后,他遇到了第一个障碍。OkCupid有一个系统专门来防止这种机器的数据搜集行为,不断的将他的机器人账号禁止。
他必须试着让这些机器账户模仿人的行为动作
他将目标转向了一位向他学习高等数学课程同时教他音乐理论的朋友 Sam Torrisi,Torrisi 是一位神经学家。Torrisi也经常使用OkCupid,Torrisi同意在他的电脑上安装间谍软件监控自己在网站的运动轨迹和数据。同时McKinlay通过编程让机器人模拟Torrisi 的点击速率以及打字速度。McKinlay又从家里带来一台电脑,通过数学系的宽带,保证一天24小时不间断的运行。
三周后他已经收获了来自全国各地2万名女性的600万个问题。随着数据挖掘的深入,McKinlay完全将他的论文抛至一边,他本来就很少在公寓睡觉,现在基本上就完全放弃了,搬到了工作的地方,睡觉的时候在办公桌上铺上一层薄薄的床垫。
按照McKinlay的计划,他必须要在这些统计的数据中找到一种根据这些女生的相似性进行大致分组的方式。McKinlay在修改贝尔实验室一个名为K-Modes的算法时得到了灵感。这个算法第一次在1998年用于分析生病的豌豆谷物,它使用分类数据并且把数据整合堆积。通过微调,设备可以调节出结果的速度,得到自己想要的方式。
他调整刻度,找到了一个平衡点,这个点上20000个女人根据她们的问题和回答能够在统计上分为7个清晰分离的群。“我太高兴了”,他说,“这真是6月最好的一天。”
用这种方式,McKinlay又搜集了另外5000个女生的样本,她们都来自洛杉矶和旧金山,最近刚刚在OkCupid上注册。这些样本经过K-Modes的处理也大致分布在7个组里,McKinlay的统计样本奏效了。
现在McKinlay只需要确定哪个组的女生更适合自己就行了。他大概看了一下这些女生的简介,有一组女生年龄太小,两组年龄太大,另外一组是虔诚的基督徒。他发现有一组女生大多在20几岁,多数看起来很独立或是音乐家和艺术家。McKinlay认为自己或许能在这组中找到真爱。
实际上,还有一组女生看起来也很不错,她们年龄稍大,从事编辑和设计等有创造性的工作。McKinlay决定在这两组女生中寻找目标。他建立了两个个人档案,一个用于A组,一个用于B组。
McKinlay研究后发现,两组女生都对教学这个话题很感兴趣,所以他将自己定位成一个数学教授。他将这两个集群中最受欢迎的500个问题进行收集然后填写他自己最真实的答案。因为他并不想让自己的未来建立在计算机自动生成的谎言之上。但是他会让电脑分析出每个问题的重要性,通过机器学习算法,提供一个最佳的权重。
这样他做了两份个人简介,一份附上了他攀岩时的照片,另一份上是他在音乐演出时弹吉他的照片。“不管未来的计划是什么,关键是你现在对什么感兴趣?是性还是爱?”答案显然是:爱。但对于年轻的A群体,他根据电脑的指示,他认为是“very important”。对于B群体,他认为是“mandatory”。
当回答完最后一个问题并排名后,他在OkCupid中搜索洛杉矶的女性并按照匹配率排序。在首页:一整页的女性和他的匹配率达到了99%。他继续向下浏览......浏览完整个洛杉矶的1万多名女性,却一点进展也没有。
他需要更进一步的努力来获取人气。当有人访问OkCupid会员的网页时,会员会得到通知,因此他写了一段新程序来访问和他匹配度很高的页面,按照年龄循环:星期一访问一千个41岁女性,然后在星期二访问二千名40岁女性,两周后到访问完27岁女性后。有时一天会有400个女性回访他的简历。接着就有了大量的留言。
“之前我还从来没有遇到过谁能有这么多的访问量,我觉得你的简历特别有吸引力。”一名女性这样写道。“就是关于有这么多粉丝的粗犷的男人的一些事迹……因此我想对你问好。”
“嗨——您的简介真的打动了我,我想跟你打个招呼。”另一个写到。“我认为我们有很多共同之处,也许不是数学,但肯定很多其他地方!”
“你真的能翻译中文吗?”还有人问道。“我上过一段时间课但是效果不好。”
McKinlay搜索的数学部分完成了,那就只剩下一件事了,他得走出他的小卧室出去约会。
6月30号这天, McKinlay在加州大学洛杉矶分校体育馆洗澡然后开着他的破旧的Nissan到城市的另一端开始他的数据挖掘约会。Sheila是一名网络设计师,属于A群体的年轻艺术家类型。他们约在回声公园的一家咖啡馆吃午饭。 标签: