2007年12月11日

blog性别测试

http://www.sillysnail.cn/blog-gender-testing.htm

今天在杜师兄的blog上看到yodao推出了一款测试blog性别的小东西,兴致勃勃地跑去看了看,随手抓了几个经常更新的朋友的blog去测测,准确率还是挺高的。经过权威认定,蜗牛是100%的纯爷们,cool!我决定拿着这个结果去嘲笑米豆,哼,让你丫抛弃祖国~

各位八卦男女的结果都列在这里,自己对号入座,ladies first.

爱SA死性不改!
18.0%男性倾向,82.0%女性倾向
评点:明净雅致的语言让人为之倾倒,人生的感悟、生活情趣都融合在其中,自有一番细腻的心思在其间。
yodao | 博客男女


Milano 的 晶海岸
25.0%男性倾向,75.0%女性倾向
评点:文章构思曲折精巧,文字清新脱俗,婉约中透出洒脱,可谓淡妆浓抹总相宜。
yodao | 博客男女


Susan说
31.0%男性倾向,69.0%女性倾向
评点:文章构思曲折精巧,文字清新脱俗,婉约中透出洒脱,可谓淡妆浓抹总相宜。
yodao | 博客男女


☆滴落的记忆☆
37.0%男性倾向,63.0%女性倾向
评点:文章构思曲折精巧,文字清新脱俗,婉约中透出洒脱,可谓淡妆浓抹总相宜。
yodao | 博客男女


马不停蹄的忧伤
43.0%男性倾向,57.0%女性倾向
评点:文章风格清新,理性与感性兼备,简隽练达,有自然率真之美。
yodao | 博客男女


米豆就米豆
50.0%男性倾向,50.0%女性倾向
评点:文章风格清新,理性与感性兼备,简隽练达,有自然率真之美。
yodao | 博客男女


漫子の戴着耳机飞行.
56.0%男性倾向,44.0%女性倾向
评点:文章风格清新,理性与感性兼备,简隽练达,有自然率真之美。
yodao | 博客男女


锋语无阻
62.0%男性倾向,38.0%女性倾向
评点:不论语句的斟酌、信手拈来不拘俗套的观点,都给人一种豪情洒脱的形象,倜傥中有大丈夫气。
yodao | 博客男女


Never Island
100.0%男性倾向,0.0%女性倾向
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。
yodao | 博客男女


雨停了
100.0%男性倾向,0.0%女性倾向
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。
yodao | 博客男女


笨蜗居
100.0%男性倾向,0.0%女性倾向
评点:您的文风冷静而镇定,言语间展现出强悍的思辨能力与恢宏的胸襟,一个男子汉的阳刚形象跃然纸上。
yodao | 博客男女




下面部分涉及些许技术分析和业界观察,只喜欢看热闹的同学请飘过。

显然这是个文本分类问题,根据blog内容文本判断性别,属于最简单的两类分类问题。yodao给的描述基本上都是基于行文风格,所以我推测他们很有可能使用语言模型,也就是通过文中词汇的频率作为判据,计算文本属于某一分类的似然概率。比方说,一篇包含“粉底液”的文章比一篇包含“实况足球”的文章更可能是女生写的。

有一位朋友没有开通RSS,yodao就没能判别出来,说明他家是使用RSS提取而不是直接抓取网页内容。这样很聪明,省去了sparsing的工夫,也不用花力气去掉友情链接、广告和侧边栏等噪声,直接提取文本内容进行分析。

从上面几个小样本的测试来看,yodao这个测试的准确率有望达到90%以上,这对于开放文本测试来说算是不坏的成绩。至少比我做的好。我现在手上正在做的大作业也是用语言模型做文本分类,从搜狐抓了八万个网页来统计词频,现在也只能勉强达到85%的准确率。改天有空向yodao请教一下模型参数。

另外一个容易被大多数人忽略的是,网易从这个小游戏中可以获得大量的真实用户行为数据,也许会用于下一步研究。用户反馈是最近几年互联网炒得比较热的一个概念,旨在通过人工的标注来对网络信息获得更好的理解。

人工和机器究竟哪个能做的更好,这个一直有争议。比较广泛接受的意见是,人工比机器更准确,而机器的优势在于处理大规模数据。95年刚出现搜索引擎的时候,yahoo坚持手动收录网站并分类,挖出了互联网的第一桶金。但是三年后google通过机器自动抓取网页链接计算pagerank,迅速以惊人的准确率和召回率赢得了市场。yahoo之所以败给google,主要原因就在于人工分拣完全无法应付互联网的海量信息。但是十年之后风水忽变,大家发现机器找回来的结果正确率不能满足需求,人工标注重新获得了关注。与95年不同的是,人工标注的主体由yahoo的几十位职员变成了千千万万的网民。比方说,在搜索引擎中引入用户反馈,通过记录用户的点击行为来确定哪些网页是真正相关的,可以把搜索引擎的准确率提高一大截。

现在很多研究者希望能通过各种各样的方式吸引用户参与,提交他们的反馈,以此作为研究的样本。美国某大学教授在研究图像理解的时候,在网上做了个小游戏网站,每次游戏随机地配对两名互不相识的网友,请他们用一个词来描述某一幅图片,若两人结果相同则得分,最后排名全世界谁的得分最高。这个小游戏短时间就吸引了大量网友参加,教授轻而易举地获得了大约10万张图片的文本标签描述,真是聪明。


那么网易旗下的yodao希望通过这个小测试从用户那里获得什么信息呢?一个比较明显的收获是精确统计blog的人气。从他们主页页面右侧可以看到人气排行榜。只要能识别剔除机器人投票,由用户自发推荐的样本质量应该会优于PageRank抓取链接的推荐。其它的我还没有想到,欢迎各位IT牛人补充。

为什么要支教?

http://www.sillysnail.cn/why-to-join-voluteer-institute.htm

虽然我觉得支教完全不需要理由,不过既然这几天很多人一本正经地跟我讨论这个问题,我还是做个回答吧。如果有理解得不对的地方,欢迎各位牛人(尤其是TECC的各位牛人)指正。出于理科生的完备证明习惯,下面从充分性和必要性两方面来回答。

为什么我们应该去支教?

周四晚上在北大的TECC论坛,邀请了今年暑假支教的五个地区的教师代表回访北京,请他们谈谈对支教活动的感想。其中云南永胜县的一位老师的话给我印象很深。他说他很感激,这辈子从未想过能有机会站在中国最高学府北大的讲台上。几十年来他曾经培养出三名学生考上清华北大,这是他毕生的骄傲。他最大的心愿是希望能够让当地的孩子们继续念书,考上大学。供出一个大学生,是很多贫困家庭脱贫的全部希望所在。当地教育水平很不发达,初中毕业生升入高中的不足30%。学生基础差,老师心里十分着急。这几天来他反复问我们,如何能够帮助基础差的学生们尽快提高,考上大学?看着他殷切的目光,我感到很惭愧。我不知道有多少城里孩子能够真正理解,考上大学可以改变一个家庭的命运。很多事情我们习以为常,却是他们梦寐以求的。我们整日在自习室里慵懒睡觉,然而对很多农村孩子来说北大遥远得连想都不敢想。当我们汲汲于在核心期刊或者SCI检索上发表论文时,他们正为了课本而发愁(while i need a paper to get my master degree, he needs a piece of paper to write on)。面对这么大的差距,谁还能够心安理得呢?

我们拥有的已经很多,有义务分享给他们。


为什么需要我们去支教?

东西部的教育差距,其实比大多数人想象的还要大。成都重庆西安的发达并不能掩盖大片中小城市和农村的欠发达。

先说个轻松点的。昨天在群里看到一篇论文,甘肃省政府某某头面人物发表在当地某某优秀科技期刊上的《开拓进取真抓实干不断开创西部大开发的新局面》,英文版标题中的"真抓实干"写的是really grasp solid fuck。好笑吗?我觉得很悲哀,这说明当地的英语环境比我们想象的更差。即使考虑到政府官员的平均智商比民众普遍水平低一个量级,情况仍然不容乐观(这话可能不太严谨,因为并不是所有的官员的智商都比民众低一个量级,有的官员低两个量级)。

事实上,西部地区很多小城市和农村的教学环境很差,孩子们基本不会开口说英语,计算机更是不知所云。今年夏天去云南支教的支队为了开计算机课找遍全城,最后只在一个小破网吧里找到20台win98的旧电脑,学校里就更不可能有设备了。永胜是国家级贫困县,当地老师告诉我们,比资金更紧缺的,是有教学经验的老师。他们的学生想要学习计算机,想要学着上网查找资料,找不到人来教。

他们迫切需要我们的帮助。

又是一年一二・九

四年前刚进校就遇到一二・九合唱,exceedfang师兄带着我们在东阶西阶排练了一个月,练习校歌、《共青团之歌》和《让世界充满爱》。记得当时exceedfang说,这也许会是你们大学四年唯一一次所有人都参加的活动,好好珍惜吧。现在想想确实是这样,后来的每一次座谈、腐败和出游都多多少少缺了这个谁那个谁,只有那次最圆满。所以我一直特别怀念那次合唱,临毕业前拉了大半个班去录音棚重新录了一遍《让世界充满爱》作为纪念,算是还个愿。

记得当时的领唱是ray和周mm。班里的几大麦霸里,ray是最早显山露水的。周mm那天发挥失常,郁闷地回到寝室,接到同学电话说,刚听了你们系的合唱,第二个领唱真扯啊,为啥不让你去领唱呢?于是周mm就更郁闷了。当天的朗诵是imp,现场朗诵到一半忽然麦克风坏掉了,后一半朗诵稿几乎全是靠嗓子强行喊出来的,很强大。后来我们拿了二等奖,破掉了物理系二十年没拿奖的尴尬记录,想来多半是靠敬业的imp挣到印象分。四年后ray考入了北大光华,钢琴伴奏小白同学去了普林斯顿,imp同学去了牛津,都令人叹服不已。我什么都没做,所以现在什么都不是。回头想想,其实很多事情都早有了宿命的味道,只是当时从不曾发现。

四年后的今天,又到了一二・九合唱的日子,当年的新生们都熬成了婆。tc2003、azzuro和李铮做了辅导员,带着七字班的小孩参加合唱。中科院没有辅导员制度,由学生会负责筹备合唱,所以也勉强可算是我带(虽然基本上没出什么力)。今晚在拥挤的礼堂忙活了一晚上,又拿了个二等奖,是轮回吗?我对自己苦笑。

四年,就这么过去了。

2007年12月6日

好像确实是老了

http://www.sillysnail.cn/seems-getting-older-indeed.htm

以前每天打篮球,免费场,现在每周打网球,一小时15块钱。
以前每天回家坐在电视机前看娱乐节目,现在每天回家坐在电脑前批阅朋友的blog。
以前坚信总有一天会比乔丹高,现在想想至少还是比马拉多纳高。
以前津津有味地跟一群朋友一起看金庸和琼瑶,现在津津有味地跟一群朋友一起鄙视琼瑶。
以前一见牛奶就吐得满地狼籍,现在见到牛奶可以强忍着躲到卫生间去吐。
以前担心玩电脑游戏被老妈发现斥责伤眼睛,现在担心老妈整天对着电脑看股票伤眼睛。
以前觉得自己三国演义看十遍很了不起,现在觉得三国志一遍没看完不好意思跟人讨论三国。
以前过马路从来不看交通灯,现在即使是绿灯也要等一等再走。
以前特别反感穿西装打领带,现在不那么反感了,偶尔还是可以穿出来见人。
以前身上没带够钱买了冰棍分给哥们儿吃,自己扮酷逞英雄干看着,现在任何时候出门都要先检查钱包里的现金。
以前见到外国人远远看着不敢上前对着人傻笑,现在见到外国人立马冲上去叽里呱啦讲鸟语。
以前整天窝在家里玩游戏,现在……还是整天窝在家里玩游戏。
以前几个月才收一封email高兴得跟过节似的,巴望着天天有人给我写email才够酷。现在每天收几十封email看信回信累个半死,巴望着哪天email服务器挂掉图个清净。
以前别人叫我小黄、阿黄,现在别人叫我黄总、黄sir,汗~其实我还是喜欢别人叫我阿黄。


话说,昨天下午做志愿者带着几位边区老师去清华附中座谈,走到拐角处一个小孩冒冒失失地冲过来撞到我身上,我还没反应过来,小孩赶紧诚惶诚恐地对我说"对不起老师对不起老师",然后连滚带爬地逃走了。郁闷,我看起来真有那么老吗?

PS:顺便打个广告,TECC今天晚上19:00在北大2教402教室招募寒假支教志愿者,欢迎有兴趣的同学来现场报名投递简历。支教费用由JPMorgan赞助提供。

诡异的好友请求

http://www.sillysnail.cn/odd-mass-of-friend-applications.htm

一直把校内网当通讯录使,只加认识的朋友,陌生人统统忽略。从不吃撑了到处发帖骗人气,从不搞乱七八糟花里胡哨的页面代码,从不跑到别人页面上讲冷笑话然后"欢迎回踩",我在校内网上一向很低调。但是这几天忽然发现我的主页的访问量激增,而且瞬间多出来好几十个不认识的陌生人要加我为好友,仔细一看全都是ppmm,真诡异。虽说我比周节能稍微帅一点点这是铁证如山的事实,但平时也从没见那么多ppmm一窝蜂地抢着要认识我。根据以往每个礼拜顶多只有一两个陌生mm(还不全都是pp的)加我的数据作为样本进行统计学习,假定这样的好友请求在时间上满足等概率均匀分布,我计算出忽然出现10个ppmm同时加我的概率是C(1,10) * (1/10) ^ 10 = 1E-9,也就是说每两千万年才会发生一次,基本上可以判定为小概率事件。这让我感到百思不得其解。

严肃的说,不是炫耀贴,我现在非常怀疑是不是某个仇家把我的名字和照片贴到水木的PieLove/鹊桥版去了。