2007年11月30日

深入钻研还是浅尝辄止?

http://www.sillysnail.cn/either-depth-first-or-width-first.htm

最近一直在思考这个问题,对于刚刚从学生进入研究阶段的研一学生来说,是应该对自己的领域潜心深入学习,还是应该尽可能宽广地铺展开视野?

暑假的时候我在某公司实习,负责从文档中提取标题作者等信息。他们一直用基于规则的判别方法,效果不是太好。我之前没有做过这方面的工作,尝试改用基于统计的思路,抓取文章的一些特征项来计算概率,感觉效果还不错。两个月后我在《模式识别》课上发现原来我的这个算法有个名字叫做贝叶斯分类器,几十年来一直有着不错的应用。

信息检索课的大作业做文本分类,我也没有经验,打算试着统计各分类的特征词词频来计算文本跟每个分类的相似性。三个星期后在微软的《现代信息检索》(另一门课)上学到这个算法原来叫做语言模型(Language Model),是近几年搜索应用方面炙手可热的算法。

贝叶斯分类器和语言模型都是很牛的方法,而我在毫无背景知识的情况下独立提出了这两个方法,我觉得是件很有意思的事情。我举这两个例子不是想炫耀自己多么多么聪明,更多的原因是因为我刚刚进入这个领域,从头开始学习计算机知识,对很多东西都还一无所知,尚未形成思维定势,因此可以轻松跳出旧有的知识框框的限制(比如实习公司的基于规则的算法),自己尝试新的方法。

一知半解的新人反而常常有突破成果,这在历史上并不鲜见。爱因斯坦26岁解释光电效应,得益于他拒绝接受主流物理学界的陈旧解释。德布罗意没有受过正统的物理教育,所以才能够提出惊世骇俗的物质波理论。Bill Gates和Steve Jobs在大学本科时候就显露出计算机方面的过人天赋。很多著名的科学家的重要成果都是在研究生阶段提出。

随着我越来越多地阅读文献和书籍,每当遇到新问题时,我的题脑海里总是会不由自主地浮现出前人已有的方法,而惰于探索全新的思路。我很担心,长此以往会慢慢失去科研的独立创新能力,而只能够在前人基础上敲敲补补。今天看到静影沉璧同学转贴的《科学研究的前瞻与回顾》,文中指出"深深感到新入科研之门的年轻学生最不该做的,就是大量下载所有与他领域有关的文献,而且努力去读所有的文献。一个科研新手往往很难判断所得信息的可信度与其意义,已存在的大量信息难免造成不必要的困惑。事实上,科学界泛滥成灾的文献,对年轻科学家富有创造力的心智可能会造成窒息性的伤害。"

所以我想,也许我应该在更宽的领域中泛读,明了基本概念而不执着于具体实现方法。张三丰说,武学最高境界是忘记招术,无拘无束。我认为很有道理。

没有评论: