机器学习

集体智慧编程

作者: TOBY SEGARAN
出版社: 电子工业出版社
原作名: Programming Collective Intelligence
译者: 莫映 / 王开福
出版年: 2009-1
页数: 334
定价: 59.80元
装帧: 平装
丛书: 博文视点O'reilly系列
ISBN: 9787121075391

内容简介 · · · · · ·

本书以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、社交网络的信息匹配技术、机器学习和人工智能应用等。

本书是Web开发者、架构师、应用工程师等的绝佳选择。

作者简介 · · · · · ·

Toby Segaran是Genstruct公司的软件开发主管,这家公司涉足计算生物领域,他本人的职责是设计算法,并利用数据挖掘技术来辅助了解药品机理。Toby Segaran还为其他几家公司和数个开源项目服务,帮助它们从收集到的数据当中分析并发掘价值。除此以外,Toby Segaran还建立了几个免费的网站应用,包括流行的tasktoy和Lazybase。他非常喜欢滑雪与品酒,其博客地址是blog.kiwitobes.com,现居于旧金山。

书评

时隔几年,重拾这本书

  1. 回到说这本书本身,其实这本书最大的优势便是书中没有理论推导,没有复杂的数学公式,例如在讲SVM的时候,他讲到的我们做SVM的目的就是要需要找到超平面,至于非线性可分的数据来说,我们需要的是把低维数据升至高维,然后便可线性可分了,而对照PRML这种把SVM讲了整整三四章的书来说,知识之浅显就可见一斑了;甚至不用和PRML来比较,就算是对比斯坦福的机器学习公开课来说,其深入程度都不如一堂课的内容了。
  2. 这本书在我看来适合的三个人群:A. 刚刚具有基础编程知识的学生 B. 如我刚毕业的情况,不是希望进入数据挖掘领域,只是要急着做完一个项目 C. 大多数的产品经理。
  3. 如果你真的热爱数据挖掘,热爱算法领域,集体智慧编程可以成为你的第一本书,但是不要花费太多的时间,把更多的时间留给数学,留给那些每篇都有着“晦涩”的数学公式的大块头把。

机器学习数据挖掘等经典书籍小结

《Programming Collective Intelligence》(中译本《集体智慧编程》);作者Toby Segaran也是《Beautiful Data : The Stories Behind Elegant Data Solutions》(《数据之美:解密优雅数据解决方案背后的故事》)的作者。这本书最大的优势就是里面没有理论推导和复杂的数学公式,是很不错的入门书。目前中文版已经脱销,对于有志于这个领域的人来说,英文的pdf是个不错的选择,因为后面有很多经典书的翻译都较差,只能看英文版,不如从这个入手。还有,这本书适合于快速看完,因为据评论,看完一些经典的带有数学推导的书后会发现这本书什么都没讲,只是举了很多例子而已。

总的来说,这本书比较浅,学习机器学习更深层的是要对统计、公式、数学等方面有更深刻的认识。