你好,游客 登录 注册 搜索
背景:
阅读新闻

大数据挖掘机器学习人工智能的维恩图战争

[日期:2018-05-04] 来源:  作者: [字体: ]

马上要召开半年会了,老板说,大要做好规划,以后我们方向不再是机器学习了,而是人工智能。原话怎么说的,我已经忘记,只记得当时听着特别难受,于是我当场提出了,到底什么是机器学习?什么是人工智能?BD小姑娘特别积极说,我知道我知道,去黑板上画了三个方块。类似下面的这样:

大数据挖掘机器学习人工智能的维恩图战争

这也不是原图,类似这样的意思,比较简略的关系。(记忆真是太不靠谱的东西!)我不以为然,先进想到的图是题图,也很简略地去白板上画了下,每个人同学又各抒己见了下,引起片笑声。虽然这个事情过去,但是我这个人,在这种场景下,没有“过去”,因为我是个特别纠结概念的人。

回来搜,不得了,原来,搞不清楚这些术语边界的人可真不少,很多本身是这个域的学者和研究者,是说,连专业的人士都众说纷纭,互不能信服,真是太逗了,甚有篇文章,叫《Battle of the Data Science Venn Diagrams》 [1] 这篇文章里,搜集了很多的维恩图,不打算转载,各位可以自行观看。

挑些我个人比较感兴趣的图说说吧。

大数据挖掘机器学习人工智能的维恩图战争

这张图也是题图,据说,来自 SAS 公司在 KDD1998* 提供的数据挖掘基础课程中的副图[2]。很多辨析这几个域的Slides,还有些技术人士做的 PPT 里,会引用这张图,因为 SAS 是全球较大的软件公司之,是商业智能和数据分析软件的先进,所以,他们的观点不能说是不。

这幅图里,以数据挖掘(Data Mining)为核心,当然因为这是 KDD 会议的讲稿,所以图里还有 KDD 的个圈圈,哈。模式识别(Pattern Recognition)和神经计算(Neurocomputing)这俩,我基本有效没概念,不讨论了。这图里有意思的是统计学(Statistics)、机器学习(Machine Learning)和人工智能(AI)的关系。以 SAS 的观点来看,人工智能是有效包含了机器学习的内容的,机器学习根本是人工智能的子学科。而统计学跟这俩基本没有交集,但是仔细点看看,不是有效无关,有效无关是像数据库(Databases)的表达方式,离得远远的,也即,机器学习和人工智能,跟统计有关系,也仅仅丁点而已,哈!

另有幅图,派生自这幅图。

大数据挖掘机器学习人工智能的维恩图战争

这幅图的作者 Brendan Tierney,查了下也是个行业资深人士,曾在 Oracle 工作过,现在是咨询师,很多 Quroa 答案啊,行业文章啊,引用这张图也比较多,这图本质上不是说几个属于的边界问题的,标题也可以看出来,不过也引发了不少人讨论(呵呵)。Brendan 2012年发表了博客[3],2016年回来更新说,中间的维恩图呢,是数据挖掘域很常见的图啦(然而我没找到原图),他随便引用的,并且他认为派生自上面 KDD1998 那图(可我觉得不是),他自己加了外面圈东西才是他想表达的。

这图里,取消了数据挖掘和模式识别的交集,正中间换成了数据可惜,新增了可视化,还真是…… 2010年有篇博客[4],引用这幅图,辨析了数据科学,数据挖掘和机器学习三者,也挺值得看的。

下面这幅维恩图,定义了什么是数据科学。

大数据挖掘机器学习人工智能的维恩图战争

绘制这幅图的,是个叫 Drew Conway 的伙计,他是纽约技术社群里的位类似意见先进的人物。维基百科对他的介绍[5],他竟然因为绘制了上面的图而成名,被记入维基百科,另个因素是把大数据应用于恐怖主义研究,当然,画出这幅图还排在研究恐怖主义前面,大能会吧?

据 Battle 文说,这图绘制于2010年,但是2013年才在博客发表[6],博客的归档时间和声称发表时间,确实能看到这两个时间点。据说是这个图,点燃了 Battle,也是 Battle 文中的先进幅图。

这幅图,让人注意的两个点,先进个是 Substantive Expertise,第二个是危险区域(Danger Zone!),哈哈,前者看到感受是“草,什么鬼,这英语我不认识啊”,后者感受是“神秘啊!”。大可不必为英语看不懂而脸红,Battle 文作者,也觉得这俩词选得不好,很操蛋啊(……all I can say, is if Conway meant something other than what I would call domain knowledge (e.g. physics), he chose the name Substantive Expertise very poorly.)当然还有重很重要的可能性,是咱们都没有 Conway 老哥有文化,人另重身份是纽约大学的 Political Science 的博士啊!

于是没文化的技术民工,将 Conway 老哥的图改得可爱了点[7]。

大数据挖掘机器学习人工智能的维恩图战争

这幅图我倒是觉得更呵呵点了。当然,值得肯定的是三个圈在我四级的英语能力下,确实更容易看懂些了。但是,数据科学从被移走了什么鬼?而且区域放入了个什么鬼?好吧。“数学和统计知识”被换成了“量化方法”?“骇客能力”被换成了“计算机科学”?这俩的替换方法看,基本上也可以判断,第三个被换的,也高明不到哪里去,所以这个老哥可没有因为这幅图被收录维基百科。那个问号,据说是对危险区域不太能接受,所以替换成问号了。

看个集大成者的图[8]。

大数据挖掘机器学习人工智能的维恩图战争

干脆加了个圈圈叫 Evil(魔鬼?),当然了,多了很多什么鬼的英语,我能看懂的不多了,难道邦德大哥也来客串了?

还是沉溺到了数据科学域的 Battle,无奈。这幅图也是来自那篇文章。

大数据挖掘机器学习人工智能的维恩图战争

这幅图,是较为切题的副图了吧,大数据,数据挖掘,机器学习,人工智能全都提到了,应该做题图才对啊!(我也是无奈)[9]。感觉这幅图,提供了种全新的视角来看待问题,把 Conway 老哥的图里,那些更主观,更模糊的东西砍掉了,留下了客观的,跟数据有关的,跟技术有关的东西,几个术语,确实可以在个层次上去比较了。文章自称解决了大 Puzzle 的部分。

文章辨析了几个术语的些意思和简史,也提供了另幅我很喜欢的图。

大数据挖掘机器学习人工智能的维恩图战争

说实在,这才是到目前为止我较喜欢的图,不但提供了作者对于概念内涵外延的阐释,还把不同概念之间的作用关系给解释了。真是太棒了!

还有篇文章我也比较喜欢,比如这篇[10]辨析了机器学习和统计学的异同点。文章认为,统计学和机器学习两者,有着相同的目标(在咱们讨论的这个方面),是“我们能从数据中学到什么”,而不同的是两者的方法。这篇文章里也引用了题图。文章中引述的种观点认为,机器学习方法,不需要任何前置假设,不关心各种变量内在的联系,只要股脑丢到算法里面可以了,算法更像个黑盒子。你的数据越多,预测越准。机器学习方法,通常应用在些高维的数据集上。

而统计学,特别注重数据的采集方式,样本的各种属性的分布,你必须准确地知道你到底在干什么以及到底有什么变量来提供预测能力。统计学方法,通常应用于低维的数据集上。

当然,结合目前的工作,很容易发现,虽然我们使用的是机器学习方法,我们却十分关心统计学要求的那些域,我们也关注数据取得的方式,属性的分布特征等等问题。所以,也正如文中的结论,两者的区别在日益变小,而且在未来可能越来越难以区分。(而这半句,是我加的,我觉得在工业界会是这样)

还有幅图,我也挺喜欢。

大数据挖掘机器学习人工智能的维恩图战争

这幅图,介绍了机器学习的整个过程[11]。我觉得也是很重要的。

总结

基本上,数据科学这门学科到底涵盖些什么内容,其边界是模糊的。对于个新兴的学科来说,这点都不奇怪。我们有点是确认的,这是个综合性很强的交叉学科。大数据也是个宽泛的概念。机器学习和深度学习则是内涵外延比较明确的概念,公认有包含关系。人工智能则是更大的范畴,但是人工智能和大数据、数据科学都不是回事情。

推荐 打印 | 录入:admin | 阅读:
本文评论   
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款