你好,游客 登录 注册 搜索
背景:
阅读新闻

基于电影知识图谱的智能问答系统(三) -- Spark环境搭建

[日期:2018-05-22] 来源:  作者: [字体: ]

       由于该项目后期会涉及到spark的朴素贝叶斯分类器,而该分类器可以通过训练问题集合进行问题模板概率匹配,因此,系统中是否搭建了spark环境对项目是否能run起来至关重要。

 


一、工具包及环境搭建简易说明

 

由于工具包比较大,涉及scala语言安装包、hadoop安装包以及spark-hadoop安装包,故只提供百度网盘的下载链接

 

 

下载地址:https://pan.baidu.com/s/10XUKpYBXqQ16UqDRTFerWg

 

 

二、Windows下Spark环境的搭建

 

本想着自己写个搭建过程,但是感觉没什么必要了,都是流水账了,推荐看下下面提供的博文,非常详细
 

 

 

三、验证Spark环境是否搭建成功

 

(1)任意目录下,运行 Win+R,并输入spark-shell脚本命令,测试spark

 

什么是spark-shell?

spark-shell是提供给用户即时交互的一个命令窗口,你可以在里面编写spark代码,然后根据你的命令进行相应的运算

 

 

 

(2)实例化SparkContext对象

 

什么是SparkContext?

SparkContext是编写Spark程序用到的第一个类,其中包含了Spark程序用到的几乎所有的核心对象,可见其重要性

 

 

master:local[*]   == 本地运行模式[也可以是集群的形式],*表示多个线程并行执行

 

在Java中实例化SparkContext对象的demo如下

 

 

(3)通过scala语言,编写spark代码,利用reduce计算集合1,2,3,4,5的和

 

       通过调用SparkContext的parallelize方法,在一个已经存在的Scala集合上创建一个Seq对象。集合的对象将会被拷贝,创建出一个可以被并行操作的分布式数据集RDD

 

体现在Java中的demo如下

 


 

体现在脚本语言中如下:

 

收藏 推荐 打印 | 录入:admin | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
热门评论