尝试在 Windows 环境配置单机版本的 Spark, 过程还是比较简单的,记录如下。

环境

  • OS: Windows 10 Pro 64 bit;
  • Java: 1.8.073 64 bit;
  • Python: 2.7.10 32 bit;

安装 Spark

  1. 安装 JDK, 如果已经安装 JDK, 这一步可以略过。去 Oracle 官网下载 JDK, 安装过程默认即可,安装结束后,新建环境变量 JAVA_HOME, 指向 JDK 安装路径,如果安装的时候选择默认路径,则为 C:\Program Files\Java\jdk1.8.0_51, 然后将 %JAVA_HOME%\bin 添加到系统环境变量 PATH 中。
  2. 去 Spark 官网下载 Spark, 目前能下载的最新版本为 spark-2.0.1-bin-hadoop2.7.
  3. 解压,假设解压后目录结构为 E:\spark-2.0.1-bin-hadoop2.7. 新建 SPARK_HOME 环境变量,指向 E:\spark-2.0.1-bin-hadoop2.7, 同时将 %SPARK_HOME%\bin 添加到系统环境变量 PATH 变量中。
  4. Spark 基于 Hadoop, 所以将 Hadoop 也一并配置,过程差不多。
  5. 去 Hadoop 官网下载 Hadoop, 目前能下载的最新稳定版本为 hadoop-2.7.3.
  6. 解压,假设解压后目录结构为 E:\hadoop-2.7.3. 新建 HADOOP_HOME 环境变量,指向 E:\hadoop-2.7.3, 同时将 %HADOOP_HOME%\bin 添加到系统环境变量 PATH 变量中。
  7. 验证是否安装成功:
1
2
3
E:\
cd E:\spark-2.0.1-bin-hadoop2.7\bin
spark-shell

你将看到类似如下输出:

Spark-Shell

Spark 交互配置

Spark 启动并运行后,可以用 Spark shell 连接到 Spark 引擎进行交互式数据分析。Spark shell 支持 Scala 和 Python 两种语言。Java 不支持交互式的 Shell,因此这一功能暂未在 Java 语言中实现。

使用 spark-shell.cmd 运行 Scala 版本的 Spark Shell,如果想要通过 Python 与 Spark 交互,还需要进行一些简单的配置。

  1. 去 Python 官网下载 Python, 最新的 Python 3.5.2 和 Python 2.7.12 都行。
  2. 安装 Python, 默认安装即可,将 C:\Python27C:\Python27\Scripts 添加到系统变量 PATH 中。
  3. 现在可以在 cmd 命令行下运行 pyspark, 输出类似如下:

Python-Spark

Spark Web 控制台

首先通过 Spark-Shell 或者 Python-Spark 启动 Spark 后,在浏览器中输入 http://localhost:4040, 可以查看 Spark 的作业结果和其他的统计数据:

Web-UI

后记

完成单机配置后,就可以在在 Java / Scala / Python / R / Clojure 等应用中调用 Spark API 进行数据分析,当然不同开发环境可能还需要进一步配置 o( ̄▽ ̄)ブ