使用python设置/运行Apache Spark时遇到问题(在Windows 10中)

最后发布: 2015-12-19 03:27:32


问题

我是个超级新手,所以我的问题可能有一个我不太了解的“不对”的答案。

首先,我下载了spark 1.5.2并将其解压缩。 在python文件夹中,我尝试运行pyspark,但是它说了一些需要 .py的内容,因此我将init .py复制到了main .py,并开始出现奇怪的语法错误。 我意识到我使用的是python 2.9,所以我切换到2.7,并得到了另一个错误:

Traceback (most recent call last):
  File "C:\Python27\lib\runpy.py", line 162, in _run_module_as_main
    "__main__", fname, loader, pkg_name)
  File "C:\Python27\lib\runpy.py", line 72, in _run_code
    exec code in run_globals
  File "C:\spark-1.5.2\python\pyspark\__main__.py", line 40, in <module>
    from pyspark.conf import SparkConf
ImportError: No module named pyspark.conf

我在这里发现了类似错误的问题: 将“ SPARK_HOME”设置为什么?

因此,我像设置环境变量一样设置了环境变量(使用C:/spark-1.5.2代替C:/ spark除外),但这并没有为我解决错误。 然后我意识到他们正在使用来自github的spark 1.4。 因此,我制作了一个新文件夹,并像他们一样尝试了。 我被命令卡住了:

build/mvn -DskipTests clean package

显示错误:

Java HotSpot(TM) Client VM warning: ignoring option MaxPermSize=512M; support was removed in 8.0
Error occurred during initialization of VM
Could not reserve enough space for 2097152KB object heap  

我尝试添加“ -XX:MaxHeapSize = 3g”,但没有任何变化。 注意到注释“ 8.0中的支持已删除”,我下载了Java 7,但这也没有任何改变。

提前致谢

python apache-spark pyspark