首页 新闻 会员 周边 捐助

Spark 连接 mongodb 用python

0
悬赏园豆:10 [已关闭问题] 关闭于 2018-03-07 18:18

按照官网教程

1

from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("myApp") \
.config("spark.mongodb.input.uri", "mongodb://127.0.0.1/Spark-Test.Numbers") \
.config("spark.mongodb.output.uri", "mongodb://127.0.0.1/Spark-Test.Numbers") \
.getOrCreate()
df = spark.read.format("com.mongodb.spark.sql.DefaultSource").load()

结果报错Caused by: java.lang.ClassNotFoundException: com.mongodb.spark.sql.DefaultSource.DefaultSource

2
我看需要用--packages这个命令导入包
cmd>> pyspark  --package org.mongodb.spark:mongo-spark-connector_2.11:2.2.0
报错:
Exception in thread "main" java.lang.IllegalArgumentException: pyspark does not 

3
完全按照官方来
cmd>>pyspark --conf "spark.mongodb.input.uri=mongodb://127.0.0.1/test.myCollection?readPreference=primaryPreferred"
--conf "spark.mongodb.output.uri=mongodb://127.0.0.1/test.myCollection"
--packages org.mongodb.spark:mongo-spark-connector_2.10:1.1.0 
报错:'D:\SparkNew\spark\bin\pyspark2.cmd" --conf "spark.mongodb.input.uri' 不是内部或外部命令,
也不是可运行的程序或批处理文件。

不太明白我用的pyspark,怎么报错是pyspark2.cmd

那怎么才能跟mongodb连接呢,就是找不到DefaultSource.DefaultSource的事啊


问题补充:

windows平台

猝不及防的主页 猝不及防 | 老鸟四级 | 园豆:2878
提问于:2017-11-27 17:29
< >
分享
所有回答(1)
0

参考 Windows下单机安装Spark开发环境

安装python,并添加到系统变量path中:C:\Python27 和 C:\Python27\Scripts

dudu | 园豆:30757 (高人七级) | 2017-11-27 17:46

这些我都搞定了,python已经能跑spark了,只不过我想连mongodb,下载了mongodb官网的spark连接器,在用这个连接器的时候有问题

支持(0) 反对(0) 猝不及防 | 园豆:2878 (老鸟四级) | 2017-11-27 18:34
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册