首页 新闻 搜索 专区 学院
当前位置: 博问标签 /spark/未解决/ 已解决
1
回答数

Structured Streaming中window不存在问题。

今天运行Spark官网的Demo http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#han
1
回答数

50 大数据实时分析架构需要哪些框架、组件?

业务场景:目前存入MySQL中部分历史业务数据,时时刻刻也会产生数据。根据这些数据做一个实时分析架构实现,初学者还不是很懂,望谅解。打算搭建一个简单的实时分析仓库。 思路:接入MySQL中的业务数据,
0
回答数

spark使用json4s在windows可用,但是在spark中抛出如下错误。添加json4s的jar包也不行

Exception in thread "main" java.lang.NoSuchMethodError: org.json4s.jackson.JsonMethods$.parse(Lorg/j
0
回答数

咨询一个关于spark归一化,然后排序的问题

请以上述 3、&4、(题目数字编号)任务的输出结果作为输入数据源,编 写 Spark 程序从城市的酒店总订单、用户评分及评论数角度综合分析并 获得城市的受欢迎程度排名,取最受游客欢迎的 5 个城市形成
0
回答数

spark中使用spark://协议计数器空指针异常

将master设置为local[3]的时候,上传到服务器正常运行。但是将master设置为spark://协议的时候就会在调用计数器方法的时候报空指针异常。这是为什么呢? 其次,当我在本地运行时,计数
1
回答数

60 spark 只分配2个executor,什么原因

spark-submit master为yarn。命令如下: spark-submit --master yarn --deploy-mode cluster --class com.fooww.re
2
回答数

100 spark Dataset<Row>如何按行获取数据

需求:要把spark的数据转为json数据,collectAsLIst()返回LIst,但是如果数据量太大,内存肯定不够,所以有什么办法可以一行一行获取 看到limit(n)方法也只能获取前n的数据
0
回答数

100 sparkstream 读取kafka的返回值

KafkaUtils.createStream(ssc,zookeeperQuorum,group,topicMap) 返回值的receiverInputDstream[(String,String)
0
回答数

100 spark RDD map()函数参数的返回值

val resultRdd = houseStringsRdd.map(houseString=>{ val houseRent = HouseRent.getHouseRent(houseStrin
0
回答数

30 park 分组后取id最大的记录的字段

dataframe 结构: | Id | UserID | GameLevel | RegisterTime | GameAge | VipLevel| 如题:, 按userid 分组, 取id 最大
1
回答数

40 GraphX构建图的时候,顶点数增多了是为什么,求教!

刚开始接触GraphX,拿到了一份类似用户关注的测试数据。 用户ID10000条,对应10000个节点。用户关系的数量不明。 数据格式如下: 建图代码如下: import org.apache.spa
0
回答数

30 在Spark 中对Hive 进行操作

在pyspark中: from pyspark import HiveContext hive_context = HiveContext(sc) hive_context.sql('use spar
1
回答数

80 实际问下各位公司中的spark集群有几台

问下各位所供职的公司中使用的spark集群有多少台?每天的日志量大约有多大,kafka布了有多少
1
回答数

spark 分布式写数据到oracle

大家有spark 分布式写数据到oracle 的相关代码或资源吗? 新手求学习介绍
1
回答数

20 spark submit 运行多个任务问题,求大神解答

我用的是独立模式,2个application 提交的参数是: --master spark://spark-1:7077 --executor-memory 4g --driver-memory 2g
1
回答数

30 spark-submit 怎么设置才能避免这些警告

admin@spark1:~/work$ spark-submit import_other.py 17/10/27 17:57:28 WARN HiveConf: HiveConf of name
1
回答数

SPARK调度流,请帮助解惑

1. 每个Worker起动都向Master 注册,登记在workers中,每个Worker也满足每个TASK 需要的CORES2. 简单起见,就设定 每台机器只起一个Worker ,现在有 A-J 1
0
回答数

30 利用spark读取csv文件乱码问题

先上scala代码 val conf = new SparkConf().setAppName("Test1").setMaster("local") val sparkContext = new S
2
回答数

50 idea+spark+streaming+kafka报错

哪位大神指教一下,十分感谢 1.源码 def main(args: Array[String]) { val conf = new SparkConf().setAppName("stream tes
0
回答数

30 pyspark中逻辑回归模型的 导出和使用问题

使用 pyspark LogisticRegressionWithLBFGS 训练得到多分类模型 1.如何将模型导出,使得python的sklearn 可以导入该模型 中间查了资料,说是可以导出成pm
1
回答数

50 spark 运行在yarn上

进程: [itsels@hadoop spark--bin-2.5.0-cdh5.3.6]$ jps 2390 HistoryServer 2521 ResourceManager 2578 Node
0
回答数

如何用scala求积分函数?

求得一组数据,符合正太累积分布,想求得对应的概率值。按需用scala进行编写,但是scala没有对应的包,求问如何用scala或者RDD求正太累积分布函数,或者是如何用scala求积分函数,希望能理解
0
回答数

Spark 程序本地测试的时候报错unread block data 但是在集群上运行是正常的

Spark 本地测试的是时候setMaster 设置为spark主节点就会出现unread block data 求大神解决
1
回答数

对于hadoop和spark,你有什么感受和心得?

对大数据比较感兴趣,希望经历过的人给一些建议和学习心得。
1
回答数

30 关于spark streaming,如何输出程序产生的中间结果

刚刚学习spark streaming,程序每次都是以 --master local[2]的模式跑。发现这样一个问题:当使用命令 bin/spark-submit --class com.xxxxx.