首页 新闻 搜索 专区 学院
当前位置: 博问标签 /spark/未解决/ 已解决
1
回答数

如何修改spark资源上传目录

yarn.Client: Uploading resource file:/tmp/spark-6947d690-9749-43bd-8d9a-e14e8ccc1138/__spark_libs__3
0
回答数

15 spark在单线程单分区下,还会存在宽依赖吗

我们都知道spark的stage是通过宽依赖进行划分。其根本原因是在错误恢复时,能够确定从哪一步进行数据恢复。窄依赖可以确定唯一的恢复源,而宽依赖无法确定恢复源,所以需要结果stage划分,进行一段数
0
回答数

5 spark-submit提交带有kerberos访问认证的HBase的任务时,读取不到krb5.conf文件

寻求各位大佬的帮忙!!! 在进行编写spark程序时,需要从HBase中读写数据,最近HBase集群进行了kerberos的认证,我在代码中进行了HBase的kerberos认证配置之后,kerber
3
回答数

10 spark下载

请问spark版本下拉框打开不了,版本不能选,换了浏览器也不行,大家都怎么下载的呀? 官网 http://spark.apache.org/downloads.html
0
回答数

10 spark任务的某个stage执行时间过长,应该如何调优?(附上DAG图)

是用 pyspark写的,附上 sparkui 里显示耗时阶段的 DAG图:
1
回答数

Structured Streaming中window不存在问题。

今天运行Spark官网的Demo http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html#han
1
回答数

50 大数据实时分析架构需要哪些框架、组件?

业务场景:目前存入MySQL中部分历史业务数据,时时刻刻也会产生数据。根据这些数据做一个实时分析架构实现,初学者还不是很懂,望谅解。打算搭建一个简单的实时分析仓库。 思路:接入MySQL中的业务数据,
0
回答数

咨询一个关于spark归一化,然后排序的问题

请以上述 3、&4、(题目数字编号)任务的输出结果作为输入数据源,编 写 Spark 程序从城市的酒店总订单、用户评分及评论数角度综合分析并 获得城市的受欢迎程度排名,取最受游客欢迎的 5 个城市形成
0
回答数

spark中使用spark://协议计数器空指针异常

将master设置为local[3]的时候,上传到服务器正常运行。但是将master设置为spark://协议的时候就会在调用计数器方法的时候报空指针异常。这是为什么呢? 其次,当我在本地运行时,计数
1
回答数

60 spark 只分配2个executor,什么原因

spark-submit master为yarn。命令如下: spark-submit --master yarn --deploy-mode cluster --class com.fooww.re
2
回答数

100 spark Dataset<Row>如何按行获取数据

需求:要把spark的数据转为json数据,collectAsLIst()返回LIst,但是如果数据量太大,内存肯定不够,所以有什么办法可以一行一行获取 看到limit(n)方法也只能获取前n的数据
0
回答数

100 sparkstream 读取kafka的返回值

KafkaUtils.createStream(ssc,zookeeperQuorum,group,topicMap) 返回值的receiverInputDstream[(String,String)
0
回答数

100 spark RDD map()函数参数的返回值

val resultRdd = houseStringsRdd.map(houseString=>{ val houseRent = HouseRent.getHouseRent(houseStrin
0
回答数

30 park 分组后取id最大的记录的字段

dataframe 结构: | Id | UserID | GameLevel | RegisterTime | GameAge | VipLevel| 如题:, 按userid 分组, 取id 最大
1
回答数

40 GraphX构建图的时候,顶点数增多了是为什么,求教!

刚开始接触GraphX,拿到了一份类似用户关注的测试数据。 用户ID10000条,对应10000个节点。用户关系的数量不明。 数据格式如下: 建图代码如下: import org.apache.spa
0
回答数

30 在Spark 中对Hive 进行操作

在pyspark中: from pyspark import HiveContext hive_context = HiveContext(sc) hive_context.sql('use spar
1
回答数

80 实际问下各位公司中的spark集群有几台

问下各位所供职的公司中使用的spark集群有多少台?每天的日志量大约有多大,kafka布了有多少
1
回答数

spark 分布式写数据到oracle

大家有spark 分布式写数据到oracle 的相关代码或资源吗? 新手求学习介绍
1
回答数

20 spark submit 运行多个任务问题,求大神解答

我用的是独立模式,2个application 提交的参数是: --master spark://spark-1:7077 --executor-memory 4g --driver-memory 2g
1
回答数

30 spark-submit 怎么设置才能避免这些警告

admin@spark1:~/work$ spark-submit import_other.py 17/10/27 17:57:28 WARN HiveConf: HiveConf of name
1
回答数

SPARK调度流,请帮助解惑

1. 每个Worker起动都向Master 注册,登记在workers中,每个Worker也满足每个TASK 需要的CORES2. 简单起见,就设定 每台机器只起一个Worker ,现在有 A-J 1
0
回答数

30 利用spark读取csv文件乱码问题

先上scala代码 val conf = new SparkConf().setAppName("Test1").setMaster("local") val sparkContext = new S
2
回答数

50 idea+spark+streaming+kafka报错

哪位大神指教一下,十分感谢 1.源码 def main(args: Array[String]) { val conf = new SparkConf().setAppName("stream tes
0
回答数

30 pyspark中逻辑回归模型的 导出和使用问题

使用 pyspark LogisticRegressionWithLBFGS 训练得到多分类模型 1.如何将模型导出,使得python的sklearn 可以导入该模型 中间查了资料,说是可以导出成pm