首页
新闻
会员
周边
捐助
园子
·
关注
·
粉丝
·
会员
·
随便看看
·
消息
欢迎,请先
登录
或者
注册
。
登录
/
注册
闪存
博客
发言
小组
投递
新闻
提问
博问
添加
收藏
文库
问题反馈
问题列表
我关注的
我的博问
博问标签
提问
回答
被采纳
1
回答数
数据建模中的空值问题
数据建模,存在空值。。。而且这个空值还不能随便填充。。因为的确可能存在空值的情况。。。貌似sklearn的库中,都无法接受数据存在空值的情况,那要如何进行建模呢。。
1
回答数
关于python代码中,变量是否需要定义的疑问
编写代码时,发现,部分变量如单独定义的话,会方便后面的使用。但是这个貌似也会延长代码运行时间。 而有时候,我也发现,一个表达式如果不定义为一个变量的话,写起来很长,不便于阅读。同时,有时候一样会增加代
0
回答数
如何对python代码进行优化,以提高运行速度
遇到个代码优化的问题。。想请教下。。这段代码,结构或是哪里该如何优化下,以提高运行速度。。 大致情况先介绍下: 代码需要考虑指定文件的输出 也就是相应数据是否需要计算;代码中的if output1 /
0
回答数
如何快速批量转换多列的数据格式
手头一组数据,其中有10多个列,其中有连续几列数据,需快速转换为浮点型。 我用的代码是: data[data.columns[1:-1]] = data[data.columns[1:-1]].app
0
回答数
python中如何简单地判别众数,及其个数?
手头一组数据,大致情况如下: 需要将数据按组别,分别求其众数对应的LEVEL数值。(要求是:如众数不唯一,则要取LEVEL最大的值 即,如果A组中,有3个LEVEL(2,3,6)数量都是5个,则取6)
0
回答数
python代码如何改进,以记录数据中每列的异常值
我手头有一组数据,其中有些异常值,已经被替换成了-1值。 我需要新生成一列,列中注明每行数据中,那几列的数值是异常的。。具体代码该怎么写呢? 数据大致情况如下:(我需要在remark列的每一行中,注明
1
回答数
cmd环境下运行python程序,导入pandas包发现报错importerror..
请教下,安装python后,环境变量也设置好了。用pip命令安装pandas和numpy 也都成功了。 但是在cmd环境下运行python命令,导入pandas包的时候,却报错: ImportErro
1
回答数
pandas中如何方便实现excel中的countif函数?
如图所示,我需要统计每行中比指标值大的列的个数。。excel很容易用countif函数来计数。。 但是我用pandas死活搞不出结果来。。 我的代码是: np.where(data[data.colu
0
回答数
问卷调查的数据,该如何处理清洗
手头一份问卷调查报告,需要对其清洗数据并建模,以便日后预测。 数据中含有不少字符串格式的字段,需要将其转换成数值格式。但是由于是问卷调查,答案五花八门,即使将手头数据的字符转换成了数值,也无法保证将来
0
回答数
折腾半天出来的模型过拟合了,但是精度还是挺高的。。可以采纳这种模型么?
这个分类模型,是搞了好久,最终用过采样的方法,训练出来了。准确度相对已经是最高的情况了。。 但是仍旧存在过拟合问题。。想请问下,这样的情况下,模型还能否采纳?
1
回答数
80
关于Sklearn中的数据标准化处理疑问
我用sklearn中的preprocessing.StandardScaler, 及自己编写计算公式,同时对数据进行标准处理,发现两种方法出来的结果有些不太一样。。 请问下,这个是为什么?
0
回答数
网格搜索,得出最优参数后的训练模型,是采用训练数据集,还是直接用的数据全集?
关于网格搜索,还是有些不太明白的地方: 网格搜索GridSearchCV中,其实已经包含了交叉验证了(cv默认值是10)。那通过网格搜索得到最优参数后,正式训练模型时,是使用训练数据集(用原始数据集切
0
回答数
分类模型预测的类别如何进行识别
我的模型数据中,原始目标变量设置了类别,分别是3,4,5(原来的标准是1-6,但是数据实际分类出来只符合了3,4,5三种类别,其他类别没有数据匹配到); 而模型预测出来的类别却自动命名为0,1,2。
0
回答数
网格搜索时,模型是否需要先fit下?
有点迷糊了。。网格搜索前,模型是否需要fit下呢? 也就是下面代码对不对? params_1 = {'max_features':range(3,11,2)} rf1 = RandomForestCl
2
回答数
李航老师的统计学习方法中的凸优化问题
统计学习方法第215页最后一句话: 支持向量机学习、逻辑斯蒂回归与最大熵模型学习、条件随机场学习是凸优化问题,全局最优解保证存在。而其他学习问题则不是凸优化问题。 这句话有些不理解。。意思是其他学习问
0
回答数
模型训练时,如何纳入时间变量?
手头有一批数据,其中大部分是连续型数值变量,部分是分类型变量,还有一个时间记录。 模型的目的是分析一种水质污染情况,用于监控污染物的排放,并提出针对性的方案。(主要是多家企业的排放,气象数据,水温等数
0
回答数
定量和定性数据之间的相关性判别
有点被这个相关性搞混淆了。请高手指点迷津: 定量数据之间,如何进行相关性分析? --我记得是用皮尔逊相关(适用线性相关的定量数据),斯皮尔曼相关(适用非线性相关的定量数据),不知道对不对; 定性数据之
1
回答数
100
关于模型训练的几个疑问
模型训练前,需要确定损失函数,及是否需要正则化。这个一般情况下,是根据经验或是根据数据的实际情况来确定么? 又或者是根据所选择的模型来选择? 确定好策略后,模型训练结束的标准就是经验风险或结构风险是否
0
回答数
如何判断模型数据中有无隐变量
李航老师的统计学习方法中的EM算法提到了隐变量的概念,我看得有些迷糊: 如何判断数据中有无隐变量? 现实生活中,比如要研究空气污染的模型,那数据采集下来,怎么能做到不包含隐变量?如果无法保证的话,那不
1
回答数
关于神经网络模型的疑问
神经网络模型,因为其随机性,每次训练出来的结果中准确度不太一样。想请问下: 每次训练的准确度会相差很多么? 我自己试过几次,貌似不会很大。但是个人经验不足,不敢确认; 假使准确度相差较大,而当前的模型
2
回答数
如何理解核函数?
看了半天核函数的解释,一直还是没法理解核函数的意义。 从李航老师的统计学习方法书中的描述: 核技巧的想法是,在学习与预测中只定义核函数K(x, z),而不显式地定义映射函数Φ。通常,直接计算K(x,
< Prev
1
2
老笨啊
园豆:6
排名:1500名之外
博问搜索
关于博问
»
博问帮助
»
发现问题
»
我有建议