老笨啊提出的问题_博问

1

回答数

数据建模中的空值问题

数据建模，存在空值。。。而且这个空值还不能随便填充。。因为的确可能存在空值的情况。。。貌似sklearn的库中，都无法接受数据存在空值的情况，那要如何进行建模呢。。

机器学习 python skicit learn

老笨啊
浏览(479) 6年前

1

回答数

关于python代码中，变量是否需要定义的疑问

编写代码时，发现，部分变量如单独定义的话，会方便后面的使用。但是这个貌似也会延长代码运行时间。而有时候，我也发现，一个表达式如果不定义为一个变量的话，写起来很长，不便于阅读。同时，有时候一样会增加代

python

老笨啊
浏览(933) 6年前

0

回答数

如何对python代码进行优化，以提高运行速度

遇到个代码优化的问题。。想请教下。。这段代码，结构或是哪里该如何优化下，以提高运行速度。。大致情况先介绍下：代码需要考虑指定文件的输出也就是相应数据是否需要计算；代码中的if output1 /

python

老笨啊
浏览(1318) 6年前

0

回答数

如何快速批量转换多列的数据格式

手头一组数据，其中有10多个列，其中有连续几列数据，需快速转换为浮点型。我用的代码是： data[data.columns[1:-1]] = data[data.columns[1:-1]].app

python

老笨啊
浏览(523) 6年前

0

回答数

python中如何简单地判别众数，及其个数？

手头一组数据，大致情况如下：需要将数据按组别，分别求其众数对应的LEVEL数值。(要求是：如众数不唯一，则要取LEVEL最大的值即，如果A组中，有3个LEVEL（2,3,6）数量都是5个，则取6）

python 数据分析

老笨啊
浏览(1594) 6年前

0

回答数

python代码如何改进，以记录数据中每列的异常值

我手头有一组数据，其中有些异常值，已经被替换成了-1值。我需要新生成一列，列中注明每行数据中，那几列的数值是异常的。。具体代码该怎么写呢？数据大致情况如下：（我需要在remark列的每一行中，注明

python

老笨啊
浏览(526) 6年前

1

回答数

cmd环境下运行python程序，导入pandas包发现报错importerror..

请教下，安装python后，环境变量也设置好了。用pip命令安装pandas和numpy 也都成功了。但是在cmd环境下运行python命令，导入pandas包的时候，却报错: ImportErro

python

老笨啊
浏览(4765) 6年前

1

回答数

pandas中如何方便实现excel中的countif函数？

如图所示，我需要统计每行中比指标值大的列的个数。。excel很容易用countif函数来计数。。但是我用pandas死活搞不出结果来。。我的代码是： np.where(data[data.colu

python 数据分析

老笨啊
浏览(2933) 6年前

0

回答数

问卷调查的数据，该如何处理清洗

手头一份问卷调查报告，需要对其清洗数据并建模，以便日后预测。数据中含有不少字符串格式的字段，需要将其转换成数值格式。但是由于是问卷调查，答案五花八门，即使将手头数据的字符转换成了数值，也无法保证将来

机器学习数据挖掘

老笨啊
浏览(2461) 6年前

0

回答数

折腾半天出来的模型过拟合了，但是精度还是挺高的。。可以采纳这种模型么？

这个分类模型，是搞了好久，最终用过采样的方法，训练出来了。准确度相对已经是最高的情况了。。但是仍旧存在过拟合问题。。想请问下，这样的情况下，模型还能否采纳？

机器学习数据挖掘支持向量机

老笨啊
浏览(716) 6年前

1

回答数

80 关于Sklearn中的数据标准化处理疑问

我用sklearn中的preprocessing.StandardScaler，及自己编写计算公式，同时对数据进行标准处理，发现两种方法出来的结果有些不太一样。。请问下，这个是为什么？

机器学习

老笨啊
浏览(641) 6年前

0

回答数

网格搜索，得出最优参数后的训练模型，是采用训练数据集，还是直接用的数据全集？

关于网格搜索，还是有些不太明白的地方：网格搜索GridSearchCV中，其实已经包含了交叉验证了（cv默认值是10）。那通过网格搜索得到最优参数后，正式训练模型时，是使用训练数据集（用原始数据集切

机器学习

老笨啊
浏览(876) 6年前

0

回答数

分类模型预测的类别如何进行识别

我的模型数据中，原始目标变量设置了类别，分别是3，4，5（原来的标准是1-6，但是数据实际分类出来只符合了3,4,5三种类别，其他类别没有数据匹配到）；而模型预测出来的类别却自动命名为0，1，2。

机器学习

老笨啊
浏览(325) 6年前

0

回答数

网格搜索时，模型是否需要先fit下？

有点迷糊了。。网格搜索前，模型是否需要fit下呢？也就是下面代码对不对？ params_1 = {'max_features':range(3,11,2)} rf1 = RandomForestCl

机器学习

老笨啊
浏览(362) 6年前

2

回答数

李航老师的统计学习方法中的凸优化问题

统计学习方法第215页最后一句话：支持向量机学习、逻辑斯蒂回归与最大熵模型学习、条件随机场学习是凸优化问题，全局最优解保证存在。而其他学习问题则不是凸优化问题。这句话有些不理解。。意思是其他学习问

统计学习机器学习

老笨啊
浏览(490) 6年前

0

回答数

模型训练时，如何纳入时间变量？

手头有一批数据，其中大部分是连续型数值变量，部分是分类型变量，还有一个时间记录。模型的目的是分析一种水质污染情况，用于监控污染物的排放，并提出针对性的方案。（主要是多家企业的排放，气象数据，水温等数

机器学习深度学习

老笨啊
浏览(591) 6年前

0

回答数

定量和定性数据之间的相关性判别

有点被这个相关性搞混淆了。请高手指点迷津：定量数据之间，如何进行相关性分析？ --我记得是用皮尔逊相关（适用线性相关的定量数据），斯皮尔曼相关（适用非线性相关的定量数据），不知道对不对；定性数据之

数据分析

老笨啊
浏览(6265) 6年前

1

回答数

100 关于模型训练的几个疑问

模型训练前，需要确定损失函数，及是否需要正则化。这个一般情况下，是根据经验或是根据数据的实际情况来确定么？又或者是根据所选择的模型来选择？确定好策略后，模型训练结束的标准就是经验风险或结构风险是否

机器学习深度学习

老笨啊
浏览(422) 6年前

0

回答数

如何判断模型数据中有无隐变量

李航老师的统计学习方法中的EM算法提到了隐变量的概念，我看得有些迷糊：如何判断数据中有无隐变量？现实生活中，比如要研究空气污染的模型，那数据采集下来，怎么能做到不包含隐变量？如果无法保证的话，那不

数据挖掘机器学习深度学习

老笨啊
浏览(431) 6年前

1

回答数

关于神经网络模型的疑问

神经网络模型，因为其随机性，每次训练出来的结果中准确度不太一样。想请问下：每次训练的准确度会相差很多么？我自己试过几次，貌似不会很大。但是个人经验不足，不敢确认；假使准确度相差较大，而当前的模型

机器学习数据挖掘深度学习

老笨啊
浏览(383) 6年前

2

回答数

如何理解核函数？

看了半天核函数的解释，一直还是没法理解核函数的意义。从李航老师的统计学习方法书中的描述：核技巧的想法是，在学习与预测中只定义核函数K(x, z),而不显式地定义映射函数Φ。通常，直接计算K(x,

机器学习数据挖掘

老笨啊
浏览(665) 6年前

欢迎，请先登录或者注册。

数据建模中的空值问题

关于python代码中，变量是否需要定义的疑问

如何对python代码进行优化，以提高运行速度

如何快速批量转换多列的数据格式

python中如何简单地判别众数，及其个数？

python代码如何改进，以记录数据中每列的异常值

cmd环境下运行python程序，导入pandas包发现报错importerror..

pandas中如何方便实现excel中的countif函数？

问卷调查的数据，该如何处理清洗

折腾半天出来的模型过拟合了，但是精度还是挺高的。。可以采纳这种模型么？

80 关于Sklearn中的数据标准化处理疑问

网格搜索，得出最优参数后的训练模型，是采用训练数据集，还是直接用的数据全集？

分类模型预测的类别如何进行识别

网格搜索时，模型是否需要先fit下？

李航老师的统计学习方法中的凸优化问题

模型训练时，如何纳入时间变量？

定量和定性数据之间的相关性判别

100 关于模型训练的几个疑问

如何判断模型数据中有无隐变量

关于神经网络模型的疑问

如何理解核函数？

博问搜索

关于博问

欢迎，请先 登录 或者 注册 。

80 关于Sklearn中的数据标准化处理疑问

100 关于模型训练的几个疑问

博问搜索

关于博问

欢迎，请先登录或者注册。