首页 新闻 会员 周边

关于对历史数据的相似度查询方法

0
悬赏园豆:50 [已解决问题] 解决于 2016-04-05 10:06

各位博友,大家好,最近项目中遇到一个类似于相似度算法的问题,但是有不完全符合,具体的场景是,现在有这大量的历史数据,这些历史数据有着固定的格式,其结构我们可以咱定义为X1,X2,X3,X4,X5, Y,关系是Y和上面五个因素是对应的,这个已经确定,现在遇到的问题是,给出一组X1,X2,X3,X4,X5数据,去历史数据中查询相似度最近的Y值,这个Y值可能是求平均,或者是直接根据相识度查询出的,可能还有其他办法,现在拿不定注意,现在请大家帮帮忙,有什么好的建议。

Anvy-Wang的主页 Anvy-Wang | 初学一级 | 园豆:171
提问于:2015-11-26 09:19
< >
分享
最佳答案
0

这个和软件无关,就是算法,你找个数学高手。

另外,得把事情说清楚,这样说等于没说。估计要么你是国安局的。

收获园豆:50
爱编程的大叔 | 高人七级 |园豆:30839 | 2015-11-26 09:24

结果就是想要根据已输入的参数(X1,X2,X3,X4,X5)从历史数据中来找出最接近的那个那个Y值。国安局就说笑了。

Anvy-Wang | 园豆:171 (初学一级) | 2015-11-26 09:59

@Anvy-Wang: X1,2,3,4,5之间啥关系?

你想让电脑自动帮你找出关系?

你研究人工智能的吧,失敬失敬。这个得找百度那个谁,好像上次李彦宏到美国招聘的。

爱编程的大叔 | 园豆:30839 (高人七级) | 2015-11-26 10:02

@爱编程的大叔: X1,2,3,4,5没有关系,就是一些数据罗列在一起,电脑也不需要找出他们之间的关系,从输入的X1,X2,X3,X4,X5中找出那个Y值。

Anvy-Wang | 园豆:171 (初学一级) | 2015-11-26 10:05

@Anvy-Wang: 你这个太抽象了,研究生要是这么教,也没人读得下去。

你最好能用小学三年级能看懂的话来说明。到目前为止我还是不知道你想干啥呢。

模式只存在于你的心中?言语无法表达其中的千分之一?

就算是Statistics, 也得有Sample mean 和 Sample standard deviation,

或者是Regression formula,你这啥都不是,谁知道你想干啥呢?

 

这么说吧,你这事估计说明清楚,两张A4纸都不一定够,你要么写篇博文把来龙去脉

为啥做,数据是什么(起码列出来10组数据吧),关系是什么样的,

你的难题是啥,是代码,还是性能,还是算法。

你这么问,谁也不是你肚子里的蛔虫,咋答啊。

爱编程的大叔 | 园豆:30839 (高人七级) | 2015-11-26 10:31

@爱编程的大叔: 所以这里主要是你口里说的Statistics,Sample mean 和 Sample standard deviation, 或者是Regression formula而这些正好是要采用的措施,如何能找到一种更有效的办法,是此处讨论的重点。

数据格式可以定义成这样:

现在给出一组值:1.25  4.11  4.35  3.50  以上数据(这些数据只是样本,实际数据有几万条),来推测结果,中间主要用到的是什么算法。

Anvy-Wang | 园豆:171 (初学一级) | 2015-11-26 11:50

@Anvy-Wang: 这个真的去找吴恩达了。

大量的数据要找出未知的匹配模式,这个涉及到人工智能的问题。

就算是人,你给的数据都还不能说明任何问题。我说过的,上下文最重要,

你不说研究课题,不说应用环境,突然抛出一组数据,猜谜语也没有这么猜的。

如果是要研究这些数据的线性回归,你打开EXCEL,或者楼下说的SPSS,

有关统计的函数有很多的,无非就是测试相关性,

Confidence level, ANOVA, Kai-square 

你找个统计学老师帮帮你吧。

然而就算是统计学老师,你也得最少给他30个数据,才能保证是Normal distribution.

爱编程的大叔 | 园豆:30839 (高人七级) | 2015-11-26 12:04

@爱编程的大叔: 先在这里谢谢@爱编程的大叔了,我没有想到那么复杂,这是工作中遇到的一个问题,但是你也说了很多对我有用的话,谢谢。

Anvy-Wang | 园豆:171 (初学一级) | 2015-11-26 12:35

@Anvy-Wang: 没啥。问问题就得把问题说清楚,

有时候你会发现,当你能够把问题条理分明的说清楚的时候,你就已经把问题解决了。

你目前的主要问题是无法条理分明的说清楚你的问题。

爱编程的大叔 | 园豆:30839 (高人七级) | 2015-11-26 12:40
其他回答(4)
0

使用spss等统计软件比较合适,

可能会涉及统计中的聚类分析等分析方法

何德海 | 园豆:481 (菜鸟二级) | 2015-11-26 09:30
0

也许你的问题很简单,但从你的题目来开至少是研究生课题了

吴瑞祥 | 园豆:29449 (高人七级) | 2015-11-26 09:59

还请专家提一些建议,先谢谢了。

支持(0) 反对(0) Anvy-Wang | 园豆:171 (初学一级) | 2015-11-26 10:02
0

这个比较复杂……

不过我这边有一些代码,这个代码是这个样子,我给你讲一下不知道他能不能满足你的要求。

 

让我从举一个例子

某个医院早上收了六个门诊病人,如下表。

  症状  职业   疾病

  打喷嚏 护士   感冒
  打喷嚏 农夫   过敏
  头痛  建筑工人 脑震荡
  头痛  建筑工人 感冒
  打喷嚏 教师   感冒
  头痛  教师   脑震荡

现在又来了第七个病人,是一个打喷嚏的建筑工人。他最有可能是哪一种病……

我这边的代码可以帮你解答这个问题。

不知道这个代码能帮你不

需要格局 | 园豆:2145 (老鸟四级) | 2015-11-26 11:22

你这种情景,我们还是挺相似的,还请赐教。

支持(0) 反对(0) Anvy-Wang | 园豆:171 (初学一级) | 2015-11-26 11:36
0

怎么感觉跟   统计 概率论  算法 相关的话题,代码没关系。

小刺猬001 | 园豆:660 (小虾三级) | 2015-12-09 16:32
清除回答草稿
   您需要登录以后才能回答,未注册用户请先注册