注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

数据挖掘与数据分析

个人微信:datamen 欢迎交流

 
 
 

日志

 
 

数据挖掘常用术语  

2010-01-13 13:29:13|  分类: 统计 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |

 

“算法”指的是用于实现某一数据挖掘技术-如分类树、辨识分析等等的特定程序。

“属性”也被称为“特性”、“变量”、或者从数据库的观点,是一个“域” 。

“个体”是关于一个单元的测量值的集合――例如一个人的身高、体重、年龄等等;它也被称作“记录”、 或 者“行”(每一行通常代表一个记录,每一列代表一个变量)。

“置信度”在形如“如果买了A和B,就要买C”的关联法则里有特定的含义。置信度是已经买了A和B,还要买C的条件概率。  

“因变量”在有约束学习里是那个被预测的变量;也被称作“输出变量”、“目标变量”、或者“结果变量”

“估计”指的是预测一个连续型输出变量的值;也被称作“预测”。

“特征”也被称作“属性”、“变量”,或者从数据库的观点,称为“域”。

“输入变量”是在有约束学习里作预测的变量;也被称作“自变量”、“预测变量”。

“模型”通常指的是一个数学公式,包括为它设置的参数(许多模型具有用户可以调节的参数)。

“结果变量” 在有约束学习里是那个被预测的变量;也被称作“因变量” “输出变量”、“目标变量”、或者“输出变量”。

“P(A|B)”读作“已知B已经发生,A将发生的概率”

“预测”指的是预测一个连续输出变量的值;也被称作“估计”。

“记录”是关于一个单元的测量值的集合-例如一个人的身高、体重、年龄等等;它也被称作“个体”、或者“排”(每一排通常代表一个记录,每一列代表一个变量)。

“分数”指的是一个估计的值或者类。

“给新数据打分”意思是利用用训练数据得出的模型预测新数据里的输出值

  评论这张
 
阅读(4815)| 评论(1)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017