构建价格模型 -- Building Price Models
大部分分类器非常适合于对未知数据的所属分类进行预测。但是,在利用多种不同属性(比如价格)对数值型数据进行预测时,贝叶斯分类器、决策树、及支持向量机都不是最佳算法。
本章将对一系列算法进行考查:这些算法接受训练,根据之前见过的样本数据作出数值类的预测,而且可以显示概率分布,以帮助用户对预测过程加以解释
介绍如何利用这些算法来构造价格预测模型。
进行数值型预测的一项关键工作是确定哪些变量是重要的。将利用第5章中介绍过的优化技术,自动确定各个变量的最佳权重。
构造一个样本数据集 -- Building a Sample Dataset
k-最近邻算法 -- k-Nearset Neighbors
近邻数 -- Number of Neighbors
定义相似度 -- Defining Similarity
k-最近邻算法的代码 -- Code for k-Nearset Neighbors
为近邻分配权重 -- Weighted Neighbors
反函数 -- Inverse Function
减法函数 -- Subtraction Function
高斯函数 -- Gaussian Function
加权kNN -- Weighted kNN
交叉验证 -- Cross-Validation
不同类型的变量 -- Heterogeneous Variables
加入数据集 -- Adding to the Dataset
按比例缩放 -- Scaling Dimensions
对缩放结果进行优化 -- Optimizing the Scale
在有许多输入变量须要考查的情况下,利用第5章的优化算法自动寻找最优解。
不对称分布 -- Uneven Distributions
估计概率密度 -- Estimating the Probability Density
绘制概率分布 -- Graphing the Probabilities
使用真实数据eBay API -- Using Real Data--the eBay API
获取开发者密钥 -- Getting a Developer Key
建立连接 -- Setting Up a Connection
获取商品明细 -- Getting Details for an Item
构造价格预测程序 -- Building a Price Predictor
何时使用k-最近邻算法 -- When to Use k-Nearset Neighbors
不足:
计算量大:需要计算针对每个点的距离
在一个包含有许多变量的数据集中,我们可能很难确定合理的权重值,也很难决定是否应该去除某些变量。
优势:
无需任何计算开销的前提下将新的观测数据加入到数据集中。因为算法是在使用其他观测数据的加权值来进行预测的。
一旦确定了最佳的权重值,就可以凭借这些信息更好地掌握数据集所具备的特征
当怀疑数据集中还有其他无法度量的变更时,还可以建立概率函数。
Exercises