概念模型
也可以处理连续的描述属性详情
当前位置:主页 > 秒速牛牛作品 > 概念模型 >
也可以处理连续的描述属性

   

  随着计算机技术的兴起,当前社会已经进入大数据信息时代。资本市场随着投资者的不断涌入以及金融科技的不断发展,交易时所涉及到的信息也逐渐繁杂。如果还是利用过往的分析模式,个人的力量就显得愈加薄弱。因此,利用量化平台对多元化的数据进行提取,按照自身的分析模式搭建合理化的分析框架,自动化的得到针对基本面、技术面的分析结果的分析方法也开始逐渐火热起来,这个结果根据需求既可以是定量的,也可以是定性的,目前这种量化建模的方式也已经在众多私募券商等中应用已久,但是对于大多数个体投资者而言,还是一个十分陌生的领域。 因此,本文基于上期数据预处理部分之后,介绍如何在清洗过后的数据基础之上建立分类与预测模型,为此种模型的构建方法进行简单介绍,辅助投资者对自身分析逻辑中的分析框架进行量化分析,方便其多元化的交易分析。

  数据建模中分类与预测模型主要是寻求合适的分类模型并在此基础之上进行未来预测。分类主要是预测分类标号(离散属性),通俗点而言就像在基本面分析中判定哪些是未来影响价格的因素,比如产量、季节因素、下游产品价格等,这些因素除了其自身属性的不同外还应该具备在同级影响因素中具备较低的相关性,也就是最终分类的因素都会对价格进行影响,但是彼此之间的影响相对较小。而预测主要就是建立连续值函数模型,预测给定自变量对应的因变量的值。

  分类是构造一个分类模型,输入样本的属性值,输出对应的类别,将每个样本映射到先定义好的类别。

  分类模型建立在已有类标记的数据集上,模型在已有样本上的准确率可以方便地计算,所以分类属于有监督的学习。

  预测是指建立两种或两种以上变量间相互依赖的函数模型,然后进行预测或控制。

  分类算法有两步过程:第一步是学习步,通过归纳分析训练样本集来建立分类模型得到分类规则;第二步是分类步,先用已知的测试样本集评估分类规则的准确率,如果准确率是可以接受的,则使用该模型对未知类标号的待测样本集进行预测。

  预测模型的实现也有两步,第一步是通过训练集建立预测属性(数值型的)的函数模型,第二步在模型通过检验后进行预测或控制。

  常见的分类与预测算法如表1所示。由于对于新入学者而言,掌握人工神经网络、贝叶斯网络、支持向量机三种模型所要求的数理统计算法难度较高,牵扯到的数理知识也较为复杂,因此本文后面在介绍分类模型时主要介绍回归分析与决策树。

  回归分析是确定预测属性(数值型)与其他变量间相互依赖的定量关系最常用的统计学方法,包括线性回归、非线性回归、Logistic回归、岭回归、主成分回归、偏最小二乘回归等模型。

  决策树采用自顶向下的递归方式,在内部节点进行属性值的比较,并根据不同的属性值从该节点向下分支,最终得到的叶节点是学习划分的类

  人工神经网络是一种模拟大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入与输出变量之间关系的模型。

  贝叶斯网络又称信度网络,是Bayes方法的扩展,是目前不确定知识表达和推理领域最有效的理论模型之一。

  支持向量机是一种通过某种非线性映射,把低维的非线性可分转化为高维的线性可分,在高维空间进行线性分析的算法。

  回归分析是通过建立模型来研究变量之间相互关系的密切程度、结构状态及进行模型预测的一种有效工具,在工商管理、经济、社会、医学和生物学等领域应用十分广泛。从19世纪初高斯提出最小二乘估计起,回归分析的历史已有200多年。从经典的回归分析方法到近代的回归分析方法,按照研究方法划分,回归分析研究的范围大致如表2所示。

  在数据挖掘环境下,自变量与因变量具有相关关系,自变量的值是已知的,因变量是要预测的。

  线性回归模型是相对简单的回归模型,但是通常因变量和自变量之间呈现某种曲线关系,就需要建立非线性回归模型。

  Logistic回归属于概率型非线性回归,分为二分类和多分类的回归模型。对于二分类的Logistic回归,因变量y只有“是”、“否”两个取值,记为1和0。假设在自变量x1,x2,…,xn作用下,y取“是”的概率是p,则取“否”的概率是1-p,研究的是当y取“是”发生的概率p与自变量x1,x2,…,xn的关系。

  当自变量之间出现多重非线性时,用最小二乘估计的回归系数将会不准确,消除多重共线性的参数改进的估计方法主要有岭回归和主成分回归。

  决策树方法在分类、预测、规则提取等领域有着广泛应用。20世纪70年代后期和80年代初期,机器学习研究者J.Ross Quinlan提出了ID3算法以后,决策树在机器学习、数据挖掘领域得到极大的发展。Quinlan后来又提出了C4.5,成为新的监督学习算法。1984年,记为统计学家提出了CART分类算法。ID3和CART算法几乎同时被提出,但都是采用类似的方法从训练样本中学习决策树。

  决策树是一种线性结构,它的每一个叶节点对应着一个分类,非叶节点对应着在某个属性上的划分,根据样本在该属性上的不同取值将其划分成若干个子集。对于非纯的叶节点,多数类的标号给出到达这个节点的样本所属的类。构造决策树的核心问题是在每一步如何选择适当的属性对样本做拆分。对一个分类问题,从已知类标记的训练样本中学习并构造出决策树是一个自上而下,分而治之的过程。

  其核心是在决策树的各级节点上,使用信息增益方法作为属性的选择标准,来帮助确定生成每个节点时所应采用的合适属性。

  C4.5决策树生成算法相对于ID3算法的重要改进是使用信息增益率来选择节点属性。C4.5算法可以克服ID3算法存在的不足:ID3算法只适用于离散的描述属性,而C4.5算法既能够处理离散的描述属性,也可以处理连续的描述属性。

  CART决策树是一种十分有效的非参数分类和回归方法,通过构建树、修剪树、评估树来构建一个二叉树。当终结点是连续变量时,该树为回归树;当终结点是分类变量时,该树为分类数。

  分类与预测模型对训练集进行预测而得到的准确率并不能很好地反映预测模型未来的性能,为了有效判断一个预测模型的性能表现,需要一组没有参与预测模型建立的数据集,并在该数据集上评价预测模型的准确率,这组独立的数据集叫做测试集。模型预测效果评价,通常用相对/绝对误差、平均绝对误差、均方误差、均方根误差、Kappa统计等指标来衡量。

  【徽商期货有限责任公司月度分析报告由徽商期货研究所组织撰写,供业务人员及在徽商期货进行期货交易的投资者参考。尽管本刊所载信息我们认为是由可靠来源取得或编制,徽商期货并不保证本刊所载信息或数据的准确性、有效性或完整性。本刊所载资料不应视为阁下对任何期货商品交易的直接依据。在选择期货投资以及对期货商品做出交易决策之前,建议向徽商期货专业人士咨询。未经徽商期货授权,任何人不得以任何形式将本刊内容全部或部分发布、复制。】