高维数据下基于主成分分析+支持向量机的上市公司的信用风险评价_时代人物智库

滕树军，杨馥临2，刘柏森2

基金项目：辽宁省社会科学规划基金重点项目“高维数据下运用Logistic 模型研究上市公司企业信用风险评价”（项目编号：L16ATJ001）

(1.天津商业大学理学院，天津 300134；2.东北财经大学统计学院，辽宁大连 116025)

摘要：上市公司是市场经济的重要组成部分，其信用评价研究逐渐受到人们的重视。本文就高维数据下上市公司的风险评价问题提出了一种新的方法，首先运用主成分分析方法对影响上市公司信用风险的众多因素进行降维，提取出若干个主成分变量；然后基于这些主成分变量，再运用支持向量机方法对上市公司的信用风险进行综合测评。实证结果表明，与基于主成分分析和logistic回归分析的方法，以及传统的支持向量机方法相比较，基于主成分分析+支持向量机的方法的预测更加准确。

关键词：信用风险评价主成分分析支持向量机 logistic回归

一、引言

随着市场经济的不断发展，信用问题日益深刻地影响着市场经济的发展，如何对企业进行客观准确的评价逐渐成为人们研究的重点。信用风险又称违约风险，是指借款人、证券发行人或交易对方因种种原因，不愿或无力履行合同条件而构成违约，致使银行、投资者或交易对方遭受损失的可能性。信用在整个社会经济运行中起着非常重要的作用，在资本市场上，信用风险也是投资者最为关注的主要风险之一，上市公司的信用风险大小直接影响着股票、债券等有价值证券的价值。

近几年我国有一大批研究学者投入到对信用风险的研究中，并且取得了一定成果，所采用的方法主要有神经网络、判别分析、因子分析和logistic回归分析等。韩静[1]（2005）运用概率神经网络的方法对企业信用进行了评定。张玲[2]（2000）采用判别模型对我国上市公司的财务预警进行了分析。油永华[3]（2006）首先运用主成分分析，提取出若干个主成分，然后基于主成分建立logistic回归模型，对100家公司的8个财务指标进行了分析。张爱民,祝春山,许丹健[4]（2010）运用主成分分析方法，提取主成分，最终得到主成分预测函数。谢春岩[5]（2014）利用逐步回归法在单变量logistic模型中剔除掉不显著的变量，以及存在高度线性相关性的自变量后，对剩下的变量做多变量logistic回归，最终得出信用风险评价模型。葛美玲，张为[6]（2015）进行Mann-Whitney（M-W）检验以得到对信用良好的公司以及信用不好公司有显著影响的指标，并建立logistic回归模型。

本文的创新点在于：当财务指标个数较多且存在严重的多重共线性时，首先对原始数据进行主成分分析，提取出若干个互不相关的主成分，然后基于这些主成分，再借助于支持向量机在解决小样本、非线性及高维度模式识别中所表现出的众多优势，来对上市公司的信用风险进行预测。实证结果表明：本文提出的主成分分析+支持向量机（PCA-SVM）的方法，其预测效果要高于传统的主成分分析+logistic回归方法（PCA-logistic），以及传统的支持向量机方法（SVM）。

二、主成分分析及支持向量机方法

2.1、主成分分析方法

在回归分析中，当解释变量个数较多且存在多重共线性时，传统的回归方法的拟合优度会比较低。一种常用的方法是主成分分析（PCA），将多个原始变量进行旋转压缩，提取出几个彼此不相关的主成分作为新变量，从而起到降维的作用，并能充分利用数据的信息。

2.2、支持向量机方法

支持向量机（SVM）是一种专门解决小样本统计学习规律的方法，它的核心是引入核映射的思想与结构风险的概念，其基本模型是定义在特征空间上的间隔最大的线性分类器。支持向量机的学习策略就是间隔最大化，其学习方法包含建构由简至繁的模型：线性可分支持向量机，线性支持向量机及非线性支持向量机。目前，该方法已经广泛应用于经济、金融、物理、工程等领域。

三、实证分析

3.1、数据的采集

本文选择上市公司财务指标来研究企业信用风险，并用被特殊处理（ST）的公司作为信用不良的公司，未被特殊处理（非ST）的公司作为信用良好的公司。本文搜集到的数据来自国泰安数据库，为2016年1月至12月我国沪市和深市中所有上市公司的财务比率数据，经处理缺失值、删除无记录公司等处理之后的数据集有2664家信用良好的公司，有113家信用不好的公司，为了保证数据的平衡性，本文按照1:1的比例随机抽选信用良好和信用不好的上市公司，共选择226家公司，其中，随机选取了80家信用良好的公司与80家信用不好的公司作为训练集，用以建立模型；剩下的33个ST公司及33个非ST公司作为测试集，用来检验模型效果。

本文从上市公司的众多财务指标中，从七个方面共选取了31个财务指标进行研究，从而对上市公司的信用评定进行预测。这31个财务指标分别为：偿债能力（流动比率、速动比率、现金比率、利息保障倍数、资产负债率、长期资本负债率），比率结构（流动资产比率、固定资产比率、流动负债比率、金融负债比率），公司的盈利能力（资产报酬率、投资收益率、总资产净利润率、投入资本回报率、长期资本收益率、营业毛利率），经营能力（应收账款周转率、存货周转率、流动资产周转率、固定资产周转率），现金流量（营业收入现金比率、现金适合比率、营运指数），公司发展能力（可持续增长率、资本积累率、固定资产增长率、利润总额增长率、总资产增长率），相对价值（市盈率、市销率、市现率）。

3.2、基于主成分分析+支持向量机（PCA-SVM）的信用评定

（1）主成分分析

首先，利用R软件的cor()函数查看原始数据的相关系数矩阵（见表1）。从表1中可以看出，有些变量之间存在很强的相关关系，因此，我们需要通过主成分分析对原始数据做线性组合，提取主成分，可以在尽量损失较少原始数据信息的情况下，有效地对原始数据进行降维，且所得各个主成分之间互不相关。

对训练集数据运用主成分分析法提取主成分，首先对数据做标准化处理，剔除量纲对方差计算的影响，然后通过主成分旋转使得成分载荷矩阵变得容易解释，同时也达到对成分去噪的效果。本文选择最通用的方差极大旋转方法，该方法可以对载荷矩阵的列进行去噪，使得每个成分只是由一组有限的变量来解释。

表1 财务指标原始数据相关系数矩阵

流动比率速动比率现金比率利息保障倍数A 资产负债率 ...... 市销率

流动比率 1.000 0.987 0.962 0.013 -0.064 ...... 0.035

速动比率 0.987 1.000 0.978 0.010 -0.052 ...... 0.029

现金比率 0.962 0.978 1.000 0.010 -0.162 ...... 0.080

利息保障倍数A 0.013 0.010 0.010 1.000 0.021 ...... -0.019

资产负债率 -0.064 -0.052 -0.162 0.021 1.000 ...... -0.589

长期资本负债率 0.054 0.052 0.042 -0.009 -0.100 ...... 0.034

...... ...... ...... ...... ...... ...... ...... ......

市销率 0.035 0.029 0.080 -0.019 -0.589 ...... 1.000

图1. 主成分分析的碎石图

图1中展示了基于观测特征值的碎石检验（由线段和x符号组成），根据100个随机数据矩阵推导出来的特征值均值（虚线），以及大于1的特征值准则（y=1的水平线）。我们提取特征值大于1的主成分，最终选择提取16个主成分，其累积解释程度达到90.74%，可以很好的代表原始数据。

（2）支持向量机模型的建立

本文借助于R软件的e1071程序包中的svm()函数，来建立支持向量机模型，并使用predict()函数及fitted()函数来依据所建立的支持向量机模型对数据进行分类。在支持向量机模型中，核函数的选择和分类方式直接影响着支持向量机的回归性能的好坏，本文采用C-classification分类方式和径向基核函数，因为使用C-classification分类方式和径向基核函数的支持向量机，其性能优于基于其它分类方式和其它核函数的支持向量机。

本文通过tune.svm（）函数来拟合训练集数据，对模型参数进行自动寻优，找出模型中的最优gamma和cost参数：best gamma=0.25，best cost=4，并建立SVM模型。为检验所提出的方法的有效性，我们利用所建立的模型对测试集数据进行预测和判别，并将预测结果和真实结果相比较（见表2）。

表2 PCA-SVM、SVM、PCA-logistic三种方法的预测结果

方法

PCA-SVM SVM PCA-logistic

ST公司非ST公司 ST公司非ST公司 ST公司非ST公司

ST公司 29 10 32 21 24 16

非ST公司 4 23 1 12 9 17

预测精度 0.7879 0.6667 0.6212

为衡量不同的方法对上市公司信用评定的判别效果和预测效果，我们采用下述评价准则：

由此可以算出，PCA-SVM方法的预测精度为0.7879。

3.3、基于原始数据的支持向量机（SVM）的信用评定

作为对比，我们基于原始数据建立传统的支持向量机模型，选用C-classification分类方式和径向基核函数，采用tune.svm()函数来对模型参数进行自动寻优，得到模型中的最优gamma和cost参数为：best gamma=0.5，best cost=4。利用所建立的模型对测试集数据进行预测和判别，并将判别结果亦列于表2，同时可算得SVM方法的预测精度为0.6667。

3.4、基于主成分分析+logistic（PCA-logistic）的信用评定

作为对比，我们还建立了基于主成分分析与logistic回归分析的模型来对上市公司的信用评价进行了判别和预测，其结果亦列于表2中，并计算出该方法的预测精度为0.6212。

从表2可以看出：（1）基于原始数据的支持向量机方法，与基于主成分分析的支持向量机方法相比，后者的判别效果更好，预测精度更高。这是由于影响上市公司信用的31个财务指标存在多重共线性和高度相关，我们先采用主成分分析，可以有效地减少多重共线性对分析结果的影响；（2）采用主成分分析后，支持向量机模型的判别效果比logistic回归模型的判别效果好，这说明在上市公司的信用风险评价问题上，使用主成分分析进行降维后，再利用支持向量机的方法进行预测有一定的优势，能够提高预测精度，拥有更好的预测性能。

四、结语

由于影响上市公司信用评价的财务指标较多，且存在严重的多重共线性，我们利用主成分分析方法，对原始数据进行降维处理，选取了16个主成分，其对原数据累积方差解释性达到90.74%。作为对比，我们分别采用了三种方法对上市公司的信用风险进行预测：基于主成分的支持向量机方法、基于主成分的logistic回归分析方法、基于原始数据的支持向量机方法。实证结果表明：以上三种方法中，PCA-SVM的方法更具备有效性和优越性，其预测精度要明显高于SVM和PCA-logistic方法。由此可以预期：PCA-SVM方法在诸如上市公司、企业、个人、银行等对象的信用风险测评方面会有良好的应用前景。

参考文献

[1]韩静. 基于概率神经网络的企业信用评级模型研究[J]. 工业技术经济,2005, 24(9):41-43.

[2]张玲. 财务危机预警分析判别模型及其应用[J]. 预测,2000, (6):38-40.

[3]油永华. 企业信用状况的定性评价——基于logistic回归模型的分析[J]. 统计与信息论坛,2006, 21(6):85-88.

[4]张爱民,祝春山,许丹健. 上市公司财务失败的主成分预测模型及其实证研究[J]. 金融研究,2001, (3):10-25.

[5]谢春岩. 上市公司信用风险实证研究——基于Logistic模型的比较分析[D].吉林大学,2004.

[6]葛美玲,张为. 基于Logistic回归的中国上市公司信用风险判定研究[J]. 现代物业,2015, 14(6):25-26.