一、16种常用的数据分析方法-时间序列分析
时间序列(time series)是系统中某一变量的观测值按时间顺序(时间间隔相同)排列成一个数值序列,展示研究对象在一定时期内的变动过程,从中寻找和分析事物的变化特征、发展趋势和规律它是系统中某一变量受其它各种因素影响的总结果。
研究时间序列主要目的可以进行预测,根据已有的时间序列数据预测未来的变化。时间序列预测关键:确定已有的时间序列的变化模式,并假定这种模式会延续到未来。
时间序列的基本特点
假设事物发展趋势会延伸到未来
预测所依据的数据具有不规则性
不考虑事物发展之间的因果关系
时间序列数据用于描述现象随时间发展变化的特征。
时间序列考虑因素
时间序列分析就其发展历史阶段和所使用的统计分析方法看分为传统的时间序列分析和现代时间序列分析,根据观察时间的不同,时间序列中的时间可以是可以是年份、季度、月份或其他任何时间形式。
时间序列分析时的主要考虑的因素是:
l长期趋势(Long-term trend)
时间序列可能相当稳定或随时间呈现某种趋势。
时间序列趋势一般为线性的(linear),二次方程式的 (quadratic)或指数函数(exponential function)。
l季节性变动(Seasonal variation)
按时间变动,呈现重复性行为的序列。
季节性变动通常和日期或气候有关。
季节性变动通常和年周期有关。
l周期性变动(Cyclical variation)
相对于季节性变动,时间序列可能经历“周期性变动”。
周期性变动通常是因为经济变动。
l随机影响(Random effects)
除此之外,还有偶然性因素对时间序列产生影响,致使时间序列呈现出某种随机波动。时间序列除去趋势、周期性和季节性后的偶然性波动,称为随机性(random),也称不规则波动(irregular variations)。
时间序列的主要成分
时间序列的成分可分为4种:
l趋势(T)、
l季节性或季节变动(S)、
l周期性或循环波动(C)、
l随机性或不规则波动(I)。
传统时间序列分析的一项主要内容就是把这些成分从时间序列中分离出来,并将它们之间的关系用一定的数学关系式予以表达,而后分别进行分析。
时间序列建模基本步骤
1)用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。
2)根据动态数据作相关图,进行相关分析,求自相关函数。
相关图能显示出变化的趋势和周期,并能发现跳点和拐点。
跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值,在建模时应考虑进去,如果是反常现象,则应把跳点调整到期望值。
拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点,则在建模时必须用不同的模型去分段拟合该时间序列,例如采用门限回归模型。
3)辨识合适的随机模型,进行曲线拟合,即用通用随机模型去拟合时间序列的观测数据。
对于短的或简单的时间序列,可用趋势模型和季节模型加上误差来进行拟合。
对于平稳时间序列,可用通用ARMA模型(自回归滑动平均模型)及其特殊情况的自回归模型、滑动平均模型或组合-ARMA模型等来进行拟合。
当观测值多于50个时一般都采用ARMA模型。对于非平稳时间序列则要先将观测到的时间序列进行差分运算,化为平稳时间序列,再用适当模型去拟合这个差分序列。
spss时间序列分析过程
第一步:定义日期标示量:
打开数据文件,单击"数据",选择"定义日期和时间",弹出"定义日期"对话框,
数据中的起始时间就是数据文件里面的单元格第一个时间,我的第一个是1997年8月,每行表示的是月度销售量,因此,需要从"定义日期"对话框的左侧"个案是"框中选择"年,月",在左侧输入‘1997’,月框中输入‘8’,表示第一个个案的起始月是1997年8月,
最后点击确认,这样spss数据文件里面就会生成3个新的变量
如下图:
第二步:了解时间序列的变化趋势
了解时间序列的变化趋势做一个序列表就可以了,单击"分析",里面选择"时间序列预测,选择"序列图"对话框,然后把'平均值'移到"变量"框里面,‘DATE_’移到"时间轴标签"框中,单击"确定"。结果如图
根据序列图的分析知道,序列的波动随着季节的波动越来越大,所以我们选择乘法模型;
第三步:分析
单击“分析”,选择时间序列预测,然后选择“季节性分解”,弹出“季节性分解”对话框,确认无误之后点击确定,如图:
多了四个变量:
lERR表示误差分析;
lSAS表示季节因素校正后序列;
lSAF表示季节因子;
lSTC表示长期趋势和循环变动序列。
我们可以把新出现的四个变量、平均值和DATE_做序列图。先把ERR、SAS、STC和平均值和DATE_做个序列图,效果如下:
再单独做个SAT和DATE_的时间序列图
第四步:预测
1、 单击“分析”,选择“时间序列预测”,然后选择“创建传统模型”,之后就会弹出“时间序列建模”对话框。
2、 将“平均值”移至“因变量”框中,然后确定中间的“方法”,在下拉列表中选择“专家建模器”项,单击右侧的“条件”按钮,弹出“时间序列建模器:专家建模器条件”对话框。
3、 在“时间序列建模器:专家建模器条件”对话框的“模型”选项卡中,在“模型类型”框中选择“所有模型”项,并勾选“专家建模器考虑季节性模型”复选框,设置完,点“继续”按钮
4、 在“时间序列建模器”对话框中,切换至“保存”选项卡中,勾选“预测值”复选框,单击“导出模型条件”框中“XML文件”后面的“浏览”按钮,然后设置导出的模型文件和保存路径,然后单击“确定”按钮就可以了。
做完上面的步骤之后,在原始数据上面就又会多一列预测值出现。如图:
之前保存了预测的模型,我们现在就利用那个模型进行预测数据。
1、 单击“分析”,选择“时间序列预测”,然后选择“应用传统模型”,弹出“应用模型序列”对话框。具体的操作如下图:
最后一步切换至“保存”界面,勾选“预测值”之后单击确定就可以了。
从预测值直接看看不出来,可以把预测的数据和原始数据放到一起看下,也是直接做序列图就可以。
这样就完成了一次时间序列的模型,具体的预测数据可以看原始数据上面的出现的新的一列数据。
- End -
二、旅游决策模型是什么?
分别是结构模型,仿真模型,定性模型和引力模型。
旅游需求预测
1、旅游需求的时空分布集中性
旅游需求的一个显著特点是随时间变化而变化,另一个特点是每一个旅游目的地都有自己相对稳定的客源地。从数量上来研究和度量旅游需求随时间的变化和客源地的空间分布变化,对旅游规划和经营决策有重要的帮助。
1>旅游需求的时间分布集中性
季节性(时间)强度指数:旅游需求的时间分布集中性是由旅游的季节性所引起的,可以用季节性(时间)强度指数来定量分析。
式中:R为旅游需求的时间分布强度指数
xi为各月游客量占全年的比重
R值越接近于零,旅游需求时间分配越均匀;R值越大,时间变动越大,旅游淡旺季差异越大。R值受到旅游需求变化和所选时段长短特征的影响,所以它适用于不同年份(时段)的比较和不同旅游地(设施)的比较。
高峰指数:用来度量游客某一时期相对于其他时期利用旅游设施游览某旅游地的趋势。计算公式为
式中: Pn为高峰指数;
V1为最繁忙时期的游客数;
Vn为在第n个时期内的游客数
n为参照时段(1=最繁忙时期)
Pn的数值大小不仅取决于高峰程度,还依赖于游客总量和所选定的时段。因此,该指数的一个主要用途是用于对旅游地进行比较或用于考察某一设施随时间变化而出现的高峰趋势。当游客量在所有时期都相同时,Pn=0;当游客量集中在某些时期时,Pn值会增大。n的值,即用于与最繁忙时期作比较的那一时期,在很大程度上是选择的结果,选择工作依靠现有资料,研究目的和研究经验。
2>旅游需求的空间分布集中性
旅游需求的空间分布结构主要指旅游者的地理来源和强度,其集中性可以用地理集中指数来定量分析。其公式为:
式中: G为客源地的地理集中指数
Xi为第个客源地的游客数量
T为旅游地接待游客总量
n为客源地总数
游客来源越少越集中,G值越接近100;G值越小,则客源地越多越分散。对于一个旅游地,客源地越分散,旅游经营越趋于稳定。
2、趋势外推模型
趋势外推模型是以已经发生的事件资料为预测基础,依据一系列的的历史数据资料来推测未来的可能形势。无论哪一种类型的趋势外推模型都有一个共同的假设:历史数据的趋势将在未来一段时间内持续下去。趋势外推模型主要有回归模型和时间序列模型两类。
1>回归分析方法
一元线性回归模型是最简单的也是最常用的趋势外推数学模型,常用于以年为时间单位的旅游需求量的变化。形式为:
y=a+bx
式中:y为因变量,x为自变量,a为常数项;b为y对x的回归系数。关于本模型的具体运算,请参看《常用统计方法》的相关内容。
保继刚(1989)年通过研究建立了北京香山公园游客量的一元线性回归方程:
y=-35047.0088+17.859x
r=0.9828
式中: y为年游客量(万人)
x为年份
r为相关系数
知道1979年到1985年的游客数量分别为291.58,318.75,326.97,361.92,359.73,381.63,405.09;可以运用模型得到1986年的预测值为420.97。(具体参见《旅游地理学》)
2>时间序列模型
时间序列模型主要用于解决对波动性旅游需求的预测,如对受到季节性影响显著的目的地的需求量预测就可以用这一模型。
在时间序列分析中,预测过程首先要通过过去需求量的历史资料求出统计形式的拟合曲线,然后向前延伸这条拟合曲线,用以估计未来时段的需求量。这种拟合曲线通常可以分为三类:水平需求曲线、趋势需求曲线和季节性需求曲线。
常用的水平时间序列模型有一次滑动平均模型和一次指数平滑模型。
常用的趋势需求模型有线形趋势模型,包括线形回归模型、二次滑动平均模型等;非线形趋势模型,如二次回归模型、三次指数平滑模型。
常用的季节性需求模型包括季节性水平模型、季节性交乘趋势模型等。
3、引力模型
引力模型是在城市和区域经济研究中应用最为广泛的模型。20世纪后期,国外一些学者率先将这一模型应用到旅游研究中来,用于游客预测、旅游吸引力确定以及旅游规划等方面。
1966年,Crampon L J首次将引力模型用于旅游研究,他所建立的引力模型也是其他研究者应用的基本引力模型:
式中: Tij为客源地i与目的地j之间旅行次数的某种量度
Pi为客源地i人口规模、财富或旅行倾向的某种量度
Aj为目的地j吸引力或容量的某种量度
Dij为客源地i与目的地j之间的距离
G,b为经验参数
客源地人口可以为某个城市等特定区域的人口数量,或将来要进行旅行的人数,它可以是几个变量的组合。
目的地吸引力可以是美学吸引力、资源容量、旅游地知名度等几个变量的组合。
距离一般是指感知距离,可以用实际距离或旅行时间来进行表示。
其后,有一些学者针对该模型中存在的一些不足,主要针对距离变量又提出了一些修正模型,在此不一一介绍。
4、特尔菲法
特尔菲法是预测模型中最著名,也是最具有争议性的方法之一。当历史资料或数据不够充分,或者当模型中需要相当程度的主观判断时,就需要用特尔菲法预测事件的未来趋势。目前,特尔菲法在软科学领域中得到了广泛的应用,也取得了不少令人满意的效果。决定特尔菲法成功与否的关键在于问卷的设计和选择专家的合格程度。
用特尔菲法预测一般包括以下工作步骤:
1>确定预测的问题,选择征询的专家组
专家组的专家选择要全面,要有代表性,以保证预测的全面和综合。专家人数由问题的复杂程度来决定。一般为40~50人。
2>制定和分发第一轮问卷
问卷由专家完全独立填写,也即专家间没有任何形式的交流,避免互相干扰与影响。第一轮的问卷包括两个部分内容:一是向专家概括介绍所进行的研究项目,另一是请专家鉴定未来可能出现的事件发生的概率、可能发生的时间。
3>第一轮问卷回收,整理结果
过程包括中位数计算,指出两个中间四分数的范围,即中位数两旁包含50%总预测数的范围。
4>第二轮问卷
将第一轮问卷的统计总结附在第二轮问卷上寄给第一轮征询的专家组,各个专家自己第一轮的答卷也复印附上作为参考。询问每一个专家在看完小组的平均结果之后是否希望改变自己的预测。如果专家的预测值不在两个中间四分数之内,而他又不愿意改变自己的原始预测,则要请专家给出理由。
5>回收第二轮的问卷并整理结果
包括新的预测结果以及部分专家不同意第一轮问卷结果的意见。
6>第三轮问卷
将第二轮问卷的结果和意见综合进第三轮,问卷的说明与第二轮相似。主要的不同之处是加上了部分专家不同预测结果的意见。
第三轮问卷的结果出来之后,要决定是否需要作第四轮的问卷调查以获得进一步的预测。如果两次调查后绝大多数预测已经在中位数附近,就没有必要再作下一轮的调查。