左右的汽车销量是什么级别?,

广发宏观陈礼清:社会消费品零售总额如何预测?

广发证券资深宏观分析师陈礼清博士

报告摘要

第二,社会消费品零售总额如何预测?历史上一种常用的方法是利用季节性推算。相比其他经济数据,社零年内波动具有较强季节性规律(图5)。比如三四季度均是消费旺季,其中10月因假期效应,环比均值更高。我们可以利用环比季节性均值来对社零做出预测。过去三年疫情期间,因为居民生活半径存在外生因素影响,季节性一定程度上被打破,尤其是2020年和2022年;2023年作为经济逐步正常化的年份,消费的季节性也在逐步修复(图6)。但客观来看,对于恢复期中的经济来说,环比季节性方法所依据的“平稳”和“复现”在条件上能否完全满足,仍需要未来再进一步观测。

在这样的背景下如何预测社零?我们选择着眼于高频数据,因为相比环比季节性推演,基于高频数据的预测更能捕捉疫后社零的高波动;但我们又不希望被高频数据的高波动反噬,预测中融入甚至放大太多噪音。在这样的考量下,我们继续沿用前期报告《工业增加值如何预测》中的方法论,通过提取高频指标变动信息,合成同步扩散指数的方式来过滤高频数据。然后再利用过滤完噪音的同步扩散指数进行建模,最终得到对短期社零的实时预测。

第四,如何寻找能预测社零的“有效高频数据”?我们的思路是先分类,再寻强相关,后看拐点变动。我们将高频指标分类归入餐饮收入、必需品、可选消费-汽车、可选消费-石油制品、可选消费-住房类,及其他可选消费(服装、日用品等)五类。高频指标池构建也遵循两点原则,一要与社零相关,二要公布时点早于社零。关于相关性,我们不仅进行了较常见的相关系数测算;还从拐点变动的角度,观察高频指标是否与社零具有一致的拐点变化。在我们看来,这两类相关性不分轩轾。如果单纯看统计上的相关系数,容易会被高频数据的高波动性干扰,忽略某些能提示社零变动方向的高频指标。

第五,相关系数角度,与社零同比相关度较高的高频指标包括十大城市地铁客运量、30城地产成交面积、乘用车销量、电影票房、百城拥堵指数、柯桥纺织指数、生猪价格等;而有些指标,从序列相关角度看与社零的统计相关性一般,但其拐点变动的同步性却不低,比如布伦特油价。

第六,我们利用高频指标对应社零科目占社零整体的比重进行了配权,合成了同步扩散指数。社零同步扩散指数胜率几何?我们的回溯结果显示,同步扩散指数能够较好地捕捉社零同比的变动、变动幅度。2015年以来预测胜率达到61.3%,疫后胜率达到72%。

第七,我们进一步将对标社零同比变动的同步扩散转化为对标社零同比的同步扩散指数II,并在此基础上构建了基于高频信息的ARDL预测模型。模型中的“AR”为自回归部分,融入了社零同比的各期前期值,考虑的是经济惯性和自身规律;“DL”为分布滞后部分,融入的是经过提纯、加权之后的高频信息,考虑的是高频数据影响存在脉冲效应。简言之,这种方式更像是多种预测方法的集大成者,因而预测精度也有所提升。样本外预测7月社零同比区间为2.37%~3.77%,而7月实际社会零售总额同比为2.5%。

第八,通过ARDL模型预测本质上只单纯使用了高频数据的变动方向,而不是变动幅度。优点是简洁方便地择取了高频数据的有效信息,过滤了高频数据的高波动噪音,缺点是折损了部分有用高频信息。对于预测要求较高的研究者来说,我们推荐使用混频MIDAS模型辅助判断。相比于ARDL模型来说,混频MIDAS模型的拟合优度更高,走势更为贴合;但回测结果更为震荡,上升趋势中有多处反复点,月际之间波动更多。这两点印证了混频MIDAS预测更有效地利用了高频数据,同时也受到高频数据波动较大的干扰,优缺点都有。模型样本外预测8月社零同比为3.40%~4.43%。

报告简版

第一

社会消费品零售总额不能反映消费全貌,它主要反映实物商品消费,以及餐饮等少部分服务类消费;GDP口径下的消费要涵盖更全。但我们可以把社会消费品零售总额视为消费的一个“大样本”,对于衡量消费变动来说,社零是一个重要的观测坐标。

在三类观察消费的口径中,GDP支出法核算下的最终消费支出涵盖的消费范围最全面,反映出53%的GDP贡献来自这一部分。但这一口径公布频率以年为单位,并不利于市场跟踪。社会零售总额口径最窄,只包含商品流通最终环节的实物商品消费以及少部分餐饮服务消费,并不包含任何生产资料消费支出。但这一指标一胜在高频,二胜在涵盖的消费主体仍然非常广泛,相当于7成多的最终消费支出,兼具“大样本”和“高时效”两大特征,是市场中用于跟踪消费的重要坐标。

第二

社会消费品零售总额如何预测?历史上一种常用的方法是利用季节性推算。相比其他经济数据,社零年内波动具有较强季节性规律。比如三四季度均是消费旺季,其中10月因假期效应,环比均值更高。我们可以利用环比季节性均值来对社零做出预测。过去三年疫情期间,因为居民生活半径存在外生因素影响,季节性一定程度上被打破,尤其是2020年和2022年;2023年作为经济逐步正常化的年份,消费的季节性也在逐步修复。但客观来看,对于恢复期中的经济来说,环比季节性方法所依据的“平稳”和“复现”在条件上能否完全满足,仍需要未来再进一步观测。

社零的年内强季节性特征体现在两点,一是社零总额当月值,在2013-19年期间,三四季度均明显高于一二季度,并且每年以平稳的增速增长。20、22年受疫情干扰,这种规律性被打破。23年以来又有所恢复。二是,社零环比,在正常的经济周期中,也呈现着明显的季节性规律。除了受疫情干扰明显的20年、22年以外,单纯利用过去三年的环比季节性推算每月社零同比增速,误差最大也在2个百分点以内。而20、22年疫情年份,误差最大则有-28%,平均有6.0%附近。23年以来,社零的环比季节性规律有所恢复,我们根据这一传统方式推算8月的社零同比增速位于4.4%附近。

虽然传统方式的预测效果正在修复,但疫情发生年份,“环比季节性”的推演效果明显减弱。这带给我们新的启示。传统方法建立在经济运行平稳的前提下,即消费作为经济中的慢变量,波动较小,历史上的年内波动将会不断“复现”。而疫情类突发冲击则直接打破了这一方法前提假设,因而这种预测方式出现了阶段性失灵。我们思考社零预测中可能面临的三个问题:

一是疫后社零环比季节性被打乱。在疫情前,社零环比稳定在0.7%附近,而疫情以来,环比均值降至0.3%。对比疫情前后三年时间,波动率从0.068上升至0.4,这让传统以季节性推算为基底的预测方式误差变大。

二是领先指标缺失。无论是PMI分项、消费者信心指数,还是金融数据,都与社零更多体现为同步性或滞后性,难觅明确的领先指标。

三是消费类高频数据具有高波动性,并与社零的关系逻辑上较为间接。比如电影票房、地铁客运量数据,另一方面,只看单一高频数据容易一叶障目不见泰山,而如何加权多项消费类高频数据仍是研究瓶颈。

第三

在这样的背景下如何预测社零?我们选择着眼于高频数据,因为相比环比季节性推演,基于高频数据的预测更能捕捉疫后社零的高波动;但我们又不希望被高频数据的高波动反噬,预测中融入甚至放大太多噪音。在这样的考量下,我们继续沿用前期报告《工业增加值如何预测》中的方法论,通过提取高频指标变动信息,合成同步扩散指数的方式来过滤高频数据。然后再利用过滤完噪音的同步扩散指数进行建模,最终得到对短期社零的实时预测。

同步扩散指数实质上是各类别消费的高频指标每月同比增速较前值的变动值为正的占比,提示的是当月社零同比可能的变动方向。这相当于一个“人工噪音过滤器”,只提取对社零下月变动方向具有指示意义的信息。

ARDL模型测算了“社零滞后期对社零当期的影响”、“高频指标及其滞后期对社零当期的影响”。依托模型系数和设定,我们可以滚动预测近月社零同比。

混频(MIDAS)回归直接利用高频数据建模,尽可能利用高频信息,但预测结果单月波动可能较大,更适合作为预测的辅助。

第四

如何寻找能预测社零的“有效高频数据”?我们的思路是先分类,再寻强相关,后看拐点变动。我们将高频指标分类归入餐饮收入、必需品、可选消费-汽车、可选消费-石油制品、可选消费-住房类,及其他可选消费(服装、日用品等)五类。高频指标池构建也遵循两点原则,一要与社零相关,二要公布时点早于社零。关于相关性,我们不仅进行了较常见的相关系数测算;还从拐点变动的角度,观察高频指标是否与社零具有一致的拐点变化。在我们看来,这两类相关性不分轩轾。如果单纯看统计上的相关系数,容易会被高频数据的高波动性干扰,忽略某些能提示社零变动方向的高频指标。

我们筛选得到了13项高频指标,其中除了乘用车销量、CPI同比为先于社零同比公布的月度指标外,其余均为周度和日度指标。

整体上,2015年以来,所有高频指标平均有四成时间与社零波动方向一致,疫后进一步提升至49%。若不考虑数据样本较短的“邮政快递投递量”以及在2019年后与社零增速出现背离的CPI同比数据,则疫后的拐点变动同步性提升至56%。分项中,疫后,与社零拐点变动同步性明显提高的指标是十大城市地铁客运量、百城拥堵指数以及30大中城市商品房成交面积,分别提高了29个百分点、17个百分点以及15个百分点,对应的是出行消费与地产类消费。而汽车消费与社零拐点变动的一致性在疫情前后均很高,超过60%。

第五

相关系数角度,与社零同比相关度较高的高频指标包括十大城市地铁客运量、30城地产成交面积、乘用车销量、电影票房、百城拥堵指数、柯桥纺织指数、生猪价格等;而有些指标,从序列相关角度看与社零的统计相关性一般,但其拐点变动的同步性却不低,比如布伦特油价。

相关系数角度,与社零同比相关性较高的高频指标依次是,乘用车当月销量(相关系数为0.542)、乘用车厂家零售销量(0.485)、30大中城市商品房成交面积(0.583)、十大主要城市的地铁客运量(0.724),百城拥堵指数(0.433)、当日电影票房(0.454)、柯桥纺织价格指数(0.433)、生猪价格同比(0.434)。

拐点变动角度,与社零相关系数较高的指标均有近50%的时间拐点变动也与社零同比一致。此外,由于自身的高波动性,有些指标,即便从序列相关角度看,统计相关性一般,但其拐点变动的同步性却不低。比如布伦特油价同比,虽然全样本上相关系数为0.29,但有53%的月份与社零拐点变动方向完全一致。

第六

我们利用高频指标对应社零科目占社零整体的比重进行了配权,合成了同步扩散指数。社零同步扩散指数胜率几何?我们的回溯结果显示,同步扩散指数能够较好地捕捉社零同比的变动、变动幅度。2015年以来预测胜率达到61.3%,疫后胜率达到72%。

我们认为高频数据的高波动和间接性特征决定了它们在判断方向上是有效的,而在预测同比读数上会放大误差。合成过程中,我们利用高频指标对应社零科目占社零整体的比重进行了配权。因为同步扩散指数本质上是当月高频数据同比变动为正的占比,我们定义50%为同步扩散指数的“枯荣线”,大于50%即说明当月经过加权后有超过半数的高频指标指示社零同比将向上变动。

结果显示,同步扩散指数能够很好地捕捉社零同比的变动、变动幅度,特别是在疫后。2015年以来的胜率达到了61.3%,疫情发生之后进一步提升至71.8%,并且疫后11次的偏差中,7次发生在年底或一季度,剩余发生在年中附近。

从现有的8月扩散指数看,加权后的扩散指数为60.7%,小幅高于50%,提示8月社零同比边际温和回升。

第七

我们进一步将对标社零同比变动的同步扩散转化为对标社零同比的同步扩散指数II,并在此基础上构建了基于高频信息的ARDL预测模型。模型中的“AR”为自回归部分,融入了社零同比的各期前期值,考虑的是经济惯性和自身规律;“DL”为分布滞后部分,融入的是经过提纯、加权之后的高频信息,考虑的是高频数据影响存在脉冲效应。简言之,这种方式更像是多种预测方法的集大成者,因而预测精度也有所提升。样本外预测7月社零同比区间为2.37%~3.77%,而7月实际社会零售总额同比为2.5%。

利用23年6月前数据进行回测,全样本拟合优度达到72%,其中前期社零贡献31%,同步扩散指数II贡献41%;分样本回归拟合优度平均达84%,前期社零贡献17%,同步扩散指数贡献65%。回归结果印证同步扩散指数的方向判断,疫后利用高频数据的预测效果更好。

样本外推算7、8月份数据,与同步扩散指数提示方向一致,7、8月社零与6月相比,7月有所回落,8月重拾回升,但都仍处在偏弱的区间。7月预测的波动区间为2.37%~3.77%,与实际公布的7月社零同比数据2.5%较为接近。8月波动区间为4.2%~4.9%。

上述过程实质上已经完成了预测。不过同步扩散指数的第一步就是将高频指标进行降频处理,这一过程我们采用了简单的算术平均方式。是否可以最大可能利用高频信息?混频MIDAS模型可以直接利用高频数据对低频数据进行建模,给了我们一个更有效利用高频信息的途径。但同时该模型也受到高频数据高波动的反噬,模型单月的误差可能较大,预测区间较宽。不过这不失为一种辅助判断。

第八

通过ARDL模型预测本质上只单纯使用了高频数据的变动方向,而不是变动幅度。优点是简洁方便地择取了高频数据的有效信息,过滤了高频数据的高波动噪音,缺点是折损了部分有用高频信息。对于预测要求较高的研究者来说,我们推荐使用混频MIDAS模型辅助判断。相比于ARDL模型来说,混频MIDAS模型的拟合优度更高,走势更为贴合;但回测结果更为震荡,上升趋势中有多处反复点,月际之间波动更多。这两点印证了混频MIDAS预测更有效地利用了高频数据,同时也受到高频数据波动较大的干扰,优缺点都有。模型样本外预测8月社零同比为3.40%~4.43%。

风险提示:一是高频数据选择可能存在偏差;二是同步扩散是各类高频数据方向变动的集合,处理方式仍较简单,若当月经济真实消费状态波动较大,可能会丢失高频数据在变动幅度上的有效信息;三是混频MIDAS回归对高频信息的改进效果低于被其高波动的反噬干扰,则预测结果将打折扣。

目录

正文

PART1

消费的观测坐标

2022年底,最终消费支出占GDP比重约53%,无疑是国民经济中重要的组成部分。特别地,在外需趋弱、地产回落的背景下,消费这一内需最重要的部分对整体经济内生动能的影响和支撑尤为重要。

目前我国观察消费有三个口径,一是GDP支出法核算下的最终消费支出,虽然最为全面,但频率较低,以年度为单位公布,不利于市场跟踪;二是居民商品服务消费支出,同样仅有季频数据;三是社会消费品零售总额(以下简称“社零”),按月公布,最为高频,也最为常用。这一指标同样存在局限性,比如口径偏窄,大量的服务消费和虚拟消费均不包括在内,也并不包含任何生产资料消费支出。而现今服务消费占居民消费支出的比重已经将近半壁江山,也由此,国家统计局将在23年8月起按月公布服务零售增速。

在这三类观察消费的口径中,虽然社会零售总额口径最窄,只包含商品流通最终环节的实物商品消费以及少部分餐饮服务消费,并不包含任何生产资料消费支出。但这一指标一胜在高频,二胜在涵盖的消费主体仍然非常广泛,相当于7成多的最终消费支出,兼具“大样本”和“高时效”两大特征,是市场中用于跟踪消费的重要坐标。

PART2

社会消费品零售总额如何预测?

(一)社零具有强季节性

传统预测视角主要基于社零数据自身的历史规律性,利用“环比季节性”进行推演。这种方式背后的依据是社零数据在经济运行平稳时期具有较强的季节性,而直接相关的高频数据并不多。从2013年社零总额当月值来看,2013-2019年间,社零在年内的变化较为稳定,均是三四季度处于旺季,并且每年的增长具有明显的规律性。而2020年、2022年两年疫情干扰下,社零总额当月变化的规律性被打破,而在2021年以及2023年随着生产生活修复,社零原本的年内波动规律性均得到了一定程度的恢复。

我们再观察社零当月值年内的环比变化,可以发现在疫情前,环比年内具有非常明显的规律性,其中每年的10月因假期效应环比值均位于10%以上,17-19年三年平均为10.4%,15-19年5年平均为11.5%。同样,2020年、2022年都社零的环比季节规律性都被打乱,而修复之年,2021年、2023年这一历史规律性均有所恢复,个别月份低于或高于季节性。

(二)常规方式“环比季节性”推演具有合理性

因此,对于2023年社零的预测,单纯的依托季节性推演,不失为是一种简洁、直接并且具有一定效果的预测方式。

我们用这种方式分别推演历年的每月社零同比值,即站在预测年份的前一年,仅依托环比季节性规律推演下一年的社零月同比。我们发现,除了2020年、2022年两年疫情干扰较大的年份之外,其余年份均有一定的预测效果。虽然疫后修复之年,21年、23年存在单月预测结果和实际结果有背离的情况,但整体上这类预测方式的有效性正在恢复。按照过去三年的环比季节性推算,8月的社零增速位于4.4%附近。

(三)环比季节性方法可能面临的挑战

虽然传统方式的预测效果正在修复,但疫情发生年份,“环比季节性”的推演效果明显减弱。这带给我们新的启示。传统方法建立在经济运行平稳的前提下,即消费作为经济中的慢变量,波动较小,历史上的年内波动将会不断“复现”。而疫情类突发冲击则直接打破了这一方法前提假设,因而这种预测方式出现了阶段性失灵。我们思考社零预测中可能面临的三个问题:一是疫后社零环比季节性被打乱,二是领先指标缺失,三是社零类高频数据波动大,与社零的关联具有一定间接性。

首先,虽然社零数据具有明显的季节性,但在疫情期间和疫后,社零数据波动明显加大,这使得传统利用季节性推算环比动能,进而推算同比的方式可能效果较之前减弱。观察社零环比走势和滚动12个月均值的环比数据来看,疫后社零环比先经历明显下滑,随后大约有三个季度时间脉冲修复。脉冲期过去之后,环比动能再度回落到季节性以下。从数据来看,在疫情前(2017-2019年),社零环比均值为0.73%,而疫情以来(2020年后),社零环比均值降至0.34%。并且同样是三年时间,17-19年的波动率(以序列标准差计)为0.068,而20-22年的波动率高达0.4。换言之,虽然我们绕开同比数据观测环比,可以客观上避免基数带来的部分扰动,但真实消费的恢复节奏仍然不可避免的受疫情干扰,这让常规使用季节性环比推演社零短期走势的方法效果明显减弱。

其次,国内并没有明确领先于消费的有效指标。虽然名义GDP增速是消费的坐标增速,但在短期预测中,我们难以找到明确领先于消费的指标,不论是消费者信心指数、居民企业贷款类数据还是PMI分项,都更多体现同步性或者滞后性。

第三,与工业生产类似,消费领域也有诸多高频数据,可以用于观测消费在月内的变化,但消费类高频数据波动较大,社零中又含有多个分项,并且这些分项可能并不会在每个阶段都形成方向一致的合力。因此,单一观察某一高频数据很难清晰地看到社零最终的样貌。

(四)如何在这种挑战下预测社零?

针对以上三个难点,我们采取类似于前期报告《工业增加值如何预测?》中的方法,即“用同步扩散指数辨方向、用ARDL模型做预测、用混频(MIDAS)回归打辅助”。具体而言:

首先,我们筛选社零各重要分项涉及的高频指标,按照其在社零中的权重,构造一个类似于“人工噪音过滤器”的同步扩散指数,过滤掉高频指标的高波动,只提取对社零下月变动方向具有指示意义的信息。

进一步地,我们将扩散指数直接与社零同比进行回归分析,通过ARDL(自回归分布滞后)模型将“社零滞后期对当期的影响”、“高频指标以及其滞后期对社零当期的影响”进行测算,进而可以在当期社零公布前推算得到预测数值。

此外,我们为了能尽可能多的利用高频数据信息,还直接进行了高频数据与社零同比的混频(MIDAS)回归。然而,我们仅将这一回归结果作为预测过程中的辅助参考,因为虽然这一方式直接利用了更多的高频信息,但也存在三类缺点,一是容易受到高频数据高波动的干扰,二是混频MIDAS回归需要面板数据集的完整性,因此需要牺牲一些样本点,三是混频MIDAS回归只能当月高频数据完全公布后,对当月低频数据进行预测,换句话说,只有等到8月全部的高频数据出炉,8月的社零增速才可以被预测。

我们的思路着眼于高频数据,而不是简单的环比季节性推演。同时,又通过提取高频变动信息的方式过滤高频数据的高波动性。最终,通过ARDL模型以及混频MIDAS回归,大致给出一个短期内社零变化方向的指引。

PART3

如何寻找能预测社零的“有效高频数据”?

(一)配权及单一指标预测胜率

筛选指标从逻辑上遵循两点原则,一则,是否与社零或者其中分项相关,二则,是否公布时点在社零数据之前,即可以用于每月预测。按照统计局的分类,我们以2023年7月累计值计算,将社会消费品零售总额分成餐饮收入、限额以上商品零售和限额以下商品零售三大部分,分别占比为10.82%、37.4%和52%。进一步地,我们将13项消费类高频数据按照社零的细分类别进行归类。具体分为五个方向——餐饮收入、必需品、可选消费中的汽车、可选消费中的石油制品、可选消费中的住房消费以及其他可选消费,分别占比10.8%、22.8%、25.6%、13%、6.5%、21.3%。

关于时效性,除了乘用车销量、CPI同比数据是先于社零公布的月度数据外,其余11项均为更高频的周度或日度指标。我们将所有高频数据先进行均值月度化处理,再计算月同比值。

关于相关性,我们同样从两个角度考察。一是观察序列之间相关性大小,二是观察高频指标序列与社零同比是否具有相同的拐点。在我们看来,这两类相关性,不分轩轾。如果单纯看统计上的相关系数,容易会被高频数据的高波动性干扰,忽略某些能提示社零变动方向的高频指标。

结果显示,自高频数据较全面的2015年以来,103个月度样本中,各类高频指标平均有40%的时间与社零同比增速变动方向保持一致。疫情发生以来,这一比例提升了9个百分点至49%,说明疫后社零同比波动更加容易被高频指标捕捉,也似乎说明我们基于高频数据的预测思路可能更适用于疫情后波动较大的社零数据。这其中还包含了数据较短的“邮政快递投递量”以及在2019年后与社零增速出现背离的CPI同比数据。如果不考虑这两项,2020年以来平均方向一致的时间占56%。

在分项中,我们观察到占社零比重较大的汽车消费类(以乘用车销量为代表)与社零同比的变动一致性最高,变动一致的月份占比分别达61%(2015年以来)、67%(2020年以来)。其次是波动较大的房地产类消费(以30大中城市商品房成交面积为代表),变动一致的月份占比分别达55%、70%(2020年以来)。疫情之后,变动一致的月份占比提升较大的是十大地铁客运量、百城拥堵指数以及30大中城市商品房成交面积。这似乎与疫情影响下的出行消费波动较大有关。

(二)汽车类消费

社零中占90%的是商品消费,而限额以上商品零售中占近三分之一的又是汽车类商品消费,因此,汽车一项波动对社零整体的走势有着非常重要的影响,统计局甚至在公布社零数据时会单独公布除汽车外的零售额。以2017年Q2至2018年为例,期间社零总额增速呈现趋势性下行。事实上,这种下行在剔除汽车之后就不存在。剔除汽车之后的社零增速基本保持平稳。

我们分别选择周度公布的厂家零售乘用车日均销量、每月11日左右公布的乘用车当月销量作为汽车类消费的代理指标。从相关性看,两者月同比与社零的相关系数分别为0.542、0.485。从拐点变动来看,两者自2015年以来分别有47个月(占比46%)、63个月(占比61%)与社零同比增速变动方向完全一致。同时,观察汽车销量绝对量与社零总额也可以看到两者呈现出较一致的强季节性特征。

(三)地产类消费

从高频数据的获取看,地产类消费中的家电、音像器材、建筑装潢材料等销量数据或公布时点过晚,或没有对应的高频指标。而商品房本身,虽然并不计入社零范围,但商品房销售的旺盛通常会带来地产链上家电家具、建筑装潢的需求。我们选择日度频率的30大中城市商品房成交面积作为地产链上商品消费的影子指标。

从相关性看,30大中城市商品房成交面积经过降频处理之后的月同比与社零月同比的相关系数达到0.583。疫情以来(2020年后),两者相关性更是提升至0.71。

从拐点的变动来看,两者在历史上有57个月,约55%的时间变动方向完全一致。在疫情后的样本中,两者同时变动的时间段更是达到了70%。

(四)石油制品、餐饮收入消费

社零中的餐饮收入占比在10%左右。受疫情影响,这一项目自2020年以来变化幅度明显大于整体消费。在正常的经济周期中,餐饮收入当月同比与社零同比之差稳定在<-2,+2>之间,而在2020年1月以来两者之差在<-61.7,34.8>之间波动。以序列标准差衡量,2015年1月至2019年12月期间,两者之差的波动率仅有0.74,而2020年1月至2023年6月达到了18.9。换句话说,餐饮收入的波动是疫后不容忽视的社零波动来源之一。

高频数据中并没有直接反映餐饮收入的数据,但由于餐饮消费需要依赖一定的消费场景,因此,餐饮消费的旺盛与否一是可以从居民出行的活跃度中反映,二是可以从居民的娱乐活动中体现。我们用地铁客运量、百城拥堵指数以及电影票房三个指标来代表这一类型消费。

首先,出行链上,我们选取十大主要城市的地铁客运量,以及百城拥堵指数来反映出行活跃程度,前者反映居民通过公共交通出行,后者指向的更多是自驾出行。由于数据的起始时间较晚,我们能拿到较稳定的数据是北京、上海、广州、成都、南京、武汉、西安、苏州、郑州、重庆这十大城市的地铁客运量。我们加总之后计算月度同比,数据自2018年8月起始。从相关性看,十大城市地铁客运量同比与社零同比高度相关,整个时间序列上相关系数达到0.724,两者整个历史上有38%的月份变动方向一致,在2020年疫后有67%的月份变动一致。

百城拥堵指数是高德利用数据平台编制的实际所用时间与自由状态下所用时间的比值,指标数值越大,意味着相同距离所用时间越长,即越堵。我们同样汇总后计算同比,该指标从2016年11月起始。从相关性看,百城拥堵指数月同比与社零同比在整个历史上相关系数达到0.433,疫后达到0.615。从月度变动方向看,两者在整个历史上有39%的时间变动方向一致,在2020年疫后有56%的月份变动完全一致。

其次,文娱链上,虽然社零中不包含服务性消费,但电影票房等文娱消费的旺盛间接意味着文娱相关的周边商品消费需求也在上升。因此电影票房类高频数据从逻辑上看同样是有效指示零售消费的高频数据。从数据上看,我们发现当日电影票房的月同比与社零同比的相关系数达到0.454,疫后上升至0.579。从月度变动方向看,两者共35%的时间变动完全一致,疫后这一比例上升至49%。

此外,石油制品类消费占限额以上社零约13%,占比并不小。我们认为油价与社零从两个途径构成关系,一是出行链,二是服装等纺织化工品消费。相关性角度,油价与社零中石油制品类零售额同比的相关性较高,达到了0.69,并且两者拐点变动也几乎同步。与社零同比比较,两者相关系数为0.29,2015年以来有53%的时间变动方向完全一致,2020年后进一步提升到了56%。

(五)其他可选消费

除了汽车、地产以及石油制品以外,我们将限额以上零售中的其他6个项目汇总考察,主要包括的是服装鞋帽类、日用品类、化妆品类、金银珠宝类、文化办公用品类、通讯器材类。对应服装鞋帽类的高频数据是柯桥纺织价格指数,对应日用品类等项目可以找到义乌小商品价格指数和快递投递量数据。柯桥纺织价格指数在2019年前与社零同比相关性较高,但在疫情以后有所减弱,相关系数为0.447。自2015年以来的历史上与社零同比有46个月变动方向一致,占比约45%。义乌小商品总价格指数与社零同比的相关性为0.24,在历史上有32%的时间变动方向与社零一致。

快递业务反映的是线上消费的旺盛程度,但现有的规模以上快递业务量增速数据并不高频,无法用于社零的短期预测。我们选择邮政快递投递量这一周度数据进行观察,这一指标的缺憾在于起始时间较短。

(六)必需品消费

最后,我们将社零商品消费中有关必需消费的5项——粮油食品类、饮料类、烟酒类、日用品类、中西药品类汇总计算比重,23年7月大约占比10.8%。我们选取了南华农产品指数作为粮油食品类的代表,在历史走势上,其余粮油食品类零售大约有0.289的相关性。生猪价格同比与社零同比的相关系数为0.434。两者在历史上均有接近一半的时间与社零同比变动方向一致。

至于CPI同比,在2019年前的样本中,我们发现其走势与社零同比走势的相关性高达0.78,而在2019年猪价驱动的CPI上涨和2020年疫情冲击中,CPI走势与社零同比的相关性有所减弱。从逻辑上讲,CPI反映了社零波动的价格驱动部分,理论上与社零同比具有强相关性。我们认为,在经济逐渐修复回归正常状态的过程中,CPI与社零的同步性将会再度回归,也由此,我们在高频指标池中将CPI同比加入。

PART4

疫后,同步扩散指数的方向判断胜率达72%

(一)构建社零同步扩散指数的方法论

为什么要构建同步扩散指数?直接利用社零类高频做回归预测面临三大问题:

一则,消费类的高频数据除了汽车以外,其他均是从间接的角度与社零同比产生联系。这种间接性与高频数据的高波动性会放大数据本身的噪音,降低模型的预测效果。

二则,高频数据的起始点不少是始于15年之后的,诸如地铁客运量月同比数据只能从2018年8月之后获得。而高频数据变量多,纵向上时间短,而横向上自变量多,就会造成过度拟合、虚假拟合等问题;

三则,传统的降维方式,比如主成分提取、标准化后求平均都会吸收高频数据的高波动性,并且忽略了各类高频指标代表的社零细分项在社零中有既定的权重。

我们构建的同步扩散指数实质上是关键消费高频指标每月同比变动值为正的占比,提示的是当月社零同比可能的变动方向。我们认为高频数据的高波动和间接性特征决定了它们在判断方向上是有效的,而在预测同比读数上会放大误差。这点从高频指标与社零同比的相关性系数、以及两者拐点变动的对比中可以看到。诸如油价这类波动较大的高频指标,在相关系数上,它与社零同比只有0.29,而在拐点变动的同步上,两者的同步性达到了53%。因此,可以理解我们的同步扩散指数是提取高频指标变动信息的一种降维方式。

而哪些高频指标的变动信息更为重要?合成同步扩散指数的过程中,我们利用高频指标对应社零科目占社零整体的比重进行了配权。结果显示,如果我们将超过一半高频指标为正即视为提示社零将正向变动,那么2015年以来的胜率达到了61.3%,疫情发生之后进一步提升至71.8%。

具体的构建步骤分为三步:

第一,我们将13项消费类高频指标取平均值降频后,计算每月同比的变动值。

第二,我们统计每个月各类高频指标同比变动为正、为负的个数。并将每个高频指标的正向或负向信息进行加权处理,权重为高频指标所对应的社零科目占社零整体的比重。这种情况下,诸如汽车类消费的同比变动信息会被赋予更高的权重,而诸如地产类消费的同比变动信息则被赋予更低的权重。

第三,我们将配权加总后的每月高频指标正向变动个数加总,除以加权处理后的全部高频指标个数,即得到加权处理后的每月高频指标综合的正向变动信息。我们将正向变动占比超过50%定义为同步扩散指数提示社零将正向变动,反之,定义为负向变动。

值得注意的是,我们进行的是滚动迭代计算,这样可以解决全样本面板时间序列较短的问题。因为13项高频指标在2015年以来数据并不齐全。滚动迭算会根据各个时间段有数据的高频数据调整分母。比如,在2015年2月,我们能拿到的高频数据只有7项,其中2项正向变动,5项负向变动。而在2023年7月,我们拿到高频数据有12项(当乘用车销量和乘用车厂家零售数据同时可得时,我们优先利用相关性更高的乘用车销量数据),其中有7项变动为正,5项变动为负。我们在计算同步扩散指数时,在2015年2月,使用总和7项为分母,而在2023年7月,则使用总和12项为分母。

(二)同步扩散指数预测社零同比的胜率如何?

我们进一步定义50%为同步扩散指数的“枯荣线”。因为同步扩散指数本质上是当月高频数据同比变动为正的占比,因此如果这一比重大于50%即说明当月经过加权后有超过半数的高频指标指示社零同比将向上变动。

在下图中,当我们将同步扩散指数的50%枯荣线与右轴社零同比变动为0相重合进行观察时,我们发现三点信息:

一是,同步扩散指数位于50以上时正好对应着大量的社会零售总额增速月度变动值为正;

二是,当同步扩散指数处于上升状态时,社会零售总额增速的变动值也恰好处于上升状态。

三是,分时段来看,在疫后,同步扩散指数与社零同比增速变动的同步性更高,说明利用高频变动信息判断社零变动效果在疫后更好。这一点同样符合先前判断,疫后社零波动加大,疫情干扰同比增速,传统环比季节性推演同比的方式误差增大。

这三点都说明我们构建的同步扩散指数能够很好地捕捉社零同比的变动、变动幅度,特别是在疫情以来。

同步扩散指数预测社零同比变动方向的胜率如何?我们假定同步扩散指数位于枯荣线50%之上提示当月社零增速将发生正向变动,高频指标正向变动不足半数的情况均视为社零增速将发生负向变动。该假定下,同步扩散指数的胜率达到了61.3%,2020年以来胜率提升到了71.8%。

我们也展示了具体疫后每月的预测胜率情况。可以看到,自2020年以来的39个月(剔除1月),仅有11个月同步扩散指数预测出现了偏差。并且其中7次偏差都出现在年底或者一季度末,剩余的均出现在年中附近。

从现有的8月扩散指数看,10项公布数据的高频指标中有6项变动为正,考虑权重之后的扩散指数为60.7%,高于50%,与5月的57%相当。这提示社零同比增速大概率略有回升,幅度温和,有约60%的指标指向边际向上。

同步扩散指数对标社零同比的变动。为了能直接和社零同比进行比较,我们以2015年1月为基期,设为0。将每个月的同步扩散指数减去50%,然后逐月累加。同样发现,转化后的同步扩散指数II与社零同比具有同步性,而这种同步性在疫后进一步得到了加强。

PART5

“环比季节性”以外的实时预测方法论

(一)基于高频信息的ARDL预测模型

利用同步扩散指数,是否可以进一步给出社零同比的预测数值?上文中,我们的同步扩散指数已经提取了高频指标对当月社零变动的信息。经过人工过滤降维之后,同步扩散指数已经不向单一指标那样高波动,在图形走势上也与社零同比的同步性比任何一个单一指标更高,特别是在疫情以来。这似乎提示同步扩散指数是一个能够有效预测社零同比的影子变量。

我们进而构建社零同比增速与同步扩散指数II的ARDL模型。ARDL属于自回归分布滞后模型,模型中既包括因变量的滞后期,还包括自变量的滞后期。因此,可以测算社零同比增速的前期值、同步扩散指数II以及同比扩散指数II的前期值对当期社零同比增速的影响。我们在构建模型中前首先检验了变量平稳性,并且也检验发现社零同比与同步扩散指数II存在长期效应。模型构建如下:

其中的是自回归(AR)部分,加入模型是因为经济数据通常存在惯性,当期社零同比增速可能会受到前几期的表现影响;是分布滞后(DL)部分,意味着同步扩散指数II对社零同比的影响并不仅仅体现在当期。这种影响更像一轮脉冲冲击。因此,综合考虑下,我们认为ARDL模型是比较合适的建模选择。

(二)样本内回测

预测分两步,先样本内建模,后样本外预测。我们利用2015年1月至2023年6月的数据进行建模,然后利用2023年7月、8月的高频数据进行样本外推测。考虑到消费数据的年度趋势性变化,我们在模型中加入时间固定效应。

在全样本区间内(2015年1月-2023年6月),数据自动选择的最优模型是ARDL(1,1,0)。整体模型的拟合优度达到了0.72,意味着社零同比72%的波动已经被模型捕捉。同样从系数的显著性中,我们看到社零同比滞后一期、同步扩散指数II当期值以及同步扩散指数II滞后一期值都在统计上对社零当期值有显著的解释力。举例来说,2023年6月社零波动可以被23年5月社零、23年6月同步扩散指数II以及23年5月同步扩散指数II联合起来解释72%左右。通过系数的折算,我们可以得到在这72%的解释力中,前一期社零贡献了31%,而同步扩散指数II贡献41%。

在分样本建模中,我们同样发现2020年疫情是社零波动的关键节点。首先,分样本建模后,模型的整体预测力进一步提升至82%~85%。其次,在疫情前,同步扩散指数II对社零的影响并不具有统计显著性,反而是被社零滞后期以及时间固定效应解释,这印证了疫情前利用高频数据预测社零同比并不优于直接利用环比季节性推算。而在疫情发生后,同步扩散指数II当期值以及前期值均对社零同比有明显的统计影响。经过系数折算,我们可以得到在疫后社零同比82%的波动中,前一期社零贡献了17%,而同步扩散指数II贡献了65%。这再次印证了利用高频信息合成的同步扩散指数II对疫后社零同比的预测能力更强,是社零波动加大的情形下对传统方法的一种弥补。

我们分别展示了全样本建模以及分样本建模的社零走势拟合图,可以看到分样本之后再拼接起来的拟合走势与社零同比更为贴合。平均拟合优度也提升了12%。

(三)样本外预测

最后,我们给出了基于ARDL的样本外预测效果。以上建模中,我们只使用了2023年6月之前的数据。为了测试建模的预测力,我们给出2023年7、8月的样本外预测。

首先,我们分别利用全样本一次性建模得到的ARDL(1,1,0)与分样本建模得到的ARDL(1,1,3)进行推算,2023年7月的社零同比原始预测值为3.67%、7.09%。显然疫后ARDL(1,1,3)融入了疫情以来社零较高的波动性,因此预测的读数也波动较大。我们进一步进行误差调整,分别采用历史7月误差以及上月预测误差进行调整,最终得到的社零预测值在2.37%~3.77%。而2023年7月公布的社零同比值为2.5%,如果仅基于往年季节性和去年同比基数进行推测,社零同比将达到5%左右。即便考虑到高频数据的变动,也很难得到7月社零增速仍弱于2023年6月的结论,毕竟23年7月的PMI给出了“弱回升”的提示。而我们的同步扩散指数在构成中赋予了汽车销量、地铁客运量、快递投递、CPI同比等较高的权重,因此也给出提示7月将小幅走弱或较6月基本走平的方向判断。而基于此为自变量进行的ARDL模型,也就能将这种方向性判断进一步量化为具体的社零读数,预测23年7月的社零同比将在2.37%~3.77%震荡。

进一步展望8月,基于截止8月31日的消费高频数据,我们测算得到的8月同步扩散指数为60.7%,位于50%的枯荣线之上,小幅强于7月、6月。这提示8月的社零略有恢复。ARDL模型预测,8月社零同比的区间范围在4.19%~4.93%。

PART6

基于混频(MIDAS)回归的辅助判断

构建同步扩散指数并且利用同步扩散指数进行ARDL模型预测的初衷就是因为考虑到高频信息的间接性、高波动性以及样本区间较短难以建模等问题。但我们构建同步扩散指数的第一步就是将高频指标进行降频处理,这一过程我们采用了简单的算术平均方式。而混频MIDAS模型可以直接利用高频数据对低频数据进行建模,给了我们一个更有效利用高频信息的途径。

与前期报告《工业增加值如何预测?》中的处理方式一致,我们仍然把此类预测作为一种辅助参考,因为直接用高频率的自变量对低频变量进行回归的过程中,自然会融入高频自变量本身的高波动。此外,混频MIDAS回归需要各序列具有一致的初始点和结束点,这一方面意味着样本点会有所牺牲,另一方面意味着在每个月底高频数据尚未出全时,我们无法得到关于当月的社零预测。换言之,没有同步扩散指数这一桥梁,直接用高频数据对社零进行回归,只有在8月末我们才能得到8月社零的估计。模型构建如下:

其中的是低频的社零同比数据 ,是两 部分构成,一是 类似于ARDL建模中的AR部分,即与因变量社零同比相同频率的序列,我 们 在这里选择社零同比的滞后一期加入。我们也同时考察了加入滞后二期和滞后三期的效果,结论都基本稳健。二是与因变量同频的解释变量,比如乘用车销量、CPI同比这类同样是月频,但是先于社零同比公布的解释变量。为 更高频的自变量。由于混频MIDAS回归要求变量序列起始和截止时间都是一致的。因此,我们在基准模型中暂时不考虑样本点较少的快递投递量同比以及地铁客运量数据。是 将高频变量转化为低频变量的函数。这里我们使用经典的Almon加权方式。

下图是模型拟合结果和社零当月同比的走势对比。相比于ARDL模型,可以看到两点不同:

第一,在全样本区间上,混频MIDAS模型比ARDL模型的拟合优度更高,前者R方为0.88,而后者为0.72。

第二,虽然从序列的拟合程度上的确是混频MIDAS模型更为贴合,但是仔细观察各时期的误差大小,会发现混频MIDAS回测结果更为震荡,月际之间波动更多。比如在2020年至2021年一季度期间社零增速的读数上升期,实际读数是平滑上升的,而MIDAS拟合结果却是震荡上升的,上升趋势中有多处反复点。这两点印证着上文逻辑,即混频MIDAS预测更有效地利用了高频数据,但也受到高频数据波动较大的干扰,因此,基于混频MIDAS的预测可能从整体趋势上是较为准确的,但在单月的波动上可能误差较大。

我们进一步考察了加入地铁客运量后的回测结果。“地铁客运量”这一数据虽然重要,但由于同比增速的起始点为2018年8月,加入后整个模型回归的样本区间就进一步减少为2018年8月至2023年6月。我们发现,加入这一变量后,整体模型的拟合优度进一步提升至0.94。拟合曲线与真实的社零同比更为贴合。由于混频MIDAS回归更充分的利用了高频数据在月内的信息,因此可以看到即便不进行分样本建模,疫后的拟合曲线也已经与真实社零变动有较好的拟合度。

最后,我们进行了样本外预测。由于建模中只使用了23年6月之前的样本,因此,在预测23年7月时,我们构建的MIDAS模型并不知道7月真实的社零同比。经过历史误差调整后,模型最后预测7月社零同比区间为2.86%~3.63%。这与真实7月2.5%的社零同比相比,误差并不大。而根据8月底高频数据,MIDAS预测8月运行区间在3.40%~4.43%,与ARDL、同步扩散指数提示一致,8月社零增速会小幅回升。

风险提示:一是建模采用的高频数据选择可能存在偏差,二是同步扩散是各类高频数据方向变动的集合,虽然可以有效过滤高频数据中的噪音类波动,但因为处理方式简单,可能会丢失高频数据在变动幅度上的有效信息,因此对社零同比具体数值预测可能存在偏差。三是混频MIDAS回归虽然有效利用高频数据,但也会被其高波动性反噬,使得最终预测数值出现偏差。

本文源自券商研报精选

2023-12-23

2023-12-23