基于XGBoost的大宗商品价格预测【摘 要】大宗商品已成为产业统制与资产统制的紧急实质,通过搜求数据浮现大宗商品 价值走势次序,对辅助投资者遴选适当的大宗商品举行投资等具有紧急的道理。著作通过待预 测的 6 种有色金属和 5 种辅助有色金属数据(包括 6 种日业务数据),7 种商场目标(包括 7 种日业务数据)。治理的题目是正在商量有色金属具有时序性的情状下,通过领悟布景学问和对 数据的找寻,创筑了 7 类新的特色,并依照每一个待预测金属的差别待预测功夫点的标签,筛 选出对该金属有着较大影响的特色。正在有用数据的筛选上,分裂挑选 2003—2017 年(缺失 钯、铂、银 3 种金属数据)和 2013—2017 年(包括悉数纽约金属业务所的金属数据)开发 XGBoost 模子举行比较浮现,2013—2017 年模子的预测结果好于 2003—2017 年模子的预测结 果;正在模子挑选上,依照筛选差别金属的特色,开发 CatBoost、SVM、XGBoost 3 个模子举行 比较,结果显示 XGBoost 的预测结果显明好于其余两个模子。于是,最终挑选 2013—2017 年 的数据和 XGBoost 行为陶冶数据和最终的模子,然后对每一种待预測金属开发模子(共 18 个),分裂预测各类金属正在 2018 年 1 d、20 d、60 d 的涨跌情状。
大宗商品电子业务商场行为一种新兴的业务式样,对推动通畅当代化、完毕通畅更始具 有紧急道理。目前,中邦经济的火速兴盛,奇特是都会化、商场化经过不时加疾,生意企业数 量接续拉长,造成对大宗商品商场的远大需求。假设采用最直接也是最简明的大宗商品投资方 式,直接采办大宗商品举行投资,大概会发作很大的运输本钱和贮存本钱,投资者很少采用这 样的式样。于是,通过搜求数据浮现大宗商品价值走势次序,辅助遴选适当的大宗商品举行投 资等有着紧急的道理 [1]。
华仁海等人(2004)愚弄协整查验和 Granger 因果查验办法对邦外里期货商场商品举行实 证查验,获得差别期货业务之间大概存正在持久平衡联系或协整联系 [1]。曹旭等人(2017)基 于呆板研习中的支柱向量机模子,挑选大宗商品中金融属性最强的黄金,对黄金价值举行预 测,并开端试验修建一个择时战略。终末预测黄金价值的 SVM 模子,开端修建了一个择时交 易战略,并给出正在回测样本中的回测结果 [2]。陈宇韶(2018)提出将皮尔森特色筛选与 XGBoost 算法连系的预测办法预测股票收盘价。以 A 股商场 600677 股票为例,采用皮尔森相
联系数剖释法提取紧急特色,并天生高闭系特色的数据集,再基于数据发现算法中发挥极为优 异的 XGBoost 框架,连系特色工程执掌,得到杰出的陶冶预测效益 [3]。
biendata 竞赛供给了伦敦金属业务所(LME)数据集、纽约商品业务所(COMEX)数据 集、少少商场目标(Indices)数据集、待预测金属的标签(Label)4 类数据集,每一类数据集 又分为陶冶集数据集和验证集数据集。
(2)标签分散。正在查看完悉数的数据后浮现,除了标签除外,悉数的数据均为络续性变 量,于是查看一下标签的分散情状,6 种有色金属的涨跌情状分散较为平衡。
(1)缺失值弥补。因为数据是基于功夫序列举行转化的,假设对缺失值举行均值弥补或 者中位数弥补时,有大概会用到来自异日的数据,为了避免运用到异日数据而导致模子过拟 合,遴选后值弥补,即运用前一天的非空值对当天的数据举行弥补 [4]。
(2)功夫线筛选。对数据找寻之后浮现,除了纽约商品业务所中的钯、铂、银 3 种金属 的根蒂数据损失重要,要到 2013-11-11,日业务数据才较无缺;其余的数据正在这个功夫点后, 也都基础无缺。于是,为了正在遴选更众金属数据而舍弃 2003—2013 年的数据依旧遴选更长的 功夫线 种金属之间做一个容易的模子比较,一个是不包括钯、铂、银 3 种 金属的 2003—2017 年模子,一个是包括着 3 种金属的 2013—2017 年模子,都采用 XGBoost 模 型,AUC 结果睹外 1。
通过比较浮现,2013—2017 年的模子比 2003—2017 年的模子效益要好许众,评释对预测 金属来说,正在保障肯定数据量时,更众的闭系金属品种数据的紧急性是大于过于长的功夫、但 短少闭系金属品种数据的,于是对有用数据的筛选功夫线 特色工程
正在领悟股票涨跌、大宗商品闭系的布景学问和查看闭系文献之后,基于有色金属的相闭 根蒂数据创筑 7 类特色[5]:range、hl、oc、MA、std_dev、rsi、Williams%R①。个中,创筑移 动均匀线时,分短期、中期、持久目标,短期目标包括 3 d、5 d、10 d,中期目标包括 30 d、 75 d,持久目标包括 255 d;创筑相对强弱指数时,遴选的是 6 d、12 d、24 d 的数据;创筑威廉指 数时,遴选的是 12 d、24 d 的数据。