国产欧美日韩一区,亚洲日本一区二区三区在线,一区免费在线观看,日一区二区,国产日韩欧美精品一区,一区二区在线免费观看,日韩在线播放一区

同花順 Logo
AIME助手
問財助手
基于排序學習的選股增強策略中性
2025-12-01 14:55:26
分享
文章提及標的
西南證券--
消費--
滬深300--
周期--
房地產--
新型城鎮(zhèn)化--

西南證券(600369)股份有限公司博士后研究人員、權益投資一部交易員 慕宗燊

摘要

2025年中國A股市場風險偏好顯著提升,增量資金持續(xù)入場,助推A股呈現(xiàn)穩(wěn)步上行趨勢。中小盤風格表現(xiàn)尤為亮眼,量化模型借技術優(yōu)勢超額收益顯著領先指數(shù)。目前,大多數(shù)量化多因子模型對橫截面收益率預測采用均方誤差的損失函數(shù)進行模型優(yōu)化,這種方法追求精確值預測,對極端值敏感,并不能直接衡量股票間的排序結果,因此導致策略模型在選擇頭部股票的時候,缺乏區(qū)分力度,多頭策略的表現(xiàn)欠佳。本文提出了一種基于排序學習的LightGBM選股模型,通過LightGBM模型對多因子進行非線性關系的組合,利用LambdaRank排序學習算法對橫截面股票收益進行最大化排序一致性的優(yōu)化,通過引入位置感知機制、靈活利用標注類型,使模型直接輸出股票間相對序位匹配組合構建邏輯,提升對頭部股票的關注度,實現(xiàn)多頭策略的改善。在中國A股市場的實驗表明,基于排序學習的機器學習算法可有效提升投資組合的夏普比率。

1.引言

2025年中國A股市場正處于“結構性緩慢上行行情”的啟動階段,其核心驅動力源于政策逆周期(883436)調節(jié)加碼與市場流動性持續(xù)寬松的雙重支撐。一方面,貨幣政策延續(xù)寬松基調,央行通過降準降息推動企業(yè)融資成本降至歷史低位,并配合財政擴張(廣義財政赤字或達12萬億)投向新型城鎮(zhèn)化(885991)、消費(883434)及新興產業(yè);另一方面,經(jīng)濟基本面逐步企穩(wěn),房地產(881153)銷售降幅收窄疊加制造業(yè)升級,驅動滬深300(399300)盈利增速預期修復。在此背景下,投資者風險偏好顯著提升,股權風險溢價高于歷史均值1.2個標準差,居民超額儲蓄(約6萬億)與險資增配權益資產(年入市規(guī)模近7000億)共同形成增量資金池,為市場提供流動性支撐。

當前A股估值處于中長期洼地,較全球新興市場存在顯著折價。在風格快速輪動與市場效率提升的背景下,傳統(tǒng)多因子模型的同質化風險加劇(40%機構策略相似),量化選股模型通過動態(tài)因子加權成為破局關鍵。

傳統(tǒng)資產定價模型(如CAPM、APT、Fama-French三因子模型)通過線性回歸框架識別系統(tǒng)性風險因子(市場風險、規(guī)模、價值等),其核心貢獻在于將收益歸因于有限維度的經(jīng)濟邏輯變量(如企業(yè)基本面、宏觀風險溢價)。然而,隨著市場結構復雜化與另類數(shù)據(jù)激增,傳統(tǒng)模型面臨兩大瓶頸。一是非線性關系建模不足,股價驅動因子間的交互效應(如動量與波動率的協(xié)同作用)難以通過線性方程刻畫。二是高維特征處理低效,當因子數(shù)量增至百維以上(如資金流、輿情、供應鏈數(shù)據(jù)),傳統(tǒng)方法易陷入“維度災難”。在此背景下,決策樹與神經(jīng)網(wǎng)絡(ResNet、LSTM、CNN)等機器學習算法憑借非線性函數(shù)擬合能力成為收益預測的新范式。尤其神經(jīng)網(wǎng)絡通過深層特征變換可挖掘因子間的隱性關聯(lián)(例如CNN捕捉量價時空模式、LSTM建模因子時變效應),在預測精度上顯著超越線性模型。盡管神經(jīng)網(wǎng)絡預測性能卓越,但其在金融場景的落地面臨兩大關鍵挑戰(zhàn):模型復雜性過高,深度網(wǎng)絡需超參數(shù)調優(yōu)、GPU算力支持及海量訓練數(shù)據(jù),中小券商基礎設施難以承載(如ResNet訓練單模型耗時超LightGBM的5倍);因子歸因能力弱,隱層特征變換導致經(jīng)濟邏輯模糊,無法清晰追溯收益來源(例如無法量化價值因子對組合收益的貢獻度),嚴重阻礙策略迭代與風控審計。相比之下,LightGBM憑借梯度提升決策樹(GBDT)框架,在保持非線性建模能力的同時兼具解釋性與低復雜性。

LightGBM框架進行橫截面收益率預測,其核心是通過梯度提升決策樹(GBDT)融合高維因子(如量價、基本面、資金流等),以均方誤差(MSE)作為損失函數(shù)回歸預測個股絕對收益率。這一方法雖能捕捉因子非線性關系,卻存在本質性缺陷:目標函數(shù)與投資任務錯位。MSE優(yōu)化的是收益率絕對值預測精度,而投資組合構建實際依賴的是股票相對排序(如優(yōu)選TopK個股);其平等加權所有樣本誤差的特性導致對尾部噪聲敏感(如財報暴雷股),且忽略頭部股票排序準確性的關鍵價值(NDCG@K指標與MSE優(yōu)化方向脫節(jié)),最終使組合收益被非關鍵誤差干擾。

為克服上述缺陷,本文將排序學習(LambdaRank[8])損失函數(shù)被引入LightGBM框架,實現(xiàn)從“回歸預測”到“排序優(yōu)化”的范式升級。排序學習的創(chuàng)新一方面將梯度重構,繞過顯式損失函數(shù)定義,直接基于排序評價指標(如NDCG)設計梯度;另一方面將股票樣本數(shù)據(jù)在訓練時以分組形式指定每日橫截面股票池規(guī)模,確保同一交易日股票作為獨立查詢組參與排序學習,從而直接優(yōu)化頭部股票的分層準確性。

在中國A股市場的實證表明,對于LightGBM選股模型,排序學習策略在相同因子庫下相比MSE均值回歸策略夏普比率提升66%(1.86 vs 1.12),換手率降低46%,驗證了排序學習對量化選股任務的目標適配性。

2.相關工作

在不確定條件下資產未來風險與收益之間的權衡關系是資產定價(Asset Pricing)的核心問題。傳統(tǒng)資產定價模型主要有資本資產定價模型(CAPM)和套利定價理論(APT)。CAPM 是基于風險資產期望收益均衡基礎上的預測模型,它認為資產的預期收益率等于無風險利率加上風險溢價,而風險溢價取決于資產的系統(tǒng)性風險。APT認為資產的預期收益率取決于多個因素,而不僅僅是市場組合的收益率。它通過構建多因素模型來解釋資產的收益。如果資產的定價不合理,就會出現(xiàn)套利機會,投資者會通過套利行為使資產價格回歸合理水平。Fama-French三因子模型認為股票的收益率除了受市場風險因素影響外,還受到公司規(guī)模、賬面市值比等因素的影響。套利定價理論為三因子模型的發(fā)展提供了理論基礎,F(xiàn)ama-French三因子模型是在套利定價理論基礎上的具體應用和拓展。Fama-French多因子模型還存在盈利水平風險、投資水平風險等其他因素影響股票的收益率。隨著數(shù)據(jù)的豐富和計算能力的提升,大量的因子被挖掘出來,用于解釋資產價格或投資組合的表現(xiàn),就如同一個“動物園” 里有各種各樣的因子——“Factor Zoo”。這些因子來源多樣、數(shù)量眾多且特性各異,主要分為市場因子、規(guī)模因子、價值因子、盈利因子、投資因子等。

金融數(shù)據(jù)和因子的幾何式增長對傳統(tǒng)資產定價和組合管理模型的參數(shù)估計、有效性都充滿了挑戰(zhàn)。隨著深度學習的提出和硬件算力的提升,金融領域也正在迎接“大數(shù)據(jù)+深度模型”的時代。金融數(shù)據(jù)具有非線性、非平穩(wěn)性和高噪音性三大性質,這對于傳統(tǒng)統(tǒng)計學方法是困難的,但機器學習不需要復雜的數(shù)據(jù)預處理,能夠通過大量樣本的訓練保證模型的泛化能力。其中集成學習算法將多個弱學習器通過各種投票機制構建成一個強學習器的模型,在圖像識別、自然語言處理等領域都有廣泛應用。目前集成算法分為Bagging(袋裝法)和Boosting(提升法)兩類。Bagging以隨機森林為代表,通過對原始數(shù)據(jù)集進行有放回的隨機抽樣,得到多個不同的子數(shù)據(jù)集,然后分別在這些子數(shù)據(jù)集上訓練多個弱學習器(通常是決策樹),最后通過投票等方式將這些弱學習器的結果進行組合。Boosting以AdaBoost(Adaptive(ADPT) Boosting)、 GBDT(Gradient Boosting Decision Tree)為代表,是一種串行的集成方法,即依次訓練多個弱學習器,每個弱學習器都是基于上一個弱學習器的錯誤進行調整和改進。通過不斷地調整樣本權重和學習器權重,使得后續(xù)的弱學習器更加關注那些被前一個弱學習器錯誤分類的樣本,從而逐步提高整體模型的性能。微軟(MSFT)開發(fā)的LightGBM采用了一系列優(yōu)化技術,在訓練速度、內存占用和準確率等方面具有明顯優(yōu)勢,廣泛應用于信用風險評估、金融市場價格和趨勢預測等任務。

3.方法

根據(jù)決策樹輸出結果的不同,決策樹可以分為分類樹和回歸樹兩類。其核心邏輯是根據(jù)度量標準,從樹根開始選擇最優(yōu)特征逐級分裂,遞推生成一顆完整的決策樹。業(yè)界大多使用信息增益(表示信息不確定性減少的程度,越大越好)、信息增益比(越大越好)、基尼系數(shù)(衡量集合的純度,越小越好)作為分裂標準。CART(Classification and Regression Tree)決策樹每次選擇基尼系數(shù)最小的屬性進行迭代,它既可以解決分類問題又可以解決回歸問題。決策樹在建立樹時如果參數(shù)選擇不合理(即樹根或者枝干略有差池),樹就可能會徹底長偏,產生過擬合的現(xiàn)象,導致泛化能力變弱,因此大多會采用剪枝、交叉驗證等手段。除此之外,為了有效減少單決策樹帶來的問題,與決策樹相關的組合(比如Bagging, Boosting等算法)也逐漸被引入進來,這些算法的精髓都是通過生成N棵樹(N可能高達幾百)最終形成一棵最適合的大樹。如圖1所示,Bagging技術類似多數(shù)投票機制,對于不同的分類器可以通過并行訓練而獲得,且每個分類器的權重相等;但Boosting則是在前面已訓練獲得的分類器基礎上加以調整(更關心之前分類器分錯的樣本)而獲得新的分類器,因此Boosting中的分類器權重并不相等,其權重值代表該分類器在上一輪迭代中的成功度。總的來說Boosting主要關注降低偏差,能基于泛化性能相對弱的學習器構建出很強的集成;Bagging主要關注降低方差,在不剪枝的決策樹、神經(jīng)網(wǎng)絡等學習器上效用更為明顯。GBDT(Gradient Boosting Decision Tree)是基于bagging的算法,通過構造一組弱的分類回歸樹CART,并把多顆決策樹的結果累加起來作為最終的預測輸出。所有弱分類器的結果相加等于預測值。每次都以當前預測為基準,下一個弱分類器去擬合誤差函數(shù)對預測值的殘差(預測值與真實值之間的誤差)。LightGBM是GBDT的算法實現(xiàn),引入了并行方案、基于梯度的單邊檢測、排他性特征捆綁等,提供一個快速高效、低內存占用、高準確度、支持并行和大規(guī)模數(shù)據(jù)處理的數(shù)據(jù)科學工具。在本研究中,將股票的多因子特征作為輸入,股票未來幾日的收益率作為標簽,通過決策樹擬合股票未來N天的收益率變化趨勢。

圖1 集成算法Boosting和Bagging的區(qū)別

Point-wise的MSE,平等懲罰所有預測誤差,忽視投資組合構建的排序本質。Pair-wise的Lambdarank,直接優(yōu)化股票對的相對順序,來提升排序質量,其計算流程基于RankNet的梯度改進,并引入位置感知機制。對于橫截面任意兩只股票組合,股票i和j的真實標簽滿足收益率i大于收益率j時,模型打分時需滿足股票i的得分高于j的情況。RankNet使用交叉熵損失建模股票對排序概率,而LambdaRank在RankNet基礎上引入排序評價指標(如NDCG)的變化量作為梯度權重。在LightGBM的樹分裂增益時,以梯度加權信息增益選擇分裂點。綜上,通過對NDCG的變化加權,頭部排序錯誤產生更大損失(如交換第1位和第10位的損失遠高于交換第50位和第60位)。在LightGBM中直接優(yōu)化IR指標(NDCG),避免MSE回歸的絕對誤差偏差。

4.實驗

我們在中國A股市場上評估驗證了框架的有效性,選取了全市場市值排名在前90%的標的進行模型的訓練。選取了年化收益率ARR、最大回撤MDD和年化夏普比率 ASR衡量不同風險偏好。ARR(Annualized Rate of Return)是一個持有周期(883436)的年化平均收益率,是持有期的平均收益率減去無風險收益率。AVol(Annualized Volatility)是年化平均波動率,反映了策略的風險水平。MDD(Maximum DrawDown)是衡量投資策略在最糟糕情況下的損失。ASR(Annualized Sharpe Ratio)是年化夏普率,反映在年化波動率下的風險調整收益。

為了驗證排序學習是否能夠優(yōu)化已有因子組合的模型,我們對比了多因子等權組合、基于MSE均值回歸的LightGBM。

表1分別展示LightGBM和等權組合在全市場市值前90%股票池中根據(jù)多因子模型選取前100只股票條件下收益和風險的表現(xiàn)。

整體來看基于排序學習的LightGBM相比等權組合,在年化收益率、年化夏普率、最大回撤指標上結果更好,在換手率指標上結果稍遜。這表明機器學習算法可以改進傳統(tǒng)的資產配置結果,實現(xiàn)在風險可控條件下較高的收益。在2022、2023年市場低迷的情況下,基于排序學習的LightGBM比基于MSE的LightGBM性能表現(xiàn)欠佳,這可能是因為市場橫盤震蕩風格持續(xù)切換,多頭排序一直變化很難捕捉到規(guī)律。在2024年和2025年盡管市場波動劇烈,但是風格持續(xù)時間較長,基于排序學習的LightGBM能夠捕捉趨勢,抓住賺錢效應??偟膩砜?,基于排序學習的LightGBM相比等權組合模型,在最大回撤相差不大的情況下,夏普率有一定提升。

排序學習的損失函數(shù)在邏輯和結果上均具有一定優(yōu)勢,在實際使用中若直接將其取代MSE,可能導致模型過分追求排序結果,而股票間收益率的大小關系差異會被忽略,因此后續(xù)我們將探討多任務學習,將排序和回歸兩個目標結合,使模型在兩個方向同時學習,從而達到兩者兼顧的效果。

本文證實了橫截面收益預測策略因引入排序學習(LTR)技術顯著提升組合收益的穩(wěn)健性。然而市場風格劇變(如2024年微盤股(883418)流動性問題、小市值因子波動率飆至4.8%)倒逼模型持續(xù)迭代,證券公司(399975)需建立動態(tài)對抗機制,突破因子內卷,將技術壁壘轉化為競爭優(yōu)勢。未來突破在于聯(lián)邦學習框架下的行業(yè)協(xié)作——在數(shù)據(jù)隱私合規(guī)前提下共享因子有效性情報,推動量化投資從“零和博弈”轉向提升市場整體韌性的基礎設施。

免責聲明:風險提示:本文內容僅供參考,不代表同花順觀點。同花順各類信息服務基于人工智能算法,如有出入請以證監(jiān)會指定上市公司信息披露平臺為準。如有投資者據(jù)此操作,風險自擔,同花順對此不承擔任何責任。
homeBack返回首頁
不良信息舉報與個人信息保護咨詢專線:10100571違法和不良信息涉企侵權舉報涉算法推薦舉報專區(qū)涉青少年不良信息舉報專區(qū)

浙江同花順互聯(lián)信息技術有限公司版權所有

網(wǎng)站備案號:浙ICP備18032105號-4
證券投資咨詢服務提供:浙江同花順云軟件有限公司 (中國證監(jiān)會核發(fā)證書編號:ZX0050)
AIME
舉報舉報
反饋反饋