數據 經一專欄 統計 回溯測試 市場 科學 高頻交易

量化分析 須動用多少數據 歷史數據非愈長愈好 | 經一專欄

投資

廣告

經一專欄】以歷史數據作回溯測試時,需要注意樣本數據的數量,若樣本數據不足,整個回溯測試未達致統計顯著性,策略於回測的表現多好,也未必代表能有效獲利。

撰文:蔡嘉民 | 圖片:unsplash

筆者於早期自學量化分析時,經常遇到策略於回溯測試結果很理想,但推出市場上執行卻未如理想的情況。 其中一大可能,就是因爲樣本數據不足,使策略於回測中出現過度吻合(Over-fitting)的情況。

樣本數據的數量非常重要,它能讓人誤把一個有效策略當為無效,相反地亦能令人浪費資金執行一個無效策略。 那究竟多長的歷史數據,才算足夠?

這個論題經常令人說量化分析非絕對科學,其實並非錯誤。 雖然量化分析都建基於數理上,但決定導入數據的數量則沒有明確標準,因此不同的分析師選擇取樣範圍時,就像是一門藝術。 那歷史數據是否愈長愈好呢?

理論上是的,但市場中有時候會出現一些本質上的變化,令市場生態出現轉變,包括政策上、制度上、又或者參與者的變化。

歷史數據非愈長愈好

例如內地股市於2015年下半年不斷抑制炒風,如透過增加日內交易手續費、增加衍生產品保證金等方法,事後內地股市成交金額下跌超過九成,投機者紛紛從股市逃到商品市場。

由於整個股市的炒賣風格變得全然不同,因此回測內地股市,便未必需要涵蓋2015年以前的數據,否則會較難找到一個持續獲利的策略。

若果內地股市將來容許沽空股票或者完全開放給外資,相信市場本質會變得極快,作回測者須留意策略本質會否被變化所影響。

有回測經驗的朋友此時會問,那從客觀上該如何判斷市場本質有變呢?

其實最簡單可以從成交額、成交次數以及未平倉合約(Open interest)數目來判斷;若以上數據於政策前後出現明顯變化,那分析者可以考慮放棄質變前的數據。

高頻交易不受困擾

另外,樣本數據需要的數量,當然也取決於的交易頻率。 例如早前本欄曾指出,以年計的策略最少也需有15或20年以上數據才能作準,畢竟每年一次的季節性策略操作頻率實在太低;相反,另一極端即高頻交易(High frequency trading)就不需要太長的數據。

如果邏輯堅固,短到一個月的數據也能有效證明策略可行,因為高頻交易常用的數據精度為Tick by tick,即市場每一口的變化也會被運用到回溯測試中。

流通市場每一個交易日的數據大約數十萬點,一個月就能有數千萬的樣本數據;所以,高頻交易會較少受到樣本數據須向歷史延伸多久這個問題困擾。

由此看來,若想增加數據量,要不向歷史延伸,要不增加交易頻率,但前後兩者都有一定程度上的困難,那還有甚麼方法可以增加統計顯著性呢?下次繼續探討。