取代人類做炒賣 AI可以戰勝市場?|蔡嘉民
先為讀者簡介一下現時大多數機構投資者炒賣的方法——不外乎為運用統計學、數學等模型,嘗試在歷史數據中找出規律。
最簡單的例子為,坊間常說「黃金交叉」後價格便會上漲。那分析師便會以歷史數據配合上述邏輯,以驗證這個策略是否能有效賺錢。
理論上,對於一個AI來說,只需要input因子及數據,然後挑選相對應的模型,再label目標,就能成事。
上述過程看起來簡單,因為用家不需要太理會構成黃金交叉的是甚麼天數的移動平均線,亦不需要決定注碼等變數。
市場炒家較易操作
可惜實際上的操作並沒人們想得那麼簡單。首先,AI一向「garbage in、garbage out」。即只要輸入的數據或因子是無用的,那結果也很大程度上是沒用的。
所以,整個操作仍然極需要有一位有經驗的用家,挑選正確的feature去輸入AI模型。
有經驗的用家,指的是完全了解市場運作模式的炒家,知道哪些因子有用;知道哪些數據沒用等。假如input的100個feature中,只有一個有用,那AI也難以造出有效的策略。
其次,專用於處理數據的AI模型多的是,例如decision tree、SVM、CNN、RNN、LSTM及random forest等。
用家必須在這範疇具有深厚知識,才能成功挑選適用的模型;在挑選模型後,更要決定hyperparameters的數目、learning的layer等,完全不如坊間所想那麼簡單。
即使真能找到一個結果很亮麗的策略,也不代表在市場中能賺錢。
筆者有極多朋友,曾經嘗試在金融市場中運用machine learning找策略,十居八九也遇上overfitting的問題,即策略只在測試的數據中有用,但市況一變,就不用有效。
這是用AI作數據分析的一大痛點,由於AI模型中有大量參數可以設定,因此多了空間讓AI造出一個假的「好」結果。
另一方面,撇除操作及運用AI的難度,數據量也是個非常重要的一環。
大眾都知道統計學注重的是樣本數據量(sample size)。若果樣本數據量不足,統計結果多亮麗也好,也達不到統計顯注性(statistical significance)。網上有不少人,嘗試以股價每日 OHLC數據,去倒入AI模式預測股價。
以每日的精度來說,數據量已經少,不少人更只以兩年或三年數據測試,總樣本數據點只有500至750個,完全不能成功訓練一個AI模型。
若要有足夠數據量,至少也須用到分鐘或秒鐘級別的數據,才有機會造出一個「身經百戰」的AI模型。
因此,千萬不要以為有AI就可以輕鬆賺錢,用家必須有相關知識。
而且,金融市場極為多變,完全不像圍棋、象棋那些規則簡單的遊戲。若要靠AI自動賺錢,恐怕要多點時間。