Vous rêvez d'un job de Machine Learning en finance ? Cela pourrait être moins palpitant que vous ne le pensez...
Le Machine Learning (ML) est probablement la chose la plus en vogue en finance quantitative en ce moment. Mais il est également mal compris.
Pour les débutants, le machine learning n’est pas vraiment clair. Le terme évoque des images de cyborgs artificiellement intelligents générant des flux de données financières, proposant de nouvelles stratégies de trading qu'ils testent et modifient sans aucune supervision humaine. Certaines techniques ésotériques de ML ressemblent un peu à ceci. Les algorithmes génétiques, par exemple, peuvent se modifier pour améliorer leurs performances.
Cependant, le machine learning ne se limite pas à cela. D’autres méthodes dites d’apprentissage automatique semblent définitivement dépassées. Beaucoup de gens vont jusqu'à ranger dans le ML des techniques statistiques classiques telle que la régression linéaire. Ces techniques plus anciennes nécessitent un apprentissage étroitement supervisé - un être humain doit spécifier les variables d'intérêt et l'équation générale qui les relie. La machine ne doit pas faire plus que trouver quelques valeurs de paramètres.
Vous pensez probablement que le machine learning est une innovation récente. Ceci est une erreur. La plupart des techniques de ML existent depuis des décennies - la nouvelle technologie passionnante des réseaux de neurones remonte aux années 1950. Là où le ML s'inspire des statistiques traditionnelles, il y a encore plus d'antériorité : la régression linéaire a été inventée au 19ème siècle.
Cependant, deux tendances récentes ont mis en lumière le machine learning. Pour commencer, les data scientists disposent de plus de puissance informatique brute que jamais auparavant. Cela est dû en partie à la loi de Moore - la croissance exponentielle continue de la performance des puces individuelles. Mais c’est aussi grâce au cloud computing, qui permet aux programmeurs ML d’accéder à des machines beaucoup plus puissantes que leur ordinateur de bureau ou de serveurs locaux. Par conséquent, des techniques informatiques intensives de ML sont désormais réalisables.
L’autre changement a été la disponibilité du «big data» : des ensembles de données plus importants pour le ML. Dans le monde traditionnel des données, les prix d'accès sont maintenant relativement peu coûteux et accessibles, générant un ensemble de données beaucoup plus riche que les prix minute par minute. Il y a également eu une croissance significative des données alternatives telles que les publications sur les médias sociaux; ce qui en théorie pourrait donner des indices sur l'humeur des consommateurs et donc sur l'évolution des actions individuelles.
Mais ces tendances ne se traduisent pas automatiquement par des profits énormes pour quiconque essaie d’utiliser l’apprentissage automatique pour prédire les cours des actions. Même la technique de ML la plus sophistiquée ne sera pas capable de trouver une relation qui n’est pas là. Pire encore, le danger est qu’ils découvrent un modèle qui n’est pas vraiment là ou qui ne persistera pas à l’avenir. Ce problème de «suréquipement» pose problème de même que toutes les tentatives de prédire l'avenir en utilisant des données du passé, mais il est particulièrement problématique pour les méthodes compliquées de ML. Là où le ML trouve une relation, il se peut qu'il découvre simplement quelque chose qui aurait pu être trouvé avec des outils plus rudimentaires.
Les données alternatives peuvent également ne pas être à la hauteur de la publicité que l'on en fait. La chaîne de causalité entre de nombreuses sources de données alternatives et les prix des actifs est probablement très ténue, même si elle existe. La plupart des ensembles de données de remplacement n’existent pas depuis très longtemps et les techniques de ML ont besoin de longues séries de points de données pour trouver des effets relativement faibles.
Un domaine sans doute plus prometteur est la bataille en cours entre les desks d’exécution buy-side et les prop'traders à haute fréquence qui essaient de les surpasser. Ici, les deux parties peuvent utiliser le ML pour voir les faibles empreintes de leurs concurrents dans de grands ensembles de données sur les prix et modifier leurs stratégies en conséquence.
Ironiquement, les véritables réussites en matière d’apprentissage automatique dans la finance sont très éloignées du monde clinquant du front-office des banques et des hedge funds. Au lieu de cela, elles se trouvent dans le monde beaucoup moins glamour de la banque de détail. Le ML est particulièrement efficace pour identifier les emprunteurs de cartes de crédit et les créanciers hypothécaires qui sont plus susceptibles de faire défaut sur leurs paiements.
Ces domaines ont des ensembles de données importants et bien établis pour que les techniques de machine learning s’imposent, mais plus important encore, le comportement des individus semble plus prévisible que leurs interactions sur les marchés financiers. Si vous voulez un emploi dans l'apprentissage automatique, c'est probablement ici que vous devriez concentrer votre attention.
Robert Carver est ancien responsable fixed income du hedge fund quantitatif AHL, et auteur de «Systematic Trading» er «Smart Portfolios».
Vous avez un scoop, une anecdote, un conseil ou un commentaire que vous aimeriez partager ? Contact : tiochem@efinancialcareers.com