La finance est très consommatrice de données économiques et financières, et un des enjeux majeurs pour les opérateurs de marchés est la gestion de ces données. Dans un monde où les choses évoluent de plus en plus rapidement, le délai entre le traitement des données et la prise de décision doit être réduit au maximum, sans pour autant sacrifier la robustesse des résultats.
Pour des traitements complexes, gourmands en calculs ou des « big data », les logiciels usuels tels qu’Excel ne sont plus suffisant (même si les possibilités données par le langage Visual Basic for Application permettent de faire de grandes choses, je ne vais pas cracher dans la soupe). Pour pallier à ces déficits, il existe des logiciels spécialisés de statistique plus ou moins adaptables et évolutifs (SAS, SPSS, Matlab, Eviews, Scilab, pour ne citer que les plus connus). Ils ont tous leurs avantages et leurs inconvénients, là où vous trouverez de la simplicité vous serez déçu par l’adaptabilité, là où vous trouverez de la complexité vous serez surpris par la polyvalence.
Il n’y a pas de meilleure solution, chacun trouvera midi à sa porte, en fonction de ses attentes et de ses besoins. Pour ma part, je me suis tourné vers le logiciel R et je vais vous expliquer pourquoi dans les lignes qui vont suivre.
- Origines
Le logiciel a été créé par Ross Ihaka et Robert Gentleman dans les laboratoires Bell (laboratoires spécialisés dans la recherche sur les télécommunications et l’informatique) en 1988. Pour dire vrai, R n’est pas qu’un simple logiciel de statistique, c’est aussi un langage de programmation orienté objet dérivé du langage S (utilisé notamment pour un autre logiciel statistique S-PLUS).
- R est un logiciel gratuit et open source
Voilà les premières raisons qui m’ont poussé à utiliser ce logiciel. La gratuité n’est en rien gage d’efficacité, pourtant je peux vous assurer que cet adjectif lui correspond très bien. Le logiciel est « open source », ce qui signifie que chaque utilisateur peut l’étudier, le modifier et diffuser le logiciel et ses versions dérivées librement. Ce genre de liberté a permis de fédérer une communauté importante et dynamique autour de cet environnement statistique, permettant un développement extraordinaire en peu de temps, si bien que depuis quelques années, deux versions par an sont mises en place. Une importante littérature sur le sujet a également été publiée, touchant des domaines et des niveaux variés.
- Il est multiplateforme
Le logiciel a été codé en C, C++, Fortran et Java, des langages multiplateformes, ce qui lui permet d’être utilisable sur la majorité des systèmes d’exploitation qui existent aujourd’hui (dont les principaux : Windows, Linux et Mac OS). Ce n’est pas rien, cela veut concrètement dire que vous pourrez utiliser le logiciel sur tous vos ordinateurs, ce qui facilite le travail collaboratif par exemple. Et c’est aussi ce qui a expliqué le fort développement de cet environnement en si peu de temps. Ce n’est pas tout d’être gratuit et libre, si en plus vous êtes multiplateforme, alors vous abolissez des frontières pour reconnecter des communautés jusqu’alors divisées (windows vs mac vs linux).
- Son fonctionnement
R repose sur un système de « packages ». Dans sa version de base, il intègre la plupart des fonctionnalités statistiques de base, mais ses capacités sont augmentées en lui ajoutant de nouveaux « packages », qui lui permettrons d’appliquer des méthodes plus spécifiques de traitement des données. Concrètement, ces « packages » sont des procédures et des fonctions qui sont programmées en R (voir en C++) et qui sont ensuite appelées par invite de commande.
Le nombre de « packages » est considérable et touche à beaucoup de domaines. R peut-être interfacé et connecté avec d’autres logiciels, il vous permettra également de fabriquer des « Graphical User Interfaces » (et dans différents langages de programmation : Qt, Tcl/Tk, RGtk, pour ceux que je connais), de faire des graphiques 3D, et bien d’autres choses, que je n’aurais pas le temps de vous décrire dans ce poste.
MAIS ! parce qu’il y a toujours un mais !
Autant de flexibilité, d’adaptabilité, requiert quelques connaissances en programmation. En effet, R n’est pas ce qu’on appelle un « point and click » (contrairement à SPSS par exemple). Comme je l’ai mentionné plus haut, on fait appel à des packages via des invites de commandes, ou on créé ses propres fonctions et procédures en les programmant (en cela, il ressemble énormément à Matlab). Mais ne fuyez pas déjà ! Sachez que ce langage de programmation est plutôt simple, et il est possible de faire pas mal de choses avec seulement quelques connaissances de base. De plus, l’importante littérature sur le sujet est là pour vous aider, et les packages sont « livrés » avec le mode d’emploi (téléchargeable avec le package ou depuis le menu « help » du logiciel).
Certains lui reprochent son manque de « design » ou son apparence austère, mais je me moque personnellement de l’apparence de mon logiciel de statistique du moment qu’il me donne des résultats rapides et robustes.
Au lancement du logiciel, vous obtenez cette fenêtre. Comme vous pouvez le voir, par le biais de la ligne library(RODBC), j’ai fait appel au package « RODBC », qui est une interface de connexion entre R et une base de données (dans mon cas une base de données MySQL). Cependant, d’autres interfaces graphiques de gestion de R ont été créées, comme RStudio, rendant l’utilisation du logiciel un peu plus « user-friendly ».
- Pourquoi cette présentation ?
Très bonne question ! C’est bien, je vois que vous êtes réactif et intéressé !!!
Dans un premier temps parce que je suis content de faire connaître ce projet. Une multinationale créer un langage de programmation et un environnement statistique pour ses propres besoins, puis laisse la licence totalement libre. Le projet se diffuse d’abord timidement, mais peu à peu, de plus en plus de personnes s’approprient l’environnement et l’améliorent. En quelques années, c’est une communauté mondiale qui participe activement à son développement et le propulse au rang des environnements statistiques les plus utilisés au monde, autant dans le milieu académique que professionnel…Je trouve cela extraordinaire.
Dans un second temps, parce que c’est un logiciel que j’utilise au quotidien pour mon métier (gestion d’actifs), et que je le trouve simplement indispensable. J’essaierai de développer des articles sur certains packages que j’utilise pour l’analyse quantitative.
Enfin, parce qu’il est libre, ce qui veut dire que vous pourrez également le télécharger, pour profiter de cette pépite. Vous pourrez utiliser les codes que je parsèmerai dans ce blog pour vos propres analyses ou jouer aux apprentis sorciers en créant vos propres scripts.
- Quelques sources
1. Téléchargements
– Ici vous pourrez trouver R et les packages dont vous avez besoin : http://cran.r-project.org/
– Ici une interface pour connecter R à Excel : http://rcom.univie.ac.at/
– Pour télécharger l’IDE (Integrated Development Environment) RStudio : http://www.rstudio.com/
2. Littérature
– Ici le plus important blog de la communauté, une mine d’information : http://www.r-bloggers.com/
– Pour une présentation approfondie du logiciel : Le logiciel R : Maitrisez le langage, Effectuez des analyses statistiques. Pierre Lafaye De Michaux, Rémy Drouilhet, Benoît Liquet, 2010, Springer.