La mise en œuvre de l’analyse statistique des données nécessite très fréquemment de procéder à des manipulations des ensembles de données dans des perspectives très diverses : extraire et travailler avec des sous-ensembles de données, transformer des variables, traiter adéquatement les données manquantes ou les données calendaires (heures, dates), transposer des tableaux de données, générer des procédures répétitives, concevoir des simulations...
Ces méthodes sont parfois mises en œuvre par des équipes / personnes distinctes de celles qui procèdent aux analyses statistiques et parfois ce sont les mêmes équipes / personnes qui souhaitent développer ces compétences. Elles nécessitent toutes d’adopter une approche de "programmation" plus pointue que celle qui est impliquée dans l’analyse statistique des données.
Cette formation est conçue pour acquérir les compétences de programmation essentielles à la manipulation des données et à la génération de procédures répétitives. Ces méthodes pourront aussi déboucher sur la mise en œuvre d’analyses statistiques telles que les techniques de "bootstrap / resampling / simulations de Monte-Carlo".
Résumé
Logiciel : R
Durée : 21 heures
Objectifs :
Maîtriser et utiliser les bases de programmation essentielles à la manipulation des données et à la génération de procédures répétitives.
Mettre en œuvre des analyses statistiques telles que les techniques de "bootstrap / resampling / simulations de Monte-Carlo".
Pré-requis : Cette formation s’adresse à deux catégories de publics différents :
1. des personnes ayant un usage de R comme outil d’analyses statistiques et qui éprouvent le besoin de traiter leurs données avec des procédures de manipulation avancées. Ces profils doivent disposer des compétences correspondant au niveau 1 de la "Formation R pour les analyses statistiques" ;
2. des personnes ayant une formation préalable en programmation informatique et souhaitant adapter leurs compétences au langage R. Ces profils doivent avoir une expérience minimale de la programmation dans un langage autre que R (langages de type procéduraux, déclaratifs, objet...) mais n’ont pas besoin d’avoir utilisé R au préalable ;
Il est préférable de ne pas mixer les deux profils dans un même groupe. Les personnes souhaitant choisir l’option "Bootstrap / Simulations de Monte-Carlo" doivent avoir une connaissance des principes et des méthodes liés aux procédures classiques de Statistique Inférentielle (comparaison de moyennes, comparaison de fréquences).
Public : toute personne ou groupe de personnes ayant besoin de développer des compétences dans la manipulation des données et la programmation avec le langage R, quel que soit leur niveau d’études.
Méthodes mobilisées : Alternance d’apports théoriques et d’exercices de mise en application pratique. Les notions décrites sont mise en pratique en permanence en parallèle au cours. Chaque demi-journée est ponctuée d’exercices simples qui sont directement en lien avec le thème de la demi-journée. La dernière demi-journée est consacrée à un exercice complet nécessitant la mise en œuvre synthétique en semi-autonomie des compétences acquises sur l’ensemble de la formation.
Modalités et délais d’accès : Sur inscription préalable au minimum 1 semaine avant le début de la formation selon disponibilité du formateur.
Modalités d’évaluations : Une évaluation du niveau des stagiaires est réalisée avant l’entrée en formation par téléphone ou au moyen d’un questionnaire. Évaluation des acquis et de la satisfaction en fin de formation.
Accessibilité aux personnes en situation de handicap : toutes nos formations sont accessibles aux personnes en situation de handicap, qu’il soit moteur, visuel, auditif ou cognitif ; quelles qu’en soient les particularités.
Nous pouvons proposer des solutions de compensation de nos prestations en adaptant les moyens pédagogiques, techniques et d’encadrement. Nos locaux sont en rez-de-chaussée avec des places de parkings extérieures juste devant l’entrée du bâtiment. Aussi, merci de nous informer de vos besoins d’adaptation ; les échanges peuvent se faire et rester en toute confidentialité.
Taux de satisfaction 2i2l : 94,44 % des stagiaires sont "très satisfaits" ou "satisfaits" à l’issue de leur formation.
Tarif : pour une demande de formation interne, nous consulter
Présentation
R est un logiciel libre de traitement de données et d’analyse statistique mettant en œuvre le langage de programmation S [1].
le site Web officiel du logiciel R
le logiciel R est distribué sous licence GNU GPLv2
et soutenu par la Fondation R
l’article Wikipédia du logiciel R
Programme
Vérification des acquis du Niveau 1 ou Présentation des bases de R en fonction du profil des participants :
les principaux objets du langage
les statistiques descriptives
les bases sur les graphiques
le chargement d’extensions
Les objets du langage :
Dataframes, vecteurs, facteurs, matrices, arrays, fonctions
Indexation des objets
Nature des données
Subscripting
Processus de traitement des données :
Structures de contrôle
Vectorisation du code
Calcul matriciel
Génération automatique de graphiques
Manipulation des données :
Transformation de données
Manipulation avancée des objets (l’extension plyr)
Traitement des données manquantes
Jour 3 matin : au choix :
le traitement avancé des données calendaires / temporelles (calculs numériques sur les heures / dates / séries temporelles, regroupement de dates, fuseaux horaires)
ou bien
les simulations aléatoires (génération de données aléatoires, bootstrap / resampling & simulations de Monte-Carlo)
Exercice récapitulatif :
les sélections, extractions et transformations de données
les travaux sur des objets N-dimensionnels
la mise en œuvre de structures de programmation répétitives sous forme vectorisée ou par boucles
les simulations aléatoires ou traitement de données temporelles