Ce devoir maison est à envoyer par mail (aude.sportisse@upmc.fr) pour le vendredi 25 septembre (soir) en format .Rmd et .html.

Il comporte deux exercices, on pourra s'appuyer de les fiches 2 et 3 pour le réaliser.

Exercice 1

Nous allons nous intéresser au jeux de données decathlon. Ce jeu de données comprend les performances des athlètes pour les dix épreuves du décathlon (10 premières colonnes), le classement des athlètes (colonne 11), les points obtenus (colonne 12) et la compétition où cela s'est déroulé (colonne 13).

  1. Charger le jeu de données avec le nom des colonnes et le nom des lignes (qui correspond à la premières colonne du csv) en utilisant la fonction read.table et en specifiant correctement les arguments sep, row.names et header.
data=read.table("https://audesportisse.github.io/files/decathlon.csv",sep=";",header=TRUE,row.names=1)

Dans la suite, n'oubliez pas de donner un titre à vos graphiques et de bien vérifier que les titres des axes sont indicatifs.

  1. Représenter un nuage de points de la variable Longueur on fonction de la variable Points. Que remarque-t-on ?
library(ggplot2)
ggplot(data) + aes(x=Points, y=Longueur) + geom_point()

  1. Représenter le même nuage de point avec une couleur différente par compétition (la compétition est donnée par la variable Competition). Dans cette question, vous allez tracer 3 graphiques. Utiliser les couleurs par défault dans un premier temps (premier graphique) puis choisissez vos propres couleurs (deuxième graphique). Utiliser ensuite des formes différentes de votre choix en fonction de la compétition (troisième graphique).
ggplot(data) + aes(x=Points, y=Longueur, colour=Competition) + geom_point()

ggplot(data) + aes(x=Points, y=Longueur, colour=Competition) + geom_point() + scale_colour_manual(values=c("magenta", "orange"))

ggplot(data) + aes(x=Points, y=Longueur, colour=Competition, shape=Competition) + geom_point() + scale_shape_manual(values=c(21, 25))