Introduction à NumPy

par Samuel Bancal, EPFL-ENAC-IT, © Creative Commons BY-SA

(rev. 2020-07-10)

1 Introduction

1.1 Ce support de cours

Ce support de cours a pour vocation de faire une introduction rapide de la librairie Numpy en couvrant les fonctions essentielles à son utilisation, en particulier la manipulation d’objets ndarray. Il n’a pas pour but d’être exhaustif, ni dans le choix des fonctions, ni dans les paramètres des fonctions documentées.

Les informations originales et complètes peuvent être trouvées en suivant les lien qui accompagnent chaque chapitre.

Pour accéder à la documentation complète de NumPy, vous pouvez vous rendre sur extern-link https://docs.scipy.org/doc/numpy/reference/index.html

Le Jupyter Notebook d’exercices associé à ce cours peut être téléchargé ici.

1.2 Préambule sur le calcul scientifique et Python

Historiquement, le calcul scientifique avait pour language de programmation clé Fortran. Ensuite sont venus C, C++, Matlab/Octave. Plus récemment, d’autres langages ont rejoint ce cercle. On y trouve Python, grace en particulier à la librairie Numpy, mais aussi les langages R et Julia.

Pour tendre vers de meilleures performances en calcul, en plus de la parallélisation du code, l’ingénieur va s’intéresser à la quantité de mémoire réservée et le temps de calcul nécessaire pour faire une tâche. Plus le langage est de bas niveau, plus l’utilisation de la mémoire et du processeur pourront être efficaces.

Selon ce critère, l’assembleur serait le meilleur langage puisque il est au plus bas niveau possible. Dans les faits, il n’est pas courament utilisé pour ça étant donné qu’il requiert que l’ingénieur décompose chaque opération en série d’instructions processeur. Cela finit par des quantités de code colossales et peu lisibles, même pour réaliser des tâches simples. On peut ajouter à cela le fait qu’il n’est pas portable d’un type de processeur à un autre.

Viennent ensuite Fortran, C, C++ qui sont des langages de niveau intermédiaire. Ils doivent être compilés avant de pouvoir être exécutés par le processeur. Ces langages permettent une grande optimisation des ressources. C’est leur grande force. Leurs inconvénients sont le temps et la quantité de code nécessaires à réaliser des tâches simples ainsi que la nécessité de gérer l’espace mémoire manuellement.

Finalement viennent les langages de haut niveau, tel que Matlab/Octave, Python, R. Il s’agit de langages dits “interprétés” parce qu’ils sont convertis à la volée en un code intermédiaire et exécutés par une application “interprète”. Ceux-ci offrent des avantages considérables pour le développeur, notamment la gestion automatisée de la mémoire, une syntaxe plus haut-niveau (et donc plus proche de l’humain). Ces avantages ont un coût … à savoir que la gestion de la mémoire est moins optimisée (se faisant automatiquement). Le temps de calcul est également impacté par des traitements automatiques supplémentaires que le langage doit ajouter pour compenser les facilités offertes au développeur.

Avec un langage de haut niveau, il est clair que le temps de développement sera plus court et le temps d’exécution sera plus long qu’avec un langage de niveau plus bas. Pour cette raison il est important de prendre le temps d’évaluer et chercher le bon rapport entre coût et gain lors du choix de la technologie employée pour un projet.

Une approche qui est souvent employée consiste à coder la grande partie du projet dans un langage de haut niveau et écrire les portions cruciales du code dans un langage de plus bas niveau. Ceci permet de trouver un bon compromis, alliant les avantages de chaque language. Une autre approche largement employée et proche de la précédente consiste à utiliser un langage de haut niveau et d’employer une librairie qui optimise les ressources employées pour faire les calculs coûteux. L’utilisation de la librairie Numpy nous fait entrer dans ce cas de figure.

L’analyse du temps d’exécution à l’aide d’un profiler permet de localiser ces parties critiques.

1.3 NumPy

NumPy est la librairie qui offre la pièce fondamentale pour faire du calcul scientifique avec Python. Elle est sous licence BSD, ce qui permet à chacun de l’utiliser librement pour ses besoins (académiques, privés et professionnels).

https://numpy.org/

Elle est majoritairement écrite en C (pour les parties clé à optimiser) et Python. Quelques portions sont également écrites en C++ et Fortran.

Elle étend les capacités de Python pour travailler sur des tableaux et matrices à n dimensions de façon bien plus optimisée et offre des fonctions mathématiques de haut niveau sur ces objets.

1.4 NumPy vs Matlab / Octave

Pour les utilisateurs connaissant déjà l’environnement Matlab / Octave, il sera d’une grande aide de consulter cette page https://docs.scipy.org/doc/numpy/user/numpy-for-matlab-users.html qui relate les principales différences et équivalences entre ceux-ci et Numpy.

2 Description de NumPy

2.1 Import

Par convention, la communauté importe Numpy de la façon suivante. Ceci permet de faire appel à des fonctions avec la notation plus courte : np.array() (plutôt que numpy.array()).

import numpy as np

2.2 Création d’objets ndarray

L’objet ndarray pour N-dimensional array est l’élément central de la librairie Numpy. Tout ce qui est décrit ci-dessous a pour vocation de travailler sur ces objets, de la création, aux opérations en passant par leurs attributs et les manipulations possibles.

important Dans cette documentation, il est mention d’objets de type ndarray et d’autres de type array. Voici la différence :

ndarray : “N-dimensional array”. C’est un objet spécifique à la librairie Numpy. Techniquement c’est un np.array.
array : n’importe quel objet Python itérable. Les listes et tuples Python, ainsi que les ndarray en font partie.

Voici encore d’autres termes qui seront régulièrement employés :

rang (rank) : nombre de dimensions d’un objet ndarray
géométrie (shape) : un tuple d’entiers (int) donnant la longueur de chaque dimension.

On peut se demander l’intérêt d’utiliser une librairie spécifique pour travailler avec des listes/matrices/arrays alors que Python fourni déjà les objets de type list() écrit plus rapidement [ ], ainsi qu’une série de fonctions qui leurs sont utiles. Une rapide comparaison est proposée en fin de ce document au chapitre Comparaison entre une liste Python et un Array Numpy.

Python `list`	Numpy `np.array`
natif au langage	requiert l’installation et l’import de `numpy`
typage dynamique	typage fixé à la création lors de la création de l’objet
peut être redimensionné	de taille fixe
plus gourmand en mémoire	moins d’espace en mémoire nécessaire
dédiée au stockage d’informations	dédié au travail sur des matrices
moins performant	plus performant en temps de calcul

1 Introduction

1.1 Ce support de cours

1.2 Préambule sur le calcul scientifique et Python

1.3 NumPy

1.4 NumPy vs Matlab / Octave

2 Description de NumPy

2.1 Import

2.2 Création d’objets ndarray

2.2.1 L’objet lui-même : np.array( )

2.2.2 Création d’un intervalle avec np.arange( )

2.2.3 Création d’un intervalle avec np.linspace( )

2.2.4 Création de ndarrays avec np.zeros( ), np.ones( ) et np.full( )

2.2.5 Création de ndarrays, np.zeros_like( ), np.ones_like( ) et np.full_like( )

2.2.6 Génération de ndarray à valeurs aléatoires avec np.random

2.2.7 Génération de ndarray avec np.fromfunction

2.2.8 Génération de N ndarray avec np.meshgrid

2.2.9 Génération de N ndarray avec np.mgrid[]

2.2.10 Copie d’un ndarray avec np.copy()

2.3 Manipulation et attributs d’objets ndarray

2.3.1 Obtenir le type de données avec ndarray.dtype

2.3.2 Obtenir et modifier la géométrie avec ndarray.shape

2.3.3 Modifier la géométrie avec ndarray.reshape( )

2.3.4 Transposer la matrice avec ndarray.T

2.3.5 Indexing et Slicing

2.3.6 Indexing avec un tableau

2.3.7 Indexing avec un masque

2.3.8 Affectation indexée

2.3.9 Axes d’un ndarray

2.3.10 Sérialisation avec np.ravel( ) et ndarray.ravel( )

2.3.11 Retaillage avec np.resize( ) et ndarray.resize( )

2.3.12 Répétition avec np.repeat( )

2.3.13 Répétition avec np.tile( )

2.3.14 Empilement avec np.vstack( ) et np.hstack( )

2.3.15 Empilement avec np.column_stack( )

2.3.16 Découpe avec np.split( )

2.3.17 Test avec np.all( )

2.4 Opérations avec des objets ndarray

2.4.1 Broadcasting

2.4.2 Les opérations mathématique avec + - * / **

2.4.3 Le produit matriciel avec @

2.4.4 Chaque élément inversé avec np.negative( )

2.4.5 Sommes avec np.sum( ) et ndarray.sum( )

2.4.6 Sommes avec np.cumsum( ) et ndarray.cumsum( )

2.4.7 Extraction des extrêmes avec np.amin( ), ndarray.min( ), np.amax( ) et ndarray.max( )

2.4.8 Extraction des extrêmes avec np.argmin( ), ndarray.argmin( ), np.argmax( ) et ndarray.argmax( )

2.4.9 Extraction de la moyenne arithmétique, variance et déviation standard le long d’un axis avec np.mean( ), np.nanmean( ), np.var( ), ndarray.nanvar( ), np.std( ), ndarray.nanstd( )

2.4.10 Fonctions trigonométriques avec np.sin( ), np.cos( ), np.tan( ), np.arcsin( ), np.arccos( ) et np.arctan( )

2.4.11 Comparaison entre objets

2.5 Constantes Numpy

2.5.1 np.pi

2.5.2 np.e

2.5.3 np.euler_gamma

2.5.4 np.inf

2.5.5 np.NINF

2.5.6 np.NZERO

2.5.7 np.nan

2.5.8 np.newaxis

3 Comparaison entre une liste Python et un Array Numpy

3.1 les tableaux à N dimensions en Python

3.1.1 Caractéristiques comparées des objets Python de type list avec les objets Numpy de type np.array

3.2 Représentation en mémoire

3.2.1 d’une liste Python

3.2.2 d’un Array Numpy

3.3 Performances

3.3.1 Exemple comparatif entre Python et Python+Numpy

3.3.1.1 Avec les listes Python

3.3.1.2 Avec Numpy Array

3.3.2 Exemple comparatif entre langages

4 References

3.1.1 Caractéristiques comparées des objets Python de type `list` avec les objets Numpy de type `np.array`