Les meilleures bibliothèques pour les applications Big Data de Python
Pandas
Pandas est l’une des bibliothèques data science les plus populaires. Elle a été développée par des Data Scientists habitués au R et au Python, et est aujourd’hui utilisée par un grand nombre de scientifiques et d’analystes.
Elle offre de nombreuses fonctionnalités natives très utiles. Panda offre notamment la possibilité de lire des données en provenance de nombreuses sources, en créant de vastes dataframes à partir de ces sources, et d’effectuer des analyses agrégées basées sur les questions auxquelles on souhaite obtenir des réponses. Des fonctionnalités de visualisation permettent également de générer des graphiques à partir des résultats des analyses, ou de réaliser des exportations au format Excel.
Agate
Plus récente que Pandas, Agate est également une bibliothèque Python conçue pour résoudre des problèmes d’analyse de données. Elle propose notamment des fonctionnalités d’analyse et de comparaison de tableaux Excel, ou encore d’effectuer des calculs statistiques sur une base de données. Ce sont ces fonctionnalités de visualisation de données qui rendent Agathe plus attractive que Panda. Notons que du point des utilisateurs Panda reste également plus simple dans son apprentissage que Panda.
Bokeh
Bokeh est un outil idéal pour créer des visualisation d’ensembles de données et permet de créer d’excellents graphiques et visualisations sans avoir besoin de coder outre mesure. Il est possible de l’utiliser conjointement avec Agate, Pandas et avec d’autres bibliothèques d’analyse de données.
NumPy
NumPy est un package utilisé pour les calculs scientifiques en Python. Il est idéal pour les opérations liées à l’algèbre linéaire, aux transformations de Fourier, ou au crunching de nombres aléatoires.
Il peut être utilisé en guise de container multi-dimensionnel de données génériques. De plus, il s’intègre facilement avec de nombreuses bases de données différentes.
Scikit-learn
Scikit-learn est très utile pour les algorithmes de classification, ou de clustering et créer des arbres décisionnels, le gradient boosting, ou encore les k-moyennes.
Cette bibliothèque de Machine Learning pour Python est fortement complémentaire des autres bibliothèques telles que NumPy et SciPy.
PyBrain
PyBrain est en réalité l’acronyme astucieux de Python-Based Reinforcement Learning, Artificial Intelligence, and Neural Network Library. Comme son nom le suggère, il s’agit d’une bibliothèque produisant des algorithmes puissants particulièrement adaptés au Machine Learning.
TensorFlow
Tensor Flow a été développé par les équipes Google Brain, C’est en réalité une bibliothèque de Machine Learning. Ses graphiques de data flow et son architecture flexible permettent d’effectuer des opérations et des calculs de données à l’aide d’une API unique sur de multiples CPU ou GPU depuis un PC, un serveur ou même un appareil mobile.
Parmi les autres bibliothèques Python, on peut aussi évidemment citer PyMySQL qui permet de connecter une base de données MySQL et d’extraire des données et d’exécuter des requêtes. Et, le notebook iPython permet la programmation interactive.
Apprendre le Python avec OpenClassrooms
Si vous êtes débutants ou que vous souhaitez apprendre le développement de Python progressivement et gratuitement, nous recommandons le cours d’initiation proposé par OpenClassrooms.