M. Alain Celisse
Professeur des universités
Mathématiques appliquées et applications des mathématiques
Affectation(s)
SAMM : Statistique, analyse, modélisation multidisciplinaire (UR 4543)
UFR 27 : Mathématiques et informatique
Domaines d'expertise
Statistical learning Data Science Deep Learning and AI
À propos de moi
I am Professor in Statistical / Machine learning and Data Science
Affiliation:
- Paris 1 Panthéon-Sorbonne University
- SAMM (Statistics, Analysis, Models, and Mathematics), EA 4543
- UFR 27: Mathematics and Informatics
Mailing address:
Centre PMFOffice: C-20.07
SAMM - Université Paris 1 Panthéon-Sorbonne
90, rue de Tolbiac
75634 PARIS CEDEX 13 - FRANCE
E-mail: alain [dot] celisse (At) univ-paris1 {dot} fr
Duties:
- Co-organization of the weekly SAMM seminar
- Member of the Una Europa project
Scientific interests:
- My main background is in Mathematics applied to Statistical/Machine learning.
- I design learning strategies and also provide the theoretical analysis of their statistical performance, with a particular emphasis on scalable approaches in the context of massive data (Big Data).
- Regarding this aspect, a crucial question is to understand the trade-off between the available computational resources and the statistical precision one can achieve.
- Applications from various fields such as biology, industry or cyber-security are also welcome.
Recherche
Direction(s) de recherche
Estimator/Model selection
Goal: Choose among several candidate estimators/models the best one.
- Penalized (random) criteria: AIC-or BIC-like penalties
- Regularization (convex relaxation): L1 (Lasso), L2 (Ridge)
- Cross-validation: Leave-one-out, Leave-p-out, V-fold
Two possible perspectives:
- Identification: recover the "true model" (if any)
- Estimation/prediction: recover the model with the smallest generalization error
Change-points detection, anomaly/outlier detection
Data: Time-series of "objects" which can be a sequence of high-dimensional measurements from (dependent) sensors, or structured objects such as texts or audio/video streams.
Type of change: Changes in any (prescribed or not) features of the distribution along the time
- Offline: Change-points detection, segmentation
- Online: Outlier detection, anomaly detection
Asset: Does not require any distributional assumption (no parametric model)
Reproducing kernels
Reproducing kernels, mean embedding, Minimum Mean Discrepancy (MMD), neighboring graph between objects, combination of heterogeneous data of different nature
Rough interpretation:
- Reproducing kernels can be thought of as a "similarily measure" between objects. The more similar a pair of objects, the larger the value of the kernel evaluated at this pair of objects.
Interest:
- Reproducing kernels can deal with objects which are not necessarily vetcors (DNA sequences, graphs, video streams,...).
- As long as such a similarity measure between objects does exist, then these objects can be compared. For instance, a neighboring graph can be built from this pairwise proximity measure.
- Simple combinations of kernels can help combining descriptors (of an individual) although they are of different kinds
Parameter estimation/approximation techniques
Variational algorithm in the Stochastic Block Model (SBM), Low-rank matrix approximation, Random Fourier features, approximate cross-validation
Main interest and difficulty:
- Whereas an estimator can be costly to compute (or even not achievable!), replacing such an estimator by an approximation can greatly reduce the computation time.
- Several approximating strategies often exist. Choosing one of them is usually a difficult task although a large number of them perform well in practice.
Trade-off between Computation resources and Statistical precision
Motivation:
- Most estimators are defined as minimizers of an optimization problem.
- Optimization algorithms are mainly used to output an (approximate) evaluation
- Numerous optimization algorithms are itertive ones (Gradient descent, Stocastic gradient descent, EM-algorithm, coordinate descent,...)
Goal:
- Reducing the computational burden (time and memory), while keeping a reliable statistical performance
- Designing an early stopping rule, that is a data-driven stopping rule indicating when to stop the iterative optimization process
Stability of learning algorithms and concentration inequalities
Strategy:
- Introduce a new notion of stability for learning algorithms
- Exploit connections between this notion of stability and concentration inequalities
- Derive (tighter) concentration results for classical learning algorithms (Ridge regression, k-Nearest Neighbors, Nadaraya-Watson estimators,...)
Applications
- Biostatistics:
- Multiple testing: Identifying genes/SNPs that are differentially expressed between two experimental conditions.
- Change-points detection: Detecting copy number variations along the genome, including variations of the allelic ratio.
- Lasso-like strategies: Supervised selection of features (SNPs for instance) that are related to a disease (cancer) in a high-dimensional context by exploiting the existing between-features redundancy.
- Industry:
In a supervised framework:
- Identifying weak events related to some failures occurrences.
- Designing data-driven rules allowing for detecting weak events online.
Publications
2024
Pré-publication, Document de travail
- titre
- Détection d'anomalies online basée sur les points de ruptures
- auteur
- Etienne Krönert, Dalila Hattab, Alain Celisse
- article
- 2024
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
2023
Article dans une revue
- titre
- MLGL: An R package implementing correlated variable selection by hierarchical clustering and group-Lasso
- auteur
- Quentin Grimonprez, Samuel Blanck, Alain Celisse, Guillemette Marot
- article
- Journal of Statistical Software, 2023, 106 (3), ⟨10.18637/jss.v106.i03⟩
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
Pré-publication, Document de travail
- titre
- Contrôle du FDR pour la détection d'anomalies online
- auteur
- Etienne Krönert, Alain Célisse, Dalila Hattab
- article
- 2023
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
2022
Communication dans un congrès
- titre
- Variable selection with Multi-Layer Group Lasso
- auteur
- Guillemette Marot, Quentin Grimonprez, Samuel Blanck, Alain Celisse
- article
- useR! 2022, Jun 2022, Virtual, United States
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
2021
Article dans une revue
- titre
- Analyse d'une règle d'arrêt prématuré basée sur le principe de discrépance pour les algorithmes à filtrage spectral
- auteur
- Alain Celisse, Martin Wahl
- article
- Journal of Machine Learning Research, 2021, ⟨10.48550/arXiv.2004.08436⟩
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
2020
Communication dans un congrès
- titre
- SYSBOOSTER, application of Data Science to surveillance of systems for detection or anticipation of dysfunctions or failures of systems
- auteur
- Alain Celisse, Olivier Gauriau, Margot Corréard, Jean-François Bouin, Lennart Priester, Ronald Naumann, Emmanuel Arbaretier, Michel Kaczmarek, Uwe Schmietainski, Hagen Friedrich
- article
- Congrès Lambda Mu 22 « Les risques au cœur des transitions » (e-congrès) - 22e Congrès de Maîtrise des Risques et de Sûreté de Fonctionnement, Institut pour la Maîtrise des Risques, Oct 2020, Le Havre (e-congrès), France. pp.1-9
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
2019
Article dans une revue
- titre
- A Kernel Multiple Change-point Algorithm via Model Selection
- auteur
- Sylvain Arlot, Alain Celisse, Zaid Harchaoui
- article
- Journal of Machine Learning Research, 2019, 20 (162), pp.1--56
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
Communication dans un congrès
- titre
- Smoothed discrepancy principle as an early stopping rule in RKHS
- auteur
- Yaroslav Averyanov, Alain A. Celisse
- article
- 51es Journées de Statistique, Jun 2019, Nancy, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
2018
Article dans une revue
- titre
- New efficient algorithms for multiple change-point detection with reproducing kernels
- auteur
- Alain Celisse, Guillemette Marot, Pierre-Jean Male, Guillem Rigaill
- article
- Computational Statistics and Data Analysis, 2018, 128, pp.200-220. ⟨10.1016/j.csda.2018.07.002⟩
- typdoc
- Article dans une revue
- Accès au bibtex
- titre
- Theoretical analysis of cross-validation for estimating the risk of the k-nearest neighbor classifier
- auteur
- Alain Celisse, Tristan Mary-Huard
- article
- Journal of Machine Learning Research, 2018, 19, pp.1-54
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
HDR
- titre
- Contributions à la calibration d'algorithmes d'apprentissage : Validation-croisée et détection de ruptures
- auteur
- Alain Celisse
- article
- Statistics [math.ST]. Université de Lille, 2018
- typdoc
- HDR
- Accès au texte intégral et bibtex
2017
Communication dans un congrès
- titre
- Compromis précision - temps de calcul appliqué au problème de régression linéaire
- auteur
- Maxime Brunin, Christophe Biernacki, Alain Celisse
- article
- 2017 - 49e Journées de Statistique de la SFdS, May 2017, Avignon, France. pp.1-6
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
- titre
- About Two Disinherited Sides of Statistics: Data Units and Computational Saving
- auteur
- Christophe Biernacki, Alexandre Lourme, Maxime Brunin, Alain A. Celisse
- article
- Statlearn 2017, Apr 2017, Lyon, France. pp.1-56
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
2016
Communication dans un congrès
- titre
- Computation time/accuracy trade-off and linear regression
- auteur
- Christophe Biernacki, Maxime Brunin, Alain Celisse
- article
- 9th International Conference of the ERCIM WG on Computational and Methodological Statistics (CMStatistics 2016, ERCIM 2016), Dec 2016, Séville, Spain
- typdoc
- Communication dans un congrès
- Accès au bibtex
- titre
- Compromis précision-temps de calcul appliqué au problèeme de détection de ruptures
- auteur
- Maxime Brunin, Christophe Biernacki, Alain Celisse
- article
- 48èmes Journées de Statistique de la SFdS, May 2016, Montpellier, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
Poster de conférence
- titre
- Variable selection by exploiting correlation
- auteur
- Quentin Grimonprez, Alain Celisse, Guillemette Marot
- article
- XXVIIIth International Biometric Conference, Jul 2016, Victoria, Canada.
- typdoc
- Poster de conférence
- Accès au texte intégral et bibtex
Pré-publication, Document de travail
- titre
- New efficient algorithms for multiple change-point detection with kernels
- auteur
- Alain Celisse, Guillemette Marot, Morgane Pierre-Jean, Guillem Rigaill
- article
- 2016
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
- titre
- Stability revisited: new generalisation bounds for the Leave-one-Out
- auteur
- Alain Celisse, Benjamin Guedj
- article
- 2016
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
2015
Communication dans un congrès
- titre
- Sélection de groupes de variables corrélées par classification ascendante hiérarchique et group-lasso
- auteur
- Quentin Grimonprez, Alain Celisse, Guillemette Marot
- article
- Sixièmes rencontres des jeunes statisticiens, SFdS, Aug 2015, Le Teich, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
- titre
- Compromis précision-temps de calcul et détection de ruptures
- auteur
- Maxime Brunin, Christophe Biernacki, Alain Celisse
- article
- 6ème Rencontres des Jeunes Statisticiens, Aug 2015, Le Teich, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
- titre
- Sélection de groupes de variables corrélées par classification ascendante hiérarchique et group-lasso
- auteur
- Quentin Grimonprez, Alain Celisse, Guillemette Marot
- article
- 47èmes Journées de Statistique, Jun 2015, Lille, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
Pré-publication, Document de travail
- titre
- Theoretical analysis of cross-validation for estimating the risk of the k-Nearest Neighbor classifier
- auteur
- Alain Celisse, Tristan Mary-Huard
- article
- 2015
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
- titre
- A One-Sample Test for Normality with Kernel Methods
- auteur
- Jérémie Kellner, Alain Celisse
- article
- 2015
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
2014
Article dans une revue
- titre
- MPAgenomics : An R package for multi-patients analysis of genomic markers
- auteur
- Quentin Grimonprez, Alain Celisse, Samuel Blanck, Meyling Cheok, Martin Figeac, Guillemette Marot
- article
- BMC Bioinformatics, 2014, 15, pp.394. ⟨10.1186/s12859-014-0394-y⟩
- typdoc
- Article dans une revue
- pubmedId
- : 25495450
- Accès au texte intégral et bibtex
Communication dans un congrès
- titre
- High-dimensional test for normality
- auteur
- Jérémie Kellner, Alain Celisse
- article
- Journées des Statistiques, Jun 2014, Rennes, France
- typdoc
- Communication dans un congrès
- Accès au bibtex
- titre
- Analyse multi-patients de données génomiques
- auteur
- Quentin Grimonprez, Alain Celisse, Guillemette Marot
- article
- 46e Journées de Statistique, SFDS, Jun 2014, Rennes, France
- typdoc
- Communication dans un congrès
- Accès au bibtex
Poster de conférence
- titre
- Analysis of genomic markers: Make it easy with the R package MPAgenomics
- auteur
- Quentin Grimonprez, Alain Celisse, Guillemette Marot
- article
- SMPGD 2014, Jan 2014, Paris, France. , 2014
- typdoc
- Poster de conférence
- Accès au texte intégral et bibtex
Rapport
- titre
- New goodness-of-fit tes for normality in RKHS
- auteur
- Jérémie Kellner, Alain Celisse
- article
- [Research Report] Inria. 2014
- typdoc
- Rapport
- Accès au bibtex
Pré-publication, Document de travail
- titre
- New normality test in high dimension with kernel methods
- auteur
- Jérémie Kellner, Alain Celisse
- article
- 2014
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
2013
Brevet
- titre
- Détection de ruptures à partir de méthodes à noyaux
- auteur
- Morgane Pierre-Jean, Guillemette Marot, Guillem Rigaill, Alain Celisse
- article
- United Kingdom, Patent n° : 0000000. 2013
- typdoc
- Brevet
- Accès au bibtex
- titre
- Change-point detection with kernel methods : application to DNA copy number signals
- auteur
- Morgane Pierre-Jean, Guillemette Marot, Rigaill Guillem, Alain Celisse
- article
- France, Patent n° : 00000000000000. 2013
- typdoc
- Brevet
- Accès au bibtex
2012
Article dans une revue
- titre
- Consistency of maximum-likelihood and variational estimators in the stochastic block model
- auteur
- Alain A. Celisse, Jean-Jacques J.-J. Daudin, Laurent L. Pierre
- article
- Electronic Journal of Statistics , 2012, 6, pp.1847-1899. ⟨10.1214/12-EJS729⟩
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
2011
Article dans une revue
- titre
- Exact Cross-Validation for k-NN in binary classification, applications to passive and active learning
- auteur
- Tristan Mary-Huard, Alain Celisse
- article
- Journal de la Société Française de Statistique, 2011, 152 (3), pp.83-97
- typdoc
- Article dans une revue
- Accès au bibtex
- titre
- Exact Cross-Validation for kNN and applications to passive and active learning in classification
- auteur
- Alain A. Célisse, Tristan Mary-Huard
- article
- Journal de la Société Française de Statistique, 2011, 152 (3), pp.83-97
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
Pré-publication, Document de travail
- titre
- Consistency of maximum-likelihood and variational estimators in the Stochastic Block Model
- auteur
- Alain Celisse, J.-J. Daudin, Laurent Pierre
- article
- 2011
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
2010
Article dans une revue
- titre
- Segmentation of the mean of heteroscedastic data via cross-validation
- auteur
- Sylvain Arlot, Alain Celisse
- article
- Statistics and Computing, 2010, 21 (4), ⟨10.1007/s11222-010-9196-x⟩
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
- titre
- A cross-validation based estimation of the proportion of true null hypotheses
- auteur
- Alain Célisse, Stephane Robin
- article
- Journal of Statistical Planning and Inference, 2010, 140 (11), pp.3132-3147. ⟨10.1016/j.jspi.2010.04.014⟩
- typdoc
- Article dans une revue
- Accès au bibtex
- titre
- A survey of cross-validation procedures for model selection
- auteur
- Sylvain Arlot, Alain Celisse
- article
- Statistics Surveys, 2010, 4, pp.40--79. ⟨10.1214/09-SS054⟩
- typdoc
- Article dans une revue
- Accès au texte intégral et bibtex
Communication dans un congrès
- titre
- Properties of variational estimates of a mixture model for random graphs
- auteur
- Jean-Jacques Daudin, Alain Célisse, Steven Gazal, Stephane Robin
- article
- ECCS10 European Conference on Complex Systems, Sep 2010, Lisbonne, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
- titre
- Consistance des estimateurs variationnels pour un modèle de graphe aléatoire
- auteur
- Alain Célisse, Jean-Jacques Daudin
- article
- 42. Journées de Statistique, May 2010, Marseille, France
- typdoc
- Communication dans un congrès
- Accès au bibtex
- titre
- Consistance des estimateurs variationnels pour un modèle de graphe aléatoire
- auteur
- Alain Celisse, Jean-Jacques Daudin
- article
- 42èmes Journées de Statistique, 2010, Marseille, France, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
2009
Article dans une revue
- titre
- Kerfdr: a semi-parametric kernel-based approach to local false discovery rate estimation
- auteur
- Mickaël Guedj, Stephane Robin, Alain Célisse, Grégory Nuel
- article
- BMC Bioinformatics, 2009, 10, pp.1-12. ⟨10.1186/1471-2105-10-84⟩
- typdoc
- Article dans une revue
- pubmedId
- : 19291295
- Accès au texte intégral et bibtex
- titre
- A semi-parametric kernel-based approach to local False Discovery Rate estimations
- auteur
- Gregory Nuel, Alain Celisse, Mickaël Guedj, Stéphane Robin
- article
- BMC Bioinformatics, 2009, 10, pp.84
- typdoc
- Article dans une revue
- Accès au bibtex
- titre
- Kerfdr: a semi-parametric kernel-based approach to local false discovery rate estimation
- auteur
- M. Guedj, S. Robin, Alain Celisse, Gregory Nuel
- article
- BMC Bioinformatics, 2009, 10, pp.84
- typdoc
- Article dans une revue
- Accès au bibtex
Communication dans un congrès
- titre
- Détection de ruptures dans la moyenne d'un processus hétéroscédastique par validation-croisée
- auteur
- Sylvain Arlot, Alain Celisse
- article
- 41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
2008
Article dans une revue
- titre
- Nonparametric density estimation by exact leave-p-out cross-validation
- auteur
- Alain Célisse, Stephane Robin
- article
- Computational Statistics and Data Analysis, 2008, 52 (5), pp.2250-2368. ⟨10.1016/j.csda.2007.10.002⟩
- typdoc
- Article dans une revue
- Accès au bibtex
Communication dans un congrès
- titre
- Segmentation in the mean of heteroscedastic data via resampling or cross-validation
- auteur
- Alain Celisse, Sylvain Arlot
- article
- Workshop Change-Point Detection Methods and Applications, Sep 2008, Paris, France
- typdoc
- Communication dans un congrès
- Accès au texte intégral et bibtex
Thèse
- titre
- Sélection de modèle par validation-croisée en estimation de la densité, régression et détection de ruptures
- auteur
- Alain Celisse
- article
- Mathematics [math]. Université Paris Sud - Paris XI, 2008. English. ⟨NNT : ⟩
- typdoc
- Thèse
- Accès au texte intégral et bibtex
- titre
- Sélection de modèle par validation-croisée en estimation de la densité, régression et détection de ruptures
- auteur
- Alain Celisse
- article
- Mathematics [math]. Université Paris Sud - Paris 11, 2008. English. ⟨NNT : ⟩
- typdoc
- Thèse
- Accès au bibtex
Pré-publication, Document de travail
- titre
- Optimal cross-validation in density estimation
- auteur
- Alain Celisse
- article
- 2008
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex
2007
Pré-publication, Document de travail
- titre
- A leave-p-out based estimation of the proportion of null hypotheses
- auteur
- Alain Celisse, Stéphane Robin
- article
- 2007
- typdoc
- Pré-publication, Document de travail
- Accès au texte intégral et bibtex