M. Alain Celisse

Professeur des universités

Mathématiques appliquées et applications des mathématiques

Affectation(s)

SAMM : Statistique, analyse, modélisation multidisciplinaire (UR 4543)

UFR 27 : Mathématiques et informatique

Domaines d'expertise

Statistical learning Data Science Deep Learning and AI

À propos de moi

I am Professor in Statistical / Machine learning and Data Science

Affiliation:

  • Paris 1 Panthéon-Sorbonne University
  • SAMM (Statistics, Analysis, Models, and Mathematics), EA 4543
  • UFR 27: Mathematics and Informatics

Mailing address:

      Centre PMF
      Office: C-20.07
      SAMM - Université Paris 1 Panthéon-Sorbonne
      90, rue de Tolbiac
      75634 PARIS CEDEX 13 - FRANCE

E-mail: alain [dot] celisse (At) univ-paris1 {dot} fr

Duties:

  • Co-organization of the weekly SAMM seminar
  • Member of the Una Europa project

 

Scientific interests:

  • My main background is in Mathematics applied to Statistical/Machine learning.
  • I design learning strategies and also provide the theoretical analysis of their statistical performance, with a particular emphasis on scalable approaches in the context of massive data (Big Data).
  • Regarding this aspect, a crucial question is to understand the trade-off between the available computational resources and the statistical precision one can achieve.
  • Applications from various fields such as biology, industry or cyber-security are also welcome.

 

Recherche

Direction(s) de recherche

Estimator/Model selection

Goal: Choose among several candidate estimators/models the best one.

  • Penalized (random) criteria: AIC-or BIC-like penalties
  • Regularization (convex relaxation): L1 (Lasso), L2 (Ridge)
  • Cross-validation: Leave-one-out, Leave-p-out, V-fold

Two possible perspectives:

  • Identification: recover the "true model" (if any)
  • Estimation/prediction: recover the model with the smallest generalization error

 


 

Change-points detection, anomaly/outlier detection

Data: Time-series of "objects" which can be a sequence of high-dimensional measurements from (dependent) sensors, or structured objects such as texts or audio/video streams.
Type of change: Changes in any (prescribed or not) features of the distribution along the time

  • Offline: Change-points detection, segmentation
  • Online: Outlier detection, anomaly detection

Asset: Does not require any distributional assumption (no parametric model)

 


Reproducing kernels

Reproducing kernels, mean embedding, Minimum Mean Discrepancy (MMD), neighboring graph between objects, combination of heterogeneous data of different nature

Rough interpretation:

  • Reproducing kernels can be thought of as a "similarily measure" between objects. The more similar a pair of objects, the larger the value of the kernel evaluated at this pair of objects.

Interest:

  • Reproducing kernels can deal with objects which are not necessarily vetcors (DNA sequences, graphs, video streams,...).
  • As long as such a similarity measure between objects does exist, then these objects can be compared. For instance, a neighboring graph can be built from this pairwise proximity measure.
  • Simple combinations of kernels can help combining descriptors (of an individual) although they are of different kinds

 


 

Parameter estimation/approximation techniques

Variational algorithm in the Stochastic Block Model (SBM), Low-rank matrix approximation, Random Fourier features, approximate cross-validation

Main interest and difficulty:

  • Whereas an estimator can be costly to compute (or even not achievable!), replacing such an estimator by an approximation can greatly reduce the computation time.
  • Several approximating strategies often exist. Choosing one of them is usually a difficult task although a large number of them perform well in practice.

 


Trade-off between Computation resources and Statistical precision

Motivation:

  • Most estimators are defined as minimizers of an optimization problem.
  • Optimization algorithms are mainly used to output an (approximate) evaluation
  • Numerous optimization algorithms are itertive ones (Gradient descent, Stocastic gradient descent, EM-algorithm, coordinate descent,...)

Goal:

  • Reducing the computational burden (time and memory), while keeping a reliable statistical performance
  • Designing an early stopping rule, that is a data-driven stopping rule indicating when to stop the iterative optimization process

 


Stability of learning algorithms and concentration inequalities

 

Strategy:

  • Introduce a new notion of stability for learning algorithms
  • Exploit connections between this notion of stability and concentration inequalities
  • Derive (tighter) concentration results for classical learning algorithms (Ridge regression, k-Nearest Neighbors, Nadaraya-Watson estimators,...)

 


Applications

  • Biostatistics:
  1. Multiple testing: Identifying genes/SNPs that are differentially expressed between two experimental conditions.
  2. Change-points detection: Detecting copy number variations along the genome, including variations of the allelic ratio.
  3. Lasso-like strategies: Supervised selection of features (SNPs for instance) that are related to a disease (cancer) in a high-dimensional context by exploiting the existing between-features redundancy.
  • Industry:

In a supervised framework:

  1. Identifying weak events related to some failures occurrences.
  2. Designing data-driven rules allowing for detecting weak events online.

Publications

Publications HAL

2024

Pré-publication, Document de travail

titre
Détection d'anomalies online basée sur les points de ruptures
auteur
Etienne Krönert, Dalila Hattab, Alain Celisse
article
2024
typdoc
Pré-publication, Document de travail
Accès au texte intégral et bibtex
https://hal.science/hal-04440349/file/rhgddzmvjrpdbwfsdcpvnwwghsgxxhpm.pdf BibTex

2023

Article dans une revue

titre
MLGL: An R package implementing correlated variable selection by hierarchical clustering and group-Lasso
auteur
Quentin Grimonprez, Samuel Blanck, Alain Celisse, Guillemette Marot
article
Journal of Statistical Software, 2023, 106 (3), ⟨10.18637/jss.v106.i03⟩
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://inria.hal.science/hal-01857242/file/MLGL2022.pdf BibTex

Pré-publication, Document de travail

titre
Contrôle du FDR pour la détection d'anomalies online
auteur
Etienne Krönert, Alain Célisse, Dalila Hattab
article
2023
typdoc
Pré-publication, Document de travail
Accès au texte intégral et bibtex
https://hal.science/hal-04321622/file/article1-preprint.pdf BibTex

2022

Communication dans un congrès

titre
Variable selection with Multi-Layer Group Lasso
auteur
Guillemette Marot, Quentin Grimonprez, Samuel Blanck, Alain Celisse
article
useR! 2022, Jun 2022, Virtual, United States
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://inria.hal.science/hal-03942579/file/MLGL.pdf BibTex

2021

Article dans une revue

titre
Analyse d'une règle d'arrêt prématuré basée sur le principe de discrépance pour les algorithmes à filtrage spectral
auteur
Alain Celisse, Martin Wahl
article
Journal of Machine Learning Research, 2021, ⟨10.48550/arXiv.2004.08436⟩
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://inria.hal.science/hal-02548917/file/20-358.pdf BibTex

2020

Communication dans un congrès

titre
SYSBOOSTER, application of Data Science to surveillance of systems for detection or anticipation of dysfunctions or failures of systems
auteur
Alain Celisse, Olivier Gauriau, Margot Corréard, Jean-François Bouin, Lennart Priester, Ronald Naumann, Emmanuel Arbaretier, Michel Kaczmarek, Uwe Schmietainski, Hagen Friedrich
article
Congrès Lambda Mu 22 « Les risques au cœur des transitions » (e-congrès) - 22e Congrès de Maîtrise des Risques et de Sûreté de Fonctionnement, Institut pour la Maîtrise des Risques, Oct 2020, Le Havre (e-congrès), France. pp.1-9
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.science/hal-03483963/file/LM22_COM_FULL_493240_Emmanuel_Arbaretier_20200716_308700.pdf BibTex

2019

Article dans une revue

titre
A Kernel Multiple Change-point Algorithm via Model Selection
auteur
Sylvain Arlot, Alain Celisse, Zaid Harchaoui
article
Journal of Machine Learning Research, 2019, 20 (162), pp.1--56
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://hal.science/hal-00671174/file/kernelchpt_hal_v3.pdf BibTex

Communication dans un congrès

titre
Smoothed discrepancy principle as an early stopping rule in RKHS
auteur
Yaroslav Averyanov, Alain A. Celisse
article
51es Journées de Statistique, Jun 2019, Nancy, France
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.science/hal-02427696/file/sfds2019-1.pdf BibTex

2018

Article dans une revue

titre
New efficient algorithms for multiple change-point detection with reproducing kernels
auteur
Alain Celisse, Guillemette Marot, Pierre-Jean Male, Guillem Rigaill
article
Computational Statistics and Data Analysis, 2018, 128, pp.200-220. ⟨10.1016/j.csda.2018.07.002⟩
typdoc
Article dans une revue
Accès au bibtex
BibTex
titre
Theoretical analysis of cross-validation for estimating the risk of the k-nearest neighbor classifier
auteur
Alain Celisse, Tristan Mary-Huard
article
Journal of Machine Learning Research, 2018, 19, pp.1-54
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://hal.inrae.fr/hal-02621332/file/2018_Celisse_Journal%20of%20Machine%20Learning%20Researchpdf_1 BibTex

HDR

titre
Contributions à la calibration d'algorithmes d'apprentissage : Validation-croisée et détection de ruptures
auteur
Alain Celisse
article
Statistics [math.ST]. Université de Lille, 2018
typdoc
HDR
Accès au texte intégral et bibtex
https://hal.science/tel-02050179/file/HDR_manuscript.pdf BibTex

2017

Communication dans un congrès

titre
Compromis précision - temps de calcul appliqué au problème de régression linéaire
auteur
Maxime Brunin, Christophe Biernacki, Alain Celisse
article
2017 - 49e Journées de Statistique de la SFdS, May 2017, Avignon, France. pp.1-6
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.science/hal-01653754/file/subm266.pdf BibTex
titre
About Two Disinherited Sides of Statistics: Data Units and Computational Saving
auteur
Christophe Biernacki, Alexandre Lourme, Maxime Brunin, Alain A. Celisse
article
Statlearn 2017, Apr 2017, Lyon, France. pp.1-56
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://inria.hal.science/hal-01665905/file/slides_biernacki_statlearn.pdf BibTex

2016

Communication dans un congrès

titre
Computation time/accuracy trade-off and linear regression
auteur
Christophe Biernacki, Maxime Brunin, Alain Celisse
article
9th International Conference of the ERCIM WG on Computational and Methodological Statistics (CMStatistics 2016, ERCIM 2016), Dec 2016, Séville, Spain
typdoc
Communication dans un congrès
Accès au bibtex
BibTex
titre
Compromis précision-temps de calcul appliqué au problèeme de détection de ruptures
auteur
Maxime Brunin, Christophe Biernacki, Alain Celisse
article
48èmes Journées de Statistique de la SFdS, May 2016, Montpellier, France
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.science/hal-01420669/file/submission_54.pdf BibTex

Poster de conférence

titre
Variable selection by exploiting correlation
auteur
Quentin Grimonprez, Alain Celisse, Guillemette Marot
article
XXVIIIth International Biometric Conference, Jul 2016, Victoria, Canada.
typdoc
Poster de conférence
Accès au texte intégral et bibtex
https://hal.science/hal-04031191/file/posteribc2.pdf BibTex

Pré-publication, Document de travail

titre
New efficient algorithms for multiple change-point detection with kernels
auteur
Alain Celisse, Guillemette Marot, Morgane Pierre-Jean, Guillem Rigaill
article
2016
typdoc
Pré-publication, Document de travail
Accès au texte intégral et bibtex
https://inria.hal.science/hal-01413230/file/article.pdf BibTex
titre
Stability revisited: new generalisation bounds for the Leave-one-Out
auteur
Alain Celisse, Benjamin Guedj
article
2016
typdoc
Pré-publication, Document de travail
Accès au texte intégral et bibtex
https://inria.hal.science/hal-01355365/file/main.pdf BibTex

2015

Communication dans un congrès

titre
Compromis précision-temps de calcul et détection de ruptures
auteur
Maxime Brunin, Christophe Biernacki, Alain Celisse
article
6ème Rencontres des Jeunes Statisticiens, Aug 2015, Le Teich, France
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://inria.hal.science/hal-01238276/file/Brunin-RJS2015.pdf BibTex
titre
Sélection de groupes de variables corrélées par classification ascendante hiérarchique et group-lasso
auteur
Quentin Grimonprez, Alain Celisse, Guillemette Marot
article
Sixièmes rencontres des jeunes statisticiens, SFdS, Aug 2015, Le Teich, France
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://inria.hal.science/hal-01238253/file/rjs-res.pdf BibTex
titre
Sélection de groupes de variables corrélées par classification ascendante hiérarchique et group-lasso
auteur
Quentin Grimonprez, Alain Celisse, Guillemette Marot
article
47èmes Journées de Statistique, Jun 2015, Lille, France
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://inria.hal.science/hal-01238248/file/sfds.pdf BibTex

Pré-publication, Document de travail

titre
Theoretical analysis of cross-validation for estimating the risk of the k-Nearest Neighbor classifier
auteur
Alain Celisse, Tristan Mary-Huard
article
2015
typdoc
Pré-publication, Document de travail
Accès au texte intégral et bibtex
https://inria.hal.science/hal-01185092/file/knn_celisse_maryhuard.pdf BibTex
titre
A One-Sample Test for Normality with Kernel Methods
auteur
Jérémie Kellner, Alain Celisse
article
2015
typdoc
Pré-publication, Document de travail
Accès au texte intégral et bibtex
https://hal.science/hal-01175237/file/EJS%20-%20Kernel%20Norm%20Test.pdf BibTex

2014

Article dans une revue

titre
MPAgenomics : An R package for multi-patients analysis of genomic markers
auteur
Quentin Grimonprez, Alain Celisse, Samuel Blanck, Meyling Cheok, Martin Figeac, Guillemette Marot
article
BMC Bioinformatics, 2014, 15, pp.394. ⟨10.1186/s12859-014-0394-y⟩
typdoc
Article dans une revue
pubmedId
Pubmed icone : 25495450
Accès au texte intégral et bibtex
https://inria.hal.science/hal-00933614/file/s12859-014-0394-y.pdf BibTex

Communication dans un congrès

titre
High-dimensional test for normality
auteur
Jérémie Kellner, Alain Celisse
article
Journées des Statistiques, Jun 2014, Rennes, France
typdoc
Communication dans un congrès
Accès au bibtex
BibTex
titre
Analyse multi-patients de données génomiques
auteur
Quentin Grimonprez, Alain Celisse, Guillemette Marot
article
46e Journées de Statistique, SFDS, Jun 2014, Rennes, France
typdoc
Communication dans un congrès
Accès au bibtex
BibTex

Poster de conférence

titre
Analysis of genomic markers: Make it easy with the R package MPAgenomics
auteur
Quentin Grimonprez, Alain Celisse, Guillemette Marot
article
SMPGD 2014, Jan 2014, Paris, France. , 2014
typdoc
Poster de conférence
Accès au texte intégral et bibtex
https://hal.science/hal-01091543/file/SMPGD.pdf BibTex

Rapport

titre
New goodness-of-fit tes for normality in RKHS
auteur
Jérémie Kellner, Alain Celisse
article
[Research Report] Inria. 2014
typdoc
Rapport
Accès au bibtex
BibTex

Pré-publication, Document de travail

titre
New normality test in high dimension with kernel methods
auteur
Jérémie Kellner, Alain Celisse
article
2014
typdoc
Pré-publication, Document de travail
Accès au texte intégral et bibtex
https://hal.science/hal-00977839/file/rkhsgauss-preprint.pdf BibTex

2013

Brevet

titre
Détection de ruptures à partir de méthodes à noyaux
auteur
Morgane Pierre-Jean, Guillemette Marot, Guillem Rigaill, Alain Celisse
article
United Kingdom, Patent n° : 0000000. 2013
typdoc
Brevet
Accès au bibtex
BibTex
titre
Change-point detection with kernel methods : application to DNA copy number signals
auteur
Morgane Pierre-Jean, Guillemette Marot, Rigaill Guillem, Alain Celisse
article
France, Patent n° : 00000000000000. 2013
typdoc
Brevet
Accès au bibtex
BibTex

2012

Article dans une revue

titre
Consistency of maximum-likelihood and variational estimators in the stochastic block model
auteur
Alain A. Celisse, Jean-Jacques J.-J. Daudin, Laurent L. Pierre
article
Electronic Journal of Statistics , 2012, 6, pp.1847-1899. ⟨10.1214/12-EJS729⟩
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://hal.science/hal-01000059/file/EJS729_1.pdf BibTex

2011

Article dans une revue

titre
Exact Cross-Validation for k-NN in binary classification, applications to passive and active learning
auteur
Tristan Mary-Huard, Alain Celisse
article
Journal de la Société Française de Statistique, 2011, 152 (3), pp.83-97
typdoc
Article dans une revue
Accès au bibtex
BibTex
titre
Exact Cross-Validation for kNN and applications to passive and active learning in classification
auteur
Alain A. Célisse, Tristan Mary-Huard
article
Journal de la Société Française de Statistique, 2011, 152 (3), pp.83-97
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://hal.science/hal-01000024/file/2011CelisseSFDS_1.pdf BibTex

Pré-publication, Document de travail

titre
Consistency of maximum-likelihood and variational estimators in the Stochastic Block Model
auteur
Alain Celisse, J.-J. Daudin, Laurent Pierre
article
2011
typdoc
Pré-publication, Document de travail
Accès au texte intégral et bibtex
https://hal.science/hal-00593644/file/SBM_Var_MLE_EJS.pdf BibTex

2010

Article dans une revue

titre
Segmentation of the mean of heteroscedastic data via cross-validation
auteur
Sylvain Arlot, Alain Celisse
article
Statistics and Computing, 2010, 21 (4), ⟨10.1007/s11222-010-9196-x⟩
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://hal.science/hal-00363627/file/chpt.pdf https://hal.science/hal-00363627/file/chpt_supp.pdf BibTex
titre
A cross-validation based estimation of the proportion of true null hypotheses
auteur
Alain Célisse, Stephane Robin
article
Journal of Statistical Planning and Inference, 2010, 140 (11), pp.3132-3147. ⟨10.1016/j.jspi.2010.04.014⟩
typdoc
Article dans une revue
Accès au bibtex
BibTex
titre
A survey of cross-validation procedures for model selection
auteur
Sylvain Arlot, Alain Celisse
article
Statistics Surveys, 2010, 4, pp.40--79. ⟨10.1214/09-SS054⟩
typdoc
Article dans une revue
Accès au texte intégral et bibtex
https://hal.science/hal-00407906/file/preprintLilleArlotCelisse.pdf BibTex

Communication dans un congrès

titre
Properties of variational estimates of a mixture model for random graphs
auteur
Jean-Jacques Daudin, Alain Célisse, Steven Gazal, Stephane Robin
article
ECCS10 European Conference on Complex Systems, Sep 2010, Lisbonne, France
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.science/hal-01197575/file/51657_20120206120148426_1.pdf BibTex
titre
Consistance des estimateurs variationnels pour un modèle de graphe aléatoire
auteur
Alain Célisse, Jean-Jacques Daudin
article
42. Journées de Statistique, May 2010, Marseille, France
typdoc
Communication dans un congrès
Accès au bibtex
BibTex
titre
Consistance des estimateurs variationnels pour un modèle de graphe aléatoire
auteur
Alain Celisse, Jean-Jacques Daudin
article
42èmes Journées de Statistique, 2010, Marseille, France, France
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://inria.hal.science/inria-00494669/file/p107.pdf BibTex

2009

Article dans une revue

titre
Kerfdr: a semi-parametric kernel-based approach to local false discovery rate estimation
auteur
Mickaël Guedj, Stephane Robin, Alain Célisse, Grégory Nuel
article
BMC Bioinformatics, 2009, 10, pp.1-12. ⟨10.1186/1471-2105-10-84⟩
typdoc
Article dans une revue
pubmedId
Pubmed icone : 19291295
Accès au texte intégral et bibtex
https://hal.science/hal-01197596/file/2009RobinBMC_1.pdf BibTex
titre
A semi-parametric kernel-based approach to local False Discovery Rate estimations
auteur
Gregory Nuel, Alain Celisse, Mickaël Guedj, Stéphane Robin
article
BMC Bioinformatics, 2009, 10, pp.84
typdoc
Article dans une revue
Accès au bibtex
BibTex
titre
Kerfdr: a semi-parametric kernel-based approach to local false discovery rate estimation
auteur
M. Guedj, S. Robin, Alain Celisse, Gregory Nuel
article
BMC Bioinformatics, 2009, 10, pp.84
typdoc
Article dans une revue
Accès au bibtex
BibTex

Communication dans un congrès

titre
Détection de ruptures dans la moyenne d'un processus hétéroscédastique par validation-croisée
auteur
Sylvain Arlot, Alain Celisse
article
41èmes Journées de Statistique, SFdS, Bordeaux, 2009, Bordeaux, France, France
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://inria.hal.science/inria-00386677/file/p116.pdf BibTex

2008

Article dans une revue

titre
Nonparametric density estimation by exact leave-p-out cross-validation
auteur
Alain Célisse, Stephane Robin
article
Computational Statistics and Data Analysis, 2008, 52 (5), pp.2250-2368. ⟨10.1016/j.csda.2007.10.002⟩
typdoc
Article dans une revue
Accès au bibtex
BibTex

Communication dans un congrès

titre
Segmentation in the mean of heteroscedastic data via resampling or cross-validation
auteur
Alain Celisse, Sylvain Arlot
article
Workshop Change-Point Detection Methods and Applications, Sep 2008, Paris, France
typdoc
Communication dans un congrès
Accès au texte intégral et bibtex
https://hal.inrae.fr/hal-02816806/file/158250_20120312114058838_1.pdf BibTex

Thèse

titre
Sélection de modèle par validation-croisée en estimation de la densité, régression et détection de ruptures
auteur
Alain Celisse
article
Mathematics [math]. Université Paris Sud - Paris XI, 2008. English. ⟨NNT : ⟩
typdoc
Thèse
Accès au texte intégral et bibtex
https://theses.hal.science/tel-00346320/file/PhDManuscript.pdf BibTex
titre
Sélection de modèle par validation-croisée en estimation de la densité, régression et détection de ruptures
auteur
Alain Celisse
article
Mathematics [math]. Université Paris Sud - Paris 11, 2008. English. ⟨NNT : ⟩
typdoc
Thèse
Accès au bibtex
BibTex

Pré-publication, Document de travail

titre
Optimal cross-validation in density estimation
auteur
Alain Celisse
article
2008
typdoc
Pré-publication, Document de travail
Accès au texte intégral et bibtex
https://hal.science/hal-00337058/file/cvhistoAOS_HAL.pdf BibTex

2007

Pré-publication, Document de travail

titre
A leave-p-out based estimation of the proportion of null hypotheses
auteur
Alain Celisse, Stéphane Robin
article
2007
typdoc
Pré-publication, Document de travail
Accès au texte intégral et bibtex
https://hal.science/hal-00270908/file/pi0estimation.pdf BibTex