Power Query, intégré à Excel depuis la version 2016, enregistre chaque transformation sous forme d’étape reproductible. Enlever des doublons sur Excel via Power Query revient à créer une requête de nettoyage qui se réapplique automatiquement à chaque actualisation du fichier source. Cette approche se distingue de la commande classique « Supprimer les doublons » du ruban Données, qui modifie directement la plage d’origine sans possibilité de retour arrière fiable.
Erreurs de typage avant suppression des doublons Power Query
Un piège fréquent survient quand une colonne mélange texte et nombres. La fonction native « Supprimer les doublons » de Power Query peut alors renvoyer une erreur de type DataFormat.Error au lieu de produire un résultat propre.
Lire également : Comment créer une pyramide des âges dans Excel: étapes détaillées et astuces pratiques
Le réflexe habituel consiste à appliquer un changement de type dès l’import. Avec des données mixtes, cette séquence provoque l’erreur parce que Power Query tente de convertir des cellules incompatibles avant d’éliminer les lignes. La solution : supprimer d’abord les doublons sur la colonne brute, puis appliquer le changement de type dans une étape ultérieure.
Dans l’éditeur Power Query, cela se traduit par un déplacement d’étape. Faites glisser l’étape « Type modifié » après l’étape « Doublons supprimés » dans le panneau des étapes appliquées. L’ordre des opérations change le résultat final, et cette subtilité n’apparaît dans aucune documentation officielle Microsoft.
A découvrir également : PDF OCR : comment rendre un fichier PDF

Supprimer les doublons sur Excel en conservant la dernière version
La commande « Supprimer les lignes en double » de Power Query garde la première occurrence rencontrée. Dans un fichier où chaque enregistrement possède plusieurs révisions (par date de modification ou numéro de version), ce comportement par défaut élimine les versions récentes au profit des plus anciennes.
Pour conserver la dernière révision d’un enregistrement dupliqué, il faut trier les données avant de supprimer les doublons. Power Query respecte l’ordre du tri lors de la déduplication : la première ligne rencontrée après tri est celle qui reste.
Procédure dans l’éditeur Power Query
- Triez la colonne de date ou de numéro de révision en ordre décroissant (la plus récente en haut) via le menu de la colonne concernée.
- Sélectionnez la colonne qui identifie l’enregistrement (un identifiant, un numéro de document), puis cliquez sur « Supprimer les lignes en double » dans l’onglet Accueil.
- Vérifiez dans l’aperçu que chaque identifiant n’apparaît plus qu’une fois, avec la date ou la révision la plus récente.
Cette méthode fonctionne parce que Power Query traite les lignes séquentiellement. Le tri décroissant avant déduplication garantit la conservation de la dernière version. Sans ce tri préalable, le résultat dépend de l’ordre d’import, qui n’est pas toujours prévisible.
Doublons conditionnels : filtrer sur plusieurs colonnes
Supprimer les doublons sur une seule colonne ne suffit pas toujours. Un fichier de commandes peut contenir le même client avec des produits différents. Éliminer les doublons sur le nom du client supprimerait des lignes légitimes.
Power Query permet de sélectionner plusieurs colonnes avant d’appliquer la suppression. Maintenez la touche Ctrl enfoncée, cliquez sur chaque en-tête de colonne pertinent, puis lancez « Supprimer les lignes en double ». La déduplication porte alors sur la combinaison unique de valeurs dans les colonnes sélectionnées.
Ajouter une colonne conditionnelle pour affiner le nettoyage
Quand la logique de déduplication dépend d’une règle métier (garder la ligne avec le montant le plus élevé, par exemple), une colonne conditionnelle intermédiaire simplifie le traitement. Dans l’onglet « Ajouter une colonne », choisissez « Colonne conditionnelle » pour créer un marqueur basé sur vos critères. Vous pouvez ensuite filtrer ou trier sur cette nouvelle colonne avant de supprimer les doublons.
Cette étape supplémentaire reste visible dans le panneau des étapes appliquées. Elle se supprime en un clic si la règle métier change, sans toucher au fichier source.

Actualisation automatique et pièges à éviter sur un gros fichier
L’intérêt principal de Power Query pour enlever des doublons sur Excel réside dans l’actualisation. Une fois la requête configurée, un clic sur « Actualiser » dans le ruban Données relance toutes les étapes sur le fichier source mis à jour.
Sur un gros fichier, plusieurs problèmes surviennent sans prévenir :
- Les permissions de source de données expirent si le fichier source se trouve sur un réseau ou un SharePoint. Power Query affiche alors une erreur d’accès au lieu de rafraîchir les données.
- Le cache local de Power Query peut conserver un ancien schéma de colonnes. Quand une colonne est renommée ou supprimée dans le fichier source, la requête échoue. La commande « Actualiser l’aperçu » dans l’éditeur force la relecture du schéma.
- Un conflit de schéma apparaît si le fichier source ajoute une colonne. Power Query ne l’intègre pas automatiquement à la requête existante, il faut la sélectionner manuellement dans l’éditeur.
Pour les fichiers dépassant plusieurs centaines de milliers de lignes, désactivez le chargement de l’aperçu complet dans les options de Power Query. L’éditeur n’affiche alors qu’un échantillon, ce qui accélère la navigation entre les étapes sans modifier le résultat final.
Différence entre Power Query et la commande Supprimer les doublons du ruban
La commande du ruban Données modifie la plage en place. Les lignes supprimées disparaissent définitivement du classeur. Power Query, lui, produit un tableau de sortie dans un nouvel onglet ou une connexion seule, sans altérer le fichier source.
Cette distinction compte sur un gros fichier partagé. Plusieurs utilisateurs peuvent travailler sur le fichier brut pendant que la requête Power Query alimente un tableau nettoyé en parallèle. La traçabilité est aussi meilleure : chaque étape de la requête se lit comme un historique de transformations, modifiable ou supprimable individuellement.
Le choix entre les deux méthodes dépend du volume et de la fréquence de mise à jour. Pour un nettoyage ponctuel sur quelques centaines de lignes, la commande du ruban suffit. Dès que le fichier dépasse quelques milliers de lignes ou qu’il est alimenté régulièrement, Power Query évite de répéter manuellement les mêmes opérations à chaque mise à jour.

