Analyse de Fréquence

Analysez les fréquences des lettres, caractères, mots, bigrammes et trigrammes dans n’importe quel texte. Comparez les distributions avec des profils linguistiques et utilisez l’analyse de fréquence pour la cryptanalyse des chiffrements classiques.

Entrée
0 caract. · 0 octets
Essayer :
Résultat
✓ Analyse dans le navigateur ✓ Prise en charge Unicode et texte multilingue ✓ Analyse en temps réel ✓ Traitement local dans le navigateur
Exemples
Analyse d’un texte français
Entrée Portez ce vieux whisky au juge blond qui fume

Ce pangramme contient toutes les lettres de l’alphabet français de base et convient pour tester la distribution des lettres.

Texte chiffré César
Entrée ERQMRXU PRQGH

BONJOUR MONDE chiffré avec César et un décalage de 3. E, R, Q, M, X, U, P, G et H dominent comme lettres décalées du texte clair.

Phrase littéraire
Entrée Longtemps je me suis couche de bonne heure

Une phrase française célèbre pour tester la distribution naturelle des lettres.

Motif de lettres répétées
Entrée ATTAQUE A LAUBE ATTAQUE AU CREPUSCULE

Une courte phrase avec des mots et des motifs de lettres répétés. Utile pour tester la fréquence des mots, les bigrammes, les trigrammes et l’analyse des symboles répétés.

Comment fonctionne l’analyse de fréquence

L’analyse de fréquence mesure à quelle fréquence les lettres, symboles, mots ou groupes de caractères apparaissent dans un texte. Les langues naturelles suivent des modèles statistiques reconnaissables : certaines lettres apparaissent beaucoup plus souvent que d’autres. En français, par exemple, E, S, A, I, T et N font partie des lettres les plus fréquentes.

Cet outil calcule les fréquences des lettres, mots, bigrammes et trigrammes afin de comparer un texte inconnu aux distributions attendues d’une langue. De forts écarts par rapport aux modèles habituels révèlent souvent un chiffrement, un encodage ou une structure de texte inhabituelle.

Les résultats peuvent être triés et comparés à des profils linguistiques pour aider à identifier la langue probable d’un texte et repérer les anomalies statistiques.

Utiliser l’analyse de fréquence pour casser des chiffrements

L’analyse de fréquence est l’une des plus anciennes techniques de cryptanalyse. Les chiffrements par substitution simple conservent la structure statistique d’une langue : les symboles les plus fréquents du texte chiffré correspondent donc souvent aux lettres les plus fréquentes du texte clair.

Pour analyser un texte chiffré, comparez les fréquences observées aux fréquences attendues de la langue supposée. Les symboles très fréquents, les bigrammes courants et les trigrammes courants fournissent de précieux indices pour reconstruire le message original.

Pour le chiffrement de César, les pics de fréquence révèlent souvent directement le décalage. Pour Vigenère et d’autres chiffrements polyalphabétiques, l’analyse de fréquence est souvent combinée avec l’indice de coïncidence et l’examen de Kasiski afin d’estimer la longueur de la clé avant de tenter le déchiffrement.

Comprendre les profils de fréquence des langues

Chaque langue possède une empreinte statistique particulière. En anglais, six lettres seulement représentent près de la moitié du texte écrit, et cette distribution reste remarquablement stable selon les sujets, les auteurs et les périodes.

Profil de l’anglais :

E
12.7%
T
9.1%
A
8.2%
O
7.5%
I
7.0%
N
6.7%

En français, le haut du profil est différent : E domine nettement, puis viennent souvent S, A, I, T et N. Ces fréquences aident à distinguer un texte clair français d’une suite aléatoire de caractères ou d’un texte chiffré par substitution simple.

Profil du français :

E
14.71%
S
7.95%
I
7.53%
A
7.64%
T
7.24%
N
7.10%

Les cryptanalystes comparent les fréquences observées dans le texte chiffré à de tels profils pour identifier la langue probable et associer les symboles fréquents aux lettres plausibles du texte clair. Le moyen mnémotechnique anglais classique ETAOIN SHRDLU reste utile comme repère historique ; pour le français, une suite comme ESAITN est plus pertinente.

FAQ

L’analyse de fréquence étudie à quelle fréquence les lettres, symboles, mots ou groupes de caractères apparaissent dans un texte. C’est une technique fondamentale de cryptanalyse, utilisée pour reconnaître des modèles linguistiques et attaquer de nombreux chiffrements classiques.

L’analyse de fréquence fonctionne surtout contre les systèmes de substitution monoalphabétique, comme le chiffrement de César, le chiffrement affine et les chiffrements par substitution simple. Elle peut aussi aider à attaquer le chiffrement de Vigenère lorsqu’elle est combinée à d’autres techniques. Les algorithmes modernes comme AES ne sont pas vulnérables à l’analyse de fréquence.

En anglais, les lettres les plus fréquentes sont généralement E, T, A, O, I, N, S, H, R, D, L et C. En français, E arrive très souvent en tête, suivi notamment de S, A, I, T et N. La distribution exacte varie selon le type de texte, mais les premières lettres restent assez stables dans l’écriture naturelle.

L’indice de coïncidence (IC) mesure la probabilité que deux lettres choisies au hasard dans un texte soient identiques. Les textes en langue naturelle ont généralement un IC plus élevé qu’un texte aléatoire. Les cryptanalystes utilisent l’IC pour distinguer le texte clair, les substitutions monoalphabétiques et certains chiffrements polyalphabétiques.

Les bigrammes sont des séquences de deux caractères, comme ES, DE ou EN. Les trigrammes sont des séquences de trois caractères, comme LES, ENT ou QUE. Ils fournissent des informations statistiques supplémentaires et peuvent améliorer fortement l’analyse des chiffrements classiques.

Oui. En comparant les fréquences observées à des profils linguistiques connus, l’analyse de fréquence peut souvent estimer la langue la plus probable d’un texte, surtout lorsque la quantité de texte est suffisante.