Portez ce vieux whisky au juge blond qui fume
Ce pangramme contient toutes les lettres de l’alphabet français de base et convient pour tester la distribution des lettres.
Analysez les fréquences des lettres, caractères, mots, bigrammes et trigrammes dans n’importe quel texte. Comparez les distributions avec des profils linguistiques et utilisez l’analyse de fréquence pour la cryptanalyse des chiffrements classiques.
Portez ce vieux whisky au juge blond qui fume
Ce pangramme contient toutes les lettres de l’alphabet français de base et convient pour tester la distribution des lettres.
ERQMRXU PRQGH
BONJOUR MONDE chiffré avec César et un décalage de 3. E, R, Q, M, X, U, P, G et H dominent comme lettres décalées du texte clair.
Longtemps je me suis couche de bonne heure
Une phrase française célèbre pour tester la distribution naturelle des lettres.
ATTAQUE A LAUBE ATTAQUE AU CREPUSCULE
Une courte phrase avec des mots et des motifs de lettres répétés. Utile pour tester la fréquence des mots, les bigrammes, les trigrammes et l’analyse des symboles répétés.
L’analyse de fréquence mesure à quelle fréquence les lettres, symboles, mots ou groupes de caractères apparaissent dans un texte. Les langues naturelles suivent des modèles statistiques reconnaissables : certaines lettres apparaissent beaucoup plus souvent que d’autres. En français, par exemple, E, S, A, I, T et N font partie des lettres les plus fréquentes.
Cet outil calcule les fréquences des lettres, mots, bigrammes et trigrammes afin de comparer un texte inconnu aux distributions attendues d’une langue. De forts écarts par rapport aux modèles habituels révèlent souvent un chiffrement, un encodage ou une structure de texte inhabituelle.
Les résultats peuvent être triés et comparés à des profils linguistiques pour aider à identifier la langue probable d’un texte et repérer les anomalies statistiques.
L’analyse de fréquence est l’une des plus anciennes techniques de cryptanalyse. Les chiffrements par substitution simple conservent la structure statistique d’une langue : les symboles les plus fréquents du texte chiffré correspondent donc souvent aux lettres les plus fréquentes du texte clair.
Pour analyser un texte chiffré, comparez les fréquences observées aux fréquences attendues de la langue supposée. Les symboles très fréquents, les bigrammes courants et les trigrammes courants fournissent de précieux indices pour reconstruire le message original.
Pour le chiffrement de César, les pics de fréquence révèlent souvent directement le décalage. Pour Vigenère et d’autres chiffrements polyalphabétiques, l’analyse de fréquence est souvent combinée avec l’indice de coïncidence et l’examen de Kasiski afin d’estimer la longueur de la clé avant de tenter le déchiffrement.
Chaque langue possède une empreinte statistique particulière. En anglais, six lettres seulement représentent près de la moitié du texte écrit, et cette distribution reste remarquablement stable selon les sujets, les auteurs et les périodes.
Profil de l’anglais :
En français, le haut du profil est différent : E domine nettement, puis viennent souvent S, A, I, T et N. Ces fréquences aident à distinguer un texte clair français d’une suite aléatoire de caractères ou d’un texte chiffré par substitution simple.
Profil du français :
Les cryptanalystes comparent les fréquences observées dans le texte chiffré à de tels profils pour identifier la langue probable et associer les symboles fréquents aux lettres plausibles du texte clair. Le moyen mnémotechnique anglais classique ETAOIN SHRDLU reste utile comme repère historique ; pour le français, une suite comme ESAITN est plus pertinente.