Съешь же ещё этих мягких французских булок, да выпей чаю
Этот панграм содержит все буквы русского алфавита как минимум один раз.
Анализируйте частоты букв, символов, слов, биграмм и триграмм в любом тексте. Сравнивайте распределения с языковыми профилями и используйте частотный анализ для криптоанализа классических шифров.
Съешь же ещё этих мягких французских булок, да выпей чаю
Этот панграм содержит все буквы русского алфавита как минимум один раз.
ТУЛЕЗХ ПЛУ
ПРИВЕТ МИР, зашифрованное шифром Цезаря со сдвигом 3. В частотах видны Т, У, Л и другие буквы, сдвинутые относительно исходного сообщения.
Все счастливые семьи похожи друг на друга
Известная русская фраза для проверки распределения букв в естественном языке.
АТАКА НА РАССВЕТЕ АТАКА НА ЗАКАТЕ
Короткая фраза с повторяющимися словами и буквенными шаблонами. Подходит для проверки частоты слов, биграмм, триграмм и повторяющихся символов.
Частотный анализ измеряет, как часто в тексте встречаются буквы, символы, слова или группы символов. Естественные языки имеют устойчивые статистические закономерности: одни буквы появляются заметно чаще других. В русском языке, например, среди самых частых букв обычно находятся О, Е, А, И, Н и Т.
Инструмент рассчитывает частоты букв, слов, биграмм и триграмм, чтобы вы могли сравнить неизвестный текст с ожидаемыми языковыми распределениями. Сильные отклонения от нормального профиля часто указывают на шифрование, кодирование или необычную структуру текста.
Результаты можно сортировать и сопоставлять с языковыми профилями, чтобы определить вероятный язык текста и заметить статистические аномалии.
Частотный анализ — один из старейших приемов криптоанализа. Простые шифры подстановки сохраняют статистическую структуру языка, поэтому самые частые символы шифртекста часто соответствуют самым частым буквам открытого текста.
Чтобы анализировать шифртекст, сравните наблюдаемые частоты с ожидаемыми частотами предполагаемого языка. Частые символы, распространенные биграммы и триграммы дают ценные подсказки при восстановлении исходного сообщения.
Для шифра Цезаря пики частот часто напрямую показывают сдвиг. Для Виженера и других полиалфавитных шифров частотный анализ обычно сочетают с индексом совпадений и тестом Касиски, чтобы оценить длину ключа перед попыткой расшифрования.
У каждого языка есть свой статистический отпечаток. В английском всего шесть букв дают почти половину письменного текста, и это распределение остается удивительно устойчивым для разных тем, авторов и периодов.
Английский профиль:
В русском языке вершина профиля выглядит иначе: чаще всего встречаются О, Е, А, И, Н и Т. Эти частоты помогают отличать русский открытый текст от случайного набора символов и от шифртекста после простой подстановки.
Русский профиль:
Криптоаналитики сравнивают наблюдаемые частоты шифртекста с такими профилями, чтобы определить вероятный язык и сопоставить частые символы с наиболее вероятными буквами открытого текста. Классическая английская мнемоника ETAOIN SHRDLU сохраняется как исторический ориентир, а для русского анализа полезнее держать в голове порядок вроде ОЕАИНТ.