Análisis de Frecuencias

Analiza frecuencias de letras, caracteres, palabras, bigramas y trigramas en cualquier texto. Compara distribuciones con perfiles lingüísticos y usa el análisis de frecuencias para el criptoanálisis de cifrados clásicos.

Entrada
0 caract. · 0 bytes
Probar:
Resultado
✓ Análisis en el navegador ✓ Soporte Unicode y texto multilingüe ✓ Análisis en tiempo real ✓ Procesamiento local en el navegador
Ejemplos
Análisis de texto en español
Entrada El veloz murciélago hindú comía feliz cardillo y kiwi

Este pangrama contiene todas las letras básicas del alfabeto español y sirve para probar la distribución de letras.

Texto cifrado César
Entrada KROD PXQGR

HOLA MUNDO cifrado con César y desplazamiento 3. K, R, O, D, P, X, Q, G dominan como letras desplazadas desde H, O, L, A, M, U, N, D.

Frase literaria
Entrada En un lugar de la Mancha de cuyo nombre no quiero acordarme

Una frase muy conocida en español para probar la distribución natural de letras.

Patrón de letras repetidas
Entrada ATAQUE AL AMANECER ATAQUE AL ANOCHECER

Una frase corta con palabras y patrones de letras repetidos. Útil para probar frecuencia de palabras, bigramas, trigramas y análisis de símbolos repetidos.

Cómo funciona el análisis de frecuencias

El análisis de frecuencias mide con qué frecuencia aparecen letras, símbolos, palabras o grupos de caracteres en un texto. Las lenguas naturales siguen patrones estadísticos reconocibles: algunas letras aparecen mucho más a menudo que otras. En español, por ejemplo, E, A, O, S, N y R suelen estar entre las letras más frecuentes.

Esta herramienta calcula frecuencias de letras, palabras, bigramas y trigramas, para que puedas comparar un texto desconocido con distribuciones lingüísticas esperadas. Las desviaciones grandes respecto a los patrones normales suelen revelar cifrado, codificación o estructuras textuales inusuales.

Los resultados se pueden ordenar y comparar con perfiles de idioma para ayudar a identificar la lengua probable de un texto y detectar anomalías estadísticas.

Usar el análisis de frecuencias para romper cifrados

El análisis de frecuencias es una de las técnicas más antiguas del criptoanálisis. Los cifrados de sustitución simples conservan la estructura estadística de una lengua, por lo que los símbolos más frecuentes del texto cifrado suelen corresponder a las letras más frecuentes del texto claro.

Para analizar un texto cifrado, compara las frecuencias observadas con las frecuencias esperadas de la lengua sospechada. Los símbolos de alta frecuencia, los bigramas comunes y los trigramas comunes pueden aportar pistas valiosas al reconstruir el mensaje original.

En el cifrado César, los picos de frecuencia a menudo revelan directamente el desplazamiento. En Vigenère y otros cifrados polialfabéticos, el análisis de frecuencias suele combinarse con el índice de coincidencia y el examen de Kasiski para estimar la longitud de la clave antes de intentar el descifrado.

Comprender los perfiles de frecuencia lingüística

Cada lengua tiene una huella estadística propia. En inglés, solo seis letras representan casi la mitad de todo el texto escrito, y esta distribución se mantiene notablemente estable entre temas, autores y épocas.

Perfil del inglés:

E
12.7%
T
9.1%
A
8.2%
O
7.5%
I
7.0%
N
6.7%

En español, la parte superior del perfil cambia: las letras E, A, O, S, N y R suelen dominar el texto natural. Estas frecuencias ayudan a distinguir texto claro en español de secuencias aleatorias y de textos cifrados con sustituciones simples.

Perfil del español:

E
13.68%
A
12.53%
O
8.68%
S
7.98%
N
7.01%
R
6.87%

Los criptoanalistas comparan las frecuencias observadas en el texto cifrado con perfiles como estos para identificar la lengua probable y asociar símbolos frecuentes con letras plausibles del texto claro. La mnemotecnia clásica inglesa ETAOIN SHRDLU sigue siendo útil como referencia histórica; para español, una guía más práctica empieza por EAOSNR.

FAQ

El análisis de frecuencias estudia con qué frecuencia aparecen letras, símbolos, palabras o grupos de caracteres en un texto. Es una técnica criptoanalítica fundamental para identificar patrones lingüísticos y atacar muchos cifrados clásicos.

El análisis de frecuencias funciona mejor contra sistemas de sustitución monoalfabética, como el cifrado César, el cifrado afín y los cifrados de sustitución simple. También puede ayudar en ataques contra el cifrado Vigenère cuando se combina con otras técnicas. Los algoritmos modernos de cifrado, como AES, no son vulnerables al análisis de frecuencias.

En inglés, las letras más comunes suelen ser E, T, A, O, I, N, S, H, R, D, L y C. En español, normalmente destacan E, A, O, S, N, R, I y L. La distribución exacta varía según el tipo de texto, pero las letras principales se mantienen bastante estables en escritura natural.

El índice de coincidencia (IC) mide la probabilidad de que dos letras elegidas al azar de un texto sean idénticas. Los textos en lenguaje natural suelen tener un IC más alto que el texto aleatorio. Los criptoanalistas usan el IC para distinguir entre texto claro, sustituciones monoalfabéticas y algunos cifrados polialfabéticos.

Los bigramas son secuencias de dos caracteres, como DE, EN o ES. Los trigramas son secuencias de tres caracteres, como QUE, ENT o LOS. Aportan información estadística adicional y pueden mejorar mucho el análisis de cifrados clásicos.

Sí. Al comparar las frecuencias observadas con perfiles lingüísticos conocidos, el análisis de frecuencias a menudo puede estimar la lengua más probable de un texto, especialmente cuando hay suficiente contenido.