Análise de Frequência

Analise frequências de letras, caracteres, palavras, bigramas e trigramas em qualquer texto. Compare distribuições com perfis linguísticos e use a análise de frequência para criptoanálise de cifras clássicas.

Entrada
0 caract. · 0 bytes
Testar:
Resultado
✓ Análise no navegador ✓ Suporte a Unicode e texto multilíngue ✓ Análise em tempo real ✓ Processamento local no navegador
Exemplos
Análise de texto em português
Entrada Luís arguiu à Júlia que brações fé chá óxido põe zângão no texto

Este pangrama usa letras e acentos comuns do português e é útil para testar a distribuição de letras.

Texto cifrado de César
Entrada ROD PXQGR

OLA MUNDO cifrado com César e deslocamento 3. R, O, D, P, X, Q, G aparecem como letras deslocadas do texto claro.

Frase literária
Entrada No meio do caminho tinha uma pedra tinha uma pedra no meio do caminho

Uma frase conhecida em português para testar a distribuição natural das letras.

Padrão de letras repetidas
Entrada ATAQUE AO AMANHECER ATAQUE AO ANOITECER

Uma frase curta com palavras e padrões de letras repetidos. Útil para testar frequência de palavras, bigramas, trigramas e análise de símbolos repetidos.

Como funciona a análise de frequência

A análise de frequência mede com que frequência letras, símbolos, palavras ou grupos de caracteres aparecem em um texto. As línguas naturais seguem padrões estatísticos reconhecíveis: algumas letras ocorrem muito mais vezes do que outras. Em português, por exemplo, A, E, O, S, R e I estão entre as letras mais frequentes.

Esta ferramenta calcula frequências de letras, palavras, bigramas e trigramas, permitindo comparar um texto desconhecido com distribuições linguísticas esperadas. Grandes desvios em relação aos padrões normais muitas vezes revelam criptografia, codificação ou estruturas textuais incomuns.

Os resultados podem ser ordenados e comparados com perfis linguísticos para ajudar a identificar o idioma provável de um texto e detectar anomalias estatísticas.

Usando análise de frequência para quebrar cifras

A análise de frequência é uma das técnicas mais antigas da criptoanálise. Cifras de substituição simples preservam a estrutura estatística de uma língua, o que significa que os símbolos mais frequentes do texto cifrado geralmente correspondem às letras mais frequentes do texto claro.

Para analisar um texto cifrado, compare as frequências observadas com as frequências esperadas do idioma suspeito. Símbolos de alta frequência, bigramas comuns e trigramas comuns podem oferecer pistas valiosas ao reconstruir a mensagem original.

Na cifra de César, os picos de frequência muitas vezes revelam diretamente o deslocamento. Em Vigenère e outras cifras polialfabéticas, a análise de frequência costuma ser combinada com o índice de coincidência e o exame de Kasiski para estimar o tamanho da chave antes de tentar a decifração.

Entendendo perfis de frequência das línguas

Cada língua tem uma impressão estatística própria. Em inglês, apenas seis letras representam quase metade de todo o texto escrito, e essa distribuição permanece notavelmente estável entre temas, autores e períodos.

Perfil do inglês:

E
12.7%
T
9.1%
A
8.2%
O
7.5%
I
7.0%
N
6.7%

Em português, o topo do perfil é diferente: A, E, O, S, R e I aparecem com muita frequência em textos naturais. Essas frequências ajudam a distinguir texto claro em português de sequências aleatórias e de textos cifrados por substituição simples.

Perfil do português:

A
14.63%
E
12.57%
O
10.73%
S
7.81%
R
6.53%
I
6.18%

Criptoanalistas comparam as frequências observadas no texto cifrado com perfis como estes para identificar o idioma provável e associar símbolos frequentes a letras plausíveis do texto claro. A mnemônica inglesa clássica ETAOIN SHRDLU continua útil como referência histórica; para português, uma sequência como AEOSRI é mais prática.

FAQ

A análise de frequência estuda com que frequência letras, símbolos, palavras ou grupos de caracteres aparecem em um texto. É uma técnica criptoanalítica fundamental usada para identificar padrões linguísticos e atacar muitas cifras clássicas.

A análise de frequência funciona melhor contra sistemas de substituição monoalfabética, como a cifra de César, a cifra afim e cifras de substituição simples. Ela também pode ajudar em ataques à cifra de Vigenère quando combinada com outras técnicas. Algoritmos modernos de criptografia, como AES, não são vulneráveis à análise de frequência.

Em inglês, as letras mais comuns costumam ser E, T, A, O, I, N, S, H, R, D, L e C. Em português, normalmente aparecem no topo A, E, O, S, R, I e N. A distribuição exata varia conforme o tipo de texto, mas as letras principais permanecem relativamente estáveis na escrita natural.

O índice de coincidência (IC) mede a probabilidade de duas letras escolhidas aleatoriamente em um texto serem idênticas. Textos em língua natural geralmente têm IC mais alto do que texto aleatório. Criptoanalistas usam o IC para distinguir texto claro, substituições monoalfabéticas e algumas cifras polialfabéticas.

Bigramas são sequências de dois caracteres, como DE, ES ou AO. Trigramas são sequências de três caracteres, como QUE, ENT ou ARA. Eles fornecem informações estatísticas adicionais e podem melhorar bastante a análise de cifras clássicas.

Sim. Ao comparar frequências observadas com perfis linguísticos conhecidos, a análise de frequência muitas vezes consegue estimar o idioma mais provável de um texto, especialmente quando há texto suficiente.