O Que é Entropia De Arquivo

O Que é Entropia De Arquivo
O Que é Entropia De Arquivo

Vídeo: O Que é Entropia De Arquivo

Vídeo: O Que é Entropia De Arquivo
Vídeo: O Que é ENTROPIA? 2024, Novembro
Anonim

Qualquer arquivo de computador é feito de bytes. Um byte pode assumir valores de 0 a 255. A entropia da informação é um parâmetro estatístico que mostra a probabilidade de ocorrência de certos bytes em um arquivo.

O que é entropia de arquivo
O que é entropia de arquivo

Você pode avaliar visualmente o grau de entropia usando um histograma - a distribuição da probabilidade de repetir os mesmos bytes em um arquivo. Pela entropia do arquivo, podemos adivinhar que tipo de arquivo está à nossa frente, vendo apenas seu histograma.

Para demonstração, vamos pegar três arquivos de tipos diferentes e comparar seus histogramas. Seja o primeiro um arquivo de texto (*. TXT). Seu histograma é mostrado na figura:

гистограмма=
гистограмма=

O arquivo de texto contém apenas texto. Cada caractere do texto é codificado com certos bytes de acordo com a tabela de codificação. Embora haja um grande número de tipos de codificação, é óbvio que há um número limitado de caracteres alfanuméricos, que geralmente é menor que 255. Portanto, apenas algumas áreas são ocupadas no primeiro histograma e alguns bytes não estão.

O seguinte arquivo estará no formato PDF:

гистограмма=
гистограмма=

Este arquivo contém todos os bytes possíveis, pois o PDF é codificado de forma diferente dos arquivos de texto. Ele armazena muitas informações de serviço: formatação, fontes, imagens, etc. Mas seu histograma mostra que alguns dos bytes ocorrem com probabilidade aproximadamente igual, enquanto outros - com muito mais frequência do que outros. Daí as múltiplas explosões agudas no histograma, e em geral ele tem uma aparência um tanto "irregular", embora ocupe toda a largura disponível.

E o último arquivo é compactado no formato 7Z:

гистограмма=
гистограмма=

Este histograma possui duas características principais: em primeiro lugar, todos os bytes são encontrados no arquivo compactado com probabilidade mais ou menos igual (uma borda superior bastante plana) e, em segundo lugar, não há praticamente nenhum espaço livre acima do histograma, o que indica uma ausência quase completa de redundância de tal arquivo. Portanto, podemos concluir que o algoritmo do arquivador de alguma forma especial "mistura" os bytes do arquivo a fim de atingir sua distribuição uniforme máxima.

Assim, a entropia na informática, como na física, é uma medida da desordem do sistema, neste caso, a desordem na distribuição dos bytes no arquivo. A entropia permite que você julgue o grau de compressão do arquivo e - indiretamente - sobre seu tipo.

Recomendado: