Энтропия (в теории информации)

В теории информации, энтропия Шеннона, или информационная энтропия — мера неопределённости, связанной со случайной величиной (с.в.); определяет количество информации, содержавшейся в сообщении (обычно в битах или битах на символ); минимальная длина сообщения, необходимая для передачи информации; также абсолютный предел наиболее возможного сжатия без потерь любого сообщения: при представлении сообщения рядом символов, кратчайшее представление, необходимое для передачи сообщения — это энтропия Шеннона в битах на символ, умноженная на число символов в исходном сообщении.

Справедливая монета имеет энтропию, равную одному биту. Однако, если монета не справедлива, то её неопределённость ниже (если бы надо было держать пари на исход бросания такой монеты, то мы бы предпочли держать пари на более частый исход), и таким образом энтропия Шеннона также ниже. Длинная вереница повторяющихся знаков имеет энтропию 0, так как каждый знак предсказуем. Энтропия английского текста лежит между 1.0 и 1.5 битами на букву^[1], или ещё ниже от 0.6 до 1.3 битов на букву, согласно оценкам Шеннона, основанным на экспериментах с людьми^[2]

Эквивалентно, энтропия Шеннона — мера среднего информационного содержания с.в., которое наблюдатель (получатель сообщения) теряет, когда ему неизвестно значение (исход) с.в.

Понятие было введено Клодом Элвудом Шенноном (1948) в его работе Математическая теория связи (A Mathematical Theory of Communication)^[3].

Определение[]

Энтропия Шеннона дискретной с.в. $\xi$ , которая может принимать значения $x_1,\ldots,x_n$ , равна величине

{\mathcal {H}}(\xi )=\operatorname {E} ({\mathcal {I}}(\xi ))=-\displaystyle {\sum _{i=1}^{n}p(x_{i})\log _{2}p(x_{i}),}

где

${\mathcal {I}}(\xi )$ — информационное содержание, или само-информация с.в. $\xi$ , содержащаяся в $\xi$ ; а
$p(x_{i})=\mathbf {P} (\xi =x_{i})$ — вероятность $i$ -го значения $\xi$ (функция вероятности с.в. $\xi$ ).

Характеризация[]

Определим $p_{i}=\mathbf {P} (\xi =x_{i})$ и меру информационной энтропии ${\mathcal {H}}_{n}(p_{1},\ldots ,p_{n})={\mathcal {H}}(\xi ).$

Информационная энтропия характеризуется следующими пожеланиями (desiderata):

Непрерывность: Мера должна быть непрерывной — то есть, изменение значения одной из вероятностей на очень маленькую величину должно изменить энтропию также на маленькую величину.
Симметрия: Мера не должна меняться, если исходы $x_i$ переупорядочены:; ${\mathcal {H}}_{n}\left(p_{1},p_{2},\ldots \right)={\mathcal {H}}_{n}\left(p_{2},p_{1},\ldots \right)$ и т.д.
Максимум: Мера должна быть максимальной, если все исходы одинаково вероятны (неопределённость является самой высокой, когда все возможные события равновероятны).; ${\mathcal {H}}_{n}(p_{1},\ldots ,p_{n})\leq {\mathcal {H}}_{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)$; Для равновероятных событий энтропия должна увеличиваться с увеличением их числа:; ${\mathcal {H}}_{n}{\bigg (}\underbrace {{\frac {1}{n}},\ldots ,{\frac {1}{n}}} _{n}{\bigg )}<{\mathcal {H}}_{n+1}{\bigg (}\underbrace {{\frac {1}{n+1}},\ldots ,{\frac {1}{n+1}}} _{n+1}{\bigg )}.$
Аддитивность: Количество энтропии не должно зависеть от того, как система событий разделена на части (подсистемы).; Это последнее функциональное отношение характеризует энтропию системы с подсистемами и требует, чтобы энтропия системы могла быть вычислена через энтропии ее подсистем, если мы знаем, как подсистемы взаимодействуют с друг другом.; Дан ансамбль из $n$ равномерно распределённых элементов, которые произвольно разделены на $k$ коробок (подсистем) с $b_{1},\ldots ,b_{k}$ элементами соответственно; энтропия всего ансамбля должна быть равна сумме энтропии системы коробок и индивидуальных энтропий коробок, взвешенных с вероятностью обнаружения элемента в соответстувующей коробке.; Для положительных целых чисел $b_1+\ldots+b_k=n$ ,; ${\mathcal {H}}_{n}\left({\frac {1}{n}},\ldots ,{\frac {1}{n}}\right)={\mathcal {H}}_{k}\left({\frac {b_{1}}{n}},\ldots ,{\frac {b_{k}}{n}}\right)+\sum _{i=1}^{k}{\frac {b_{i}}{n}}\,{\mathcal {H}}_{b_{i}}\left({\frac {1}{b_{i}}},\ldots ,{\frac {1}{b_{i}}}\right).$; Выбор $k=n;b_{1}=1,\ldots ,b_{n}=1$ подразумевает, что энтропия конкретного исхода равна нулю:; ${\mathcal {H}}_{1}\left(1\right)=0\,$

Можно показать, что любое определение энтропии, удовлетворяющее этим предположениям имеет форму

-K\sum _{i=1}^{n}p_{i}\log p_{i}\,\!

где $K$ — постоянная, соответствующая выбору единицы измерения.

Пояснения[]

Пример[]

Дальнейшие свойства[]

Увеличение энтропии Байеса — закон, согласно которому по мере увеличения выборки сравнения объектов А` для идентификации объекта А, индивидуальные особенности объекта А размываются по отношению к выборке, а идентификация становится бессмысленной. Другими словами с увеличение выборки у объекта А по отношению к ней увеличивается энтропия.

Считается, что закон был открыт эмпирически, до его математического доказательства британским математиком Томасом Байесом. В настоящее время в разных интерпретациях используется в кибернетике, информатике, теории систем, менеджменте и других науках. Некоторые математики и физики считают этот закон еще одним из начал термодинамики.

Пример. Если кто-то захочет установить личность человека, попавшего на видеокамеры, то процесс будет становится тем более бессмысленным, чем с большим количеством людей будет сравнен человек.

Аспекты[]

Связь с термодинамической энтропией[]

Энтропия как информационное содержание[]

Сжатие данных[]

Ограничения на энтропию как информационное содержание[]

Данные как марковский процесс[]

b-арная энтропия[]

Эффективность[]

Распространение дискретной энтропии до непрерывного варианта: дифференциальная энтропия[]

Литература[]

↑ Schneier, B: Applied Cryptography, Second edition, page 234. John Wiley and Sons.
↑ Shannon, Claude E.: Prediction and entropy of printed English, The Bell System Technical Journal, 30:50-64, 1950.
↑ Claude E. Shannon: A Mathematical Theory of Communication, Bell System Technical Journal, Vol. 27, pp. 379–423, 623–656, 1948.

Ссылки[]

См.также[]

Список статей по энтропии

[1] Schneier, B: Applied Cryptography, Second edition, page 234. John Wiley and Sons.

[2] Shannon, Claude E.: Prediction and entropy of printed English, The Bell System Technical Journal, 30:50-64, 1950.

[3] Claude E. Shannon: A Mathematical Theory of Communication, Bell System Technical Journal, Vol. 27, pp. 379–423, 623–656, 1948.

[1]

[2]

[3]