Свойства энтропии

1. Энтропия дискретного источника всегда положительна. Это определяется способом ее подсчета.

cвойства энтропии,

где 0 ≤ p(xi) ≤ 1 – положительное число;

0 ≤ [–log p(xi)] ≤ ∞ – положительное число;

0 ≤ –p(xi)log p(xi) ≤ 0.531 – положительное число;

H(x) – сумма положительных чисел.

cвойства энтропии
Рис. 2.2

Энтропия равна нулю только в том случае, когда вероятность появления одной из букв источника равна 1, а всех остальных – нулю.

2. Можно доказать, что максимум энтропии достигается при равных вероятностях появления букв алфавита, то есть

Покажем это на примере источника из двух букв.

Таблица 2.5

Буквы x1 x2
Вероятности их появления p q = 1 – p

H(x) = –plog pqlog q = –plog p – (1 – p)log(1 – p),

где H(x), будет максимально, когда H '(x), то есть

cвойства энтропии,

откуда следует, что –log p + log(1 – p) = 0; и p = 0.5 = q.

Максимум H(x) равен в данном случае 1 или Hmax(x) = log M.

3. Если в системе событие xk состоит из двух событий x'k и x"k с вероятностями q1 и q2 (q1 + q2 = pk), то общая энтропия системы будет равна сумме энтропий исходной системы и энтропии разветвленной части с весом pk и условными вероятностями ветвления q1pk и q2pk , то есть H{x1; x2; ... xk-1; x'k; x"k} = H{x1; x2; ... xk-1; xk} + pkH(x'k; x"k).

Покажем это на примере.

Пусть имеется система с двумя состояниями.

Таблица 2.6

xi x1 x2
p(xi) 0.5 0.5

H(x1; x2) = (–0.5log 0.5) · 2 = 1 бит.

Пусть состояние x2 разбилось на два.

Таблица 2.7

xi x'2 x"2
p(xi) 0.4 0.1
cвойства энтропии бита.

Энтропию новой системы можно подсчитать двумя способами:

1.

Таблица 2.8

xi x1 x'2 x"2
p(xi) 0.5 0.4 0.1

Hсист = –0.5log 0.5 – 0.4log 0.4 – 0.1log 0.1 = 0.5 + 0.529 + 0.332 = 1.361 бита.

2. Hсист = H(x1; x2) + p(x2) · H(x'1; x"2) = 1 + 0.5 · 0.722 = 1.361 бита.

Как видим, ответ получился один и тот же, но при втором способе расчета не нужно пересчитывать всю систему, а только к старой энтропии добавить энтропию разветвления.

Рассмотрим примеры на расчет энтропии по Шеннону и сравним ее с информацией по Хартли.

Пример 1

Какое количество информации (по Шеннону) получено, если стало известно точно на какое поле шахматной доски, какого цвета и какая фигура поставлена?

Черный король на поле h7.

Воспользуемся формулой: I = –log pчкрh7, где

pчкph7 – вероятность оказаться черному королю на поле h7. Эта вероятность получается от одновременного наступления трех событий: выбрали черные фигуры ( pч=12 ), короля ( pкр=116 ) и поле h7 ( ph7=164 ).

Так как события независимые, то pчкрh7 = pч · pкр · ph7 и, следовательно,

cвойства энтропии бит.

Аналогично рассуждая можно подсчитать количество информации для любой фигуры, учитывая, что вероятность выбора пешки – ; слона, ладьи и коня – ; а ферзя и короля – .

Подсчитайте самостоятельно количество информации для разных фигур и среднее количество информации на одну фигуру.

cвойства энтропии

Ответ должен получиться – 2,125[бит].

Пример 2

Подсчитайте количество информации в телеграмме, которую Вы напишите сами (количество букв в ней не менее 15). Для расчетов воспользуйтесь таблицей 2.9 и таблицей 2.10.

Таблица 2.10

Буква Вероятность Буква Вероятность Буква Вероятность Буква Вероятность
а 0.064 й 0.010 т 0.056 ъ, ь 0.015
б 0.015 к 0.029 у 0.021 ы 0.016
в 0.039 л 0.036 ф 0.002 э 0.003
г 0.014 м 0.026 х 0.009 ю 0.007
д 0.026 н 0.056 ц 0.004 я 0.019
е, ё 0.074 о 0.096 ч 0.013 0.143
ж 0.008 п 0.024 ш 0.006    
з 0.015 р 0.041 щ 0.003    
и 0.064 с 0.047        

Рассчитайте количество информации в телеграмме точно и по приближенному методу. Объясните полученную разницу.

Если бы на почте брали деньги за количество переданных букв, а не информации, то кто бы кого «грабил» почта клиентов или клиенты – почту? http://peredacha-informacii.ru/ Оплата канала идет не за количество переданных букв, а за количество переданной информации.

Решение

1. Точное:

cвойства энтропии,

где j – место буквы в телеграмме;

n – число знакомест в телеграмме;

pij – вероятность встречаемости i-той буквы в русском языке, которая стоит на j-том месте в телеграмме.

2. Приближенное:

Iтел.срn · Hср.на1букву = n · 4.42[бит].

3. Объяснение полученного результата:

Iтел.ср может быть больше Iтел тогда, когда в телеграмме встречаются чаще чем в языке буквы с вероятностью встречаемости большей чем pср= 0.047(–log pср= 4.42) (а; е; и; н; о; т; –) и наоборот, если Iтел.ср < Iтел, то в телеграмме много букв с вероятностью встречаемости меньше, чем 0.047 (б; в; г; д; ж; з; й; к; п; и так далее).

4. При оплате за букву часть клиентов переплатит, а часть недоплатит. Почта в среднем ничего не выиграет.