Статистическая мера количества информации по К. Шеннону

Необходимо было устранить основной недостаток меры Хартли – учесть вероятности появления букв в каждый момент времени в каждом состоянии.

Определим количество полученной информации от факта появления какой-либо буквы xi источника, находящегося в состоянии Sj, как

Ii (Sj ) = –log pi(Sj),

где pi(Sj) – вероятность появления i-той буквы, если источник находится в состоянии Sj.

При таком определении количества полученной информации от факта получения i-той буквы видно, что количество информации, создаваемое каждой буквой, различно. Принято источник в целом по всему алфавиту в одном из состояний характеризовать средним значением количества информации, приходящемся на одну букву:

.

статистическая мера количества информации по К. Шеннону

А количество информации, приходящееся на одну букву, вырабатываемую источником, по всем его состояниям определим путем усреднения:

статистическая мера количества информации по К. Шеннону,

где P(Sj) – вероятность нахождения источника в состоянии Sj.

Информация связана со снятием неопределенности. Пока мы предполагали, что в результате опыта наступает вполне определенное событие, то есть однозначно выбирается та или иная буква или знак. Но это не всегда так. В результате опыта или получения дополнительных сведений неопределенность ситуации изменяется, но не становится однозначной, то есть сохраняется апостериорная неопределенность. В этом случае количество полученной информации можно определить как разницу неопределенностей до и после эксперимента, то есть:

Iэкспер = HапрHапост,

где – априорная неопределенность источника; когда неизвестно, что будет передаваться;

Hапост – апостериорная неопределенность источника, то есть неопределенность, которая остается на приемной стороне, когда известно, что передавалось.

Формула для подсчета Hапост та же, что и для Hапр, только вероятности pi(Sj) другие и определяются ошибками в передаче букв или знаков по каналу связи.

Если после эксперимента неопределенность исчезает (передача информации по линии связи идет без ошибок), то есть однозначно известна переданная буква сообщения, то Hапост = 0 и I = Hапр, то есть полученная информация равна устранению априорной неопределенности.

Единицы измерения информации по Шеннону те же, что и по Хартли.

В литературе по информатике вместо слова неопределенность встречается термин энтропия, взятый из термодинамики. Ничего другого, кроме как мера неопределенности ситуации в среднем на одно событие, этот термин не означает. Если энтропия равна нулю, то неопределенности нет. Чем больше энтропия, тем выше неопределенность системы.

Рассмотрим примеры подсчета информации и неопределенности (энтропии) ситуаций по Шеннону.

Пример 1

Рассчитаем энтропию двоичного источника при различных вероятностях появления его символов. Источник элементарный, то есть j = 1.

а)

Таблица 2.1

xi 0 1
p(xi) 0.5 0.5
статистическая мера количества информации по К. Шеннону.

б)

Таблица 2.2

xi 0 1
p(xi) 0.01 0.99

H(x) = –0.01log 0.01 – 0.99log 0.99 = –0.01·(–6.644) – 0.99 · (–0.0145) = 0.0808.

в)

Таблица 2.3

статистическая мера количества информации по К. Шеннону.

Так как –log p(0) при p(0) ® 0 стремится к ∞, то имеет место неопределенность типа (0 · ∞), которая раскрывается как неопределенность дроби:

статистическая мера количества информации по К. Шеннону.

Из расчетов видно, что максимальная энтропия у источника с равными вероятностями выдачи символов p(0) = p(1) = 0.5. Неопределенность равна нулю, если вероятность одного из символов равна 1, а всех остальных – нулю.

Пример 2

Рассмотрим ситуацию. Вы всегда ночуете дома. Но сегодня, в силу обстоятельств, Вы не пришли ночевать и не смогли предупредить. Какова неопределенность ситуации для близких?

Решение

Вероятность того, что Вы не ночуете дома стремится к нулю. Тогда [H = –log pi ® ∞] неопределенность ситуации стремится к бесконечности. Близкие начинают поиск Вас по всем мысленным и не мысленным адресам.

Пример 3

Приводится эксперимент по автоматическому распознаванию гласных звуков. Априорные и апостериорные вероятности того, какой звук был предъявлен системе автоматического распознавания приведены в таблице 2.4.

Таблица 2.4

Звуки а о у ы э
pi(апр) 0.2 0.2 0.2 0.2 0.2
pi(апост) 0.2 0.65 0.05 0 0.1

Какое количество информации было получено в результате эксперимента?

Решение

статистическая мера количества информации по К. Шеннону

Неопределенность ситуации уменьшилась с 2.32 бита до 1.42 бита, но не снята полностью.

Недостатки введенного понятия энтропии или неопределенности ситуации.

1. Рассмотрим результаты работы двух приборов разных классов точности.

статистическая мера количества информации по К. Шеннону
Рис. 2.1

Поскольку количество исходов в обоих случаях одинаково и равно 5 и вероятности всех исходов также одинаковы, то и энтропийные оценки результатов измерений одинаковы. http://peredacha-informacii.ru/ В то же время результаты измерений во втором случае имеют значительно больший разброс и для оценки этих приборов лучше воспользоваться дисперсией ошибки, которую энтропия не учитывает.

2. Энтропия не зависит от качества самих состояний, то есть для нее не важно, что скрыто за состоянием №1 или №2.

Пример

Два лекарства – оба приводят в 90% случаях к выздоровлению, а в 10% – одно к заметному улучшению, а другое – к смерти. Если оценивать неопределенность действия лекарства через энтропию, то она в обоих случаях одинакова.

То есть энтропия была предложена для теории связи и там себя оправдывает; ее применение для других областей требует осторожности.

После этих вводных замечаний относительно понятия энтропия приступим к рассмотрению непосредственно ее свойств.