|
Избыточность источника сообщенийИз энтропийных оценок источников сообщений, ясно, что она зависит от статических характеристик самих сообщений. Энтропия максимальна при равномерном появлении букв на любом месте сообщения. Для характеристики источника сообщений с различным алфавитом представляет интерес сравнение фактической энтропии источника с максимально возможной. В этом смысле введено понятие избыточности источника сообщений или избыточности алфавита. ,
где Hmax = log M; M – количество различных букв в алфавите; H(X) – средняя энтропия на одну букву. Избыточность источника R показывает на сколько хорошо используются буквы в данном источнике. Чем меньше R, тем большее количество информации вырабатывается источником на одну букву. Однако, не всегда необходимо стремиться к R = 0. С повышением избыточности повышается помехоустойчивость (надежность) источника. Выяснение количества избыточности важно потому, что мы должны вводить ее разумно, чтобы получить максимальный эффект помехозащищенности, а не полагаться на стихию. Например, избыточность любого языка оказывается порядка 50-70%, то есть если бы все буквы имели одинаковую вероятность использования и можно было бы использовать любые комбинации букв, то среднюю длину слова можно было бы значительно уменьшить. Однако разбираться в этой записи было бы значительно труднее, особенно при наличии ошибок (лектора или студента). Современные системы связи построены без учета ограничений, существующих в языке, а поэтому не достаточно эффективны, так как они приспособлены для передачи равновероятных букв алфавита, которые могут следовать друг за другом в любых комбинациях. Колоссальная избыточность присуща телевизионным изображениям: естественно передавать не весь кадр, а только информацию соответствующую тому, чем отличается один кадр от другого. Этим можно существенно сократить требуемую (в среднем) полосу частот. Различают две составляющие избыточности:
,
где H(X) – энтропия для букв, когда они неравновероятны и взаимосвязаны; H1(X) – энтропия для букв, когда они статистически не взаимосвязаны и неравновероятны.
.
Между R; Rр и Rс существует зависимость: R = Rр + Rс + Rр · Rс. Если Rр и Rс – невелики, то R ≈ Rр + Rс. Укрупнение алфавита с M1 элементов алфавита до M2 ≥ M1(M2 = M1n) не изменяет избыточности: R1 = R2. Но статистические связи между элементами укрупненного алфавита падают Rс ≈ 0; следовательно возрастает неравномерность употребления отдельных букв алфавита M2, то есть Rр2 >> Rр1; Rр2 ≈ R1 ≈ R2. Доказательство, что R1 ≈ R2 сводится к следующему: 1. Подсчитаем H2(X): Из свойства аддитивности информации следует, что в одном элементе второго алфавита содержится столько же информации, сколько ее содержится в n элементах первичного алфавита. Среднее количество информации на один элемент первого алфавита – H1; математическое ожидание на n элементов первого алфавита – n · H1 равно информации на один элемент второго алфавита H2(X) = n · H1. 2. Избыточность второго алфавита Избыточность языка подсчитывается по формуле: ,
где Hmax = log M, а M – число букв в алфавите. Избыточность языка можно подсчитывать для H0; H1; H2;...HN, где H∞(X) = 0.87÷1.37бит⁄буква, а 0; 1; 2… – количество букв между которыми учитываются взаимосвязи. Примеры1. Во сколько раз больше содержится информации на странице текста для иностранца, начавшего изучать новый для себя язык (например, русский) и для носителя языка? Ответ. Для носителя языка среднее количество информации на одну букву определяется как Hязыка ≈ H30 = 1.35бит⁄буква, а для иностранца, плохо знающего словарь и не учитывающему взаимосвязь букв между собой H = H0 или H1, что соответствует ,
а бит⁄буква.То есть на странице текста для носителя языка содержится информации в раза меньше информации, чем для иностранца. http://peredacha-informacii.ru/ Частичное знание словаря и закономерностей языка уменьшает эту разницу. 2. Во сколько раз удлиняется текст в деловых бумагах, если их избыточность составляет 90÷95%? Ответ. При такой избыточности энтропия на одну букву составляет: ;; H¶(X) = 0.25÷0.5бит⁄буква. В то время как в письменной речи: H∞(X) = 0.87÷1.37бит⁄буква. Текст удлиняется в раз. |