Главная - Безопасность
Формулы хартли и шеннона. Информация, данные, сигналы. Источники информации и ее носители. Количество информации и энтропия. Формулы Хартли и Шеннона Что считают по формулам хартли и шеннона

Подходы к определœению количества информации.

Американский инженер Р. Хартли в 1928 ᴦ. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N .

Формула Хартли: I = log 2 N

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log 2 100 = 6,644. Τᴀᴋᴎᴍ ᴏϬᴩᴀᴈᴏᴍ, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений :

1. при бросании монеты: "выпала решка" , "выпал орел" ;

2. на странице книги: "количество букв чётное" , "количество букв нечётное" .

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина" . Однозначно ответить на данный вопрос нельзя. Все зависит от того, о каком именно здании идет речь. В случае если это, к примеру, кинотеатр, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 ᴦ. другую формулу определœения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = - (p 1 log 2 p 1 + p 2 log 2 p 2 + . . . + p N log 2 p N), где p i - вероятность того, что именно i -е сообщение выделœено в наборе из N сообщений.

Легко заметить, что если вероятности p 1 , ..., p N равны, то каждая из них равна 1 / N , и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определœению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

В качестве единицы информации Клод Шеннон предложил принять один бит (англ . bit - bi nary digit - двоичная цифра).

Бит в теории информации - количество информации, крайне важное для различения двух равновероятных сообщений (типа "орел"- "решка", "чет"- "нечет" и т.п.). В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутри машинного представления данных и команд.

Бит - слишком мелкая единица измерения. На практике чаще применяется более крупная единица - байт , равная восьми битам. Именно восœемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2 8).

Широко используются также ещё более крупные производные единицы информации:

  • 1 Килобайт (Кбайт) = 1024 байт = 2 10 байт,
  • 1 Мегабайт (Мбайт) = 1024 Кбайт = 2 20 байт,
  • 1 Гигабайт (Гбайт) = 1024 Мбайт = 2 30 байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

  • 1 Терабайт (Тбайт) = 1024 Гбайт = 2 40 байт,
  • 1 Петабайт (Пбайт) = 1024 Тбайт = 2 50 байт.

За единицу информации можно было бы выбрать количество информации, крайне важное для различения, к примеру, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

1.6. Что можно делать с информацией?

Информацию можно:

Все эти процессы, связанные с определœенными операциями над информацией, называются информационными процессами.

1.7. Какими свойствами обладает информация?

Свойства информации:

Информация достоверна, если она отражает истинное положение дел. Недостоверная информация может привести к неправильному пониманию или принятию неправильных решений.

Достоверная информация со временем может стать недостоверной, так как она обладает свойством устаревать, то есть перестаёт отражать истинное положение дел.

Информация полна, если её достаточно для понимания и принятия решений. Как неполная, так и избыточная информация сдерживает принятие решений или может повлечь ошибки.

Точность информации определяется степенью ее близости к реальному состоянию объекта͵ процесса, явления и т.п.

Ценность информации зависит от того, насколько она важна для решения задачи, а также от того, насколько в дальнейшем она найдёт применение в каких-либо видах деятельности человека.

Только своевременно полученная информация может принœести ожидаемую пользу. Одинаково нежелательны как преждевременная подача информации (когда она ещё не может быть усвоена), так и её задержка.

В случае если ценная и своевременная информация выражена непонятным образом, она может стать бесполезной.

Информация становится понятной, если она выражена языком, на котором говорят те, кому предназначена эта информация.

Информация должна преподноситься в доступной (по уровню восприятия) форме. По этой причине одни и те же вопросы по-разному излагаются в школьных учебниках и научных изданиях.

Информацию по одному и тому же вопросу можно изложить кратко (сжато, без несущественных деталей) или пространно (подробно, многословно). Краткость информации необходима в справочниках, энциклопедиях, учебниках, всœевозможных инструкциях.

Контрольные вопросы:

1. Что означает термин "информатика" и каково его происхождение?

2. Какие области знаний официально закреплены за понятием "информатика" с 1978 года?

3. Какие сферы человеческой деятельности и в какой степени затрагивает информатика?

4. Назовите основные составные части информатики и основные направления её применения.

5. Что подразумевается под понятием "информация" в бытовом, научном и техническом смыслах?

6. От кого (или чего) человек принимает информацию? Кому передает информацию?

7. Что можно делать с информацией?

8. Приведите примеры обработки информации человеком. Что является результатами этой обработки?

9. Приведите примеры технических устройств и систем, предназначенных для сбора и обработки информации.

10. От чего зависит информативность сообщения, принимаемого человеком?

11. Почему количество информации в сообщении удобнее оценивать не по степени увеличения знания об объекте, а по степени уменьшения неопределённости наших знаний о нём?

12. Как определяется единица измерения количества информации?

13. В каких случаях и по какой формуле можно вычислить количество информации, содержащейся в сообщении?

14. Почему в формуле Хартли за основание логарифма взято число 2?

15. При каком условии формула Шеннона переходит в формулу Хартли?

16. Что определяет термин "бит" в теории информации и в вычислительной технике?

17. Приведите примеры сообщений, информативность которых можно определить однозначно.

Подходы к определению количества информации.

Американский инженер Р. Хартли в 1928 г. процесс получения информации рассматривал как выбор одного сообщения из конечного наперёд заданного множества из N равновероятных сообщений, а количество информации I, содержащееся в выбранном сообщении, определял как двоичный логарифм N .

Формула Хартли: I = log 2 N

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log 2 100 = 6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений :

1. при бросании монеты: "выпала решка" , "выпал орел" ;

2. на странице книги: "количество букв чётное" , "количество букв нечётное" .

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина" . Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, кинотеатр, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Формула Шеннона: I = - (p 1 log 2 p 1 + p 2 log 2 p 2 + . . . + p N log 2 p N),
где p i - вероятность того, что именно i -е сообщение выделено в наборе из N сообщений.

Легко заметить, что если вероятности p 1 , ..., p N равны, то каждая из них равна 1 / N , и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

В качестве единицы информации Клод Шеннон предложил принять один бит (англ . bit - bi nary digit - двоичная цифра).

Бит в теории информации - количество информации, необходимое для различения двух равновероятных сообщений (типа "орел"- "решка", "чет"- "нечет" и т.п.).
В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутри машинного представления данных и команд.



Бит - слишком мелкая единица измерения. На практике чаще применяется более крупная единица - байт , равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2 8).

Широко используются также ещё более крупные производные единицы информации:

  • 1 Килобайт (Кбайт) = 1024 байт = 2 10 байт,
  • 1 Мегабайт (Мбайт) = 1024 Кбайт = 2 20 байт,
  • 1 Гигабайт (Гбайт) = 1024 Мбайт = 2 30 байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

  • 1 Терабайт (Тбайт) = 1024 Гбайт = 2 40 байт,
  • 1 Петабайт (Пбайт) = 1024 Тбайт = 2 50 байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит), а десятичная (дит) единица информации.

1.6. Что можно делать с информацией?

Информацию можно:

Все эти процессы, связанные с определенными операциями над информацией, называются информационными процессами.

1.7. Какими свойствами обладает информация?

Свойства информации:

Информация достоверна, если она отражает истинное положение дел. Недостоверная информация может привести к неправильному пониманию или принятию неправильных решений.

Достоверная информация со временем может стать недостоверной, так как она обладает свойством устаревать, то есть перестаёт отражать истинное положение дел.

Информация полна, если её достаточно для понимания и принятия решений. Как неполная, так и избыточная информация сдерживает принятие решений или может повлечь ошибки.

Точность информации определяется степенью ее близости к реальному состоянию объекта, процесса, явления и т.п.

Ценность информации зависит от того, насколько она важна для решения задачи, а также от того, насколько в дальнейшем она найдёт применение в каких-либо видах деятельности человека.

Только своевременно полученная информация может принести ожидаемую пользу. Одинаково нежелательны как преждевременная подача информации (когда она ещё не может быть усвоена), так и её задержка.

Если ценная и своевременная информация выражена непонятным образом, она может стать бесполезной.

Информация становится понятной, если она выражена языком, на котором говорят те, кому предназначена эта информация.

Информация должна преподноситься в доступной (по уровню восприятия) форме. Поэтому одни и те же вопросы по-разному излагаются в школьных учебниках и научных изданиях.

Информацию по одному и тому же вопросу можно изложить кратко (сжато, без несущественных деталей) или пространно (подробно, многословно). Краткость информации необходима в справочниках, энциклопедиях, учебниках, всевозможных инструкциях.

Контрольные вопросы:

1. Что означает термин "информатика" и каково его происхождение?

2. Какие области знаний официально закреплены за понятием "информатика" с 1978 года?

3. Какие сферы человеческой деятельности и в какой степени затрагивает информатика?

4. Назовите основные составные части информатики и основные направления её применения.

5. Что подразумевается под понятием "информация" в бытовом, научном и техническом смыслах?

6. От кого (или чего) человек принимает информацию? Кому передает информацию?

7. Что можно делать с информацией?

8. Приведите примеры обработки информации человеком. Что является результатами этой обработки?

9. Приведите примеры технических устройств и систем, предназначенных для сбора и обработки информации.

10. От чего зависит информативность сообщения, принимаемого человеком?

11. Почему количество информации в сообщении удобнее оценивать не по степени увеличения знания об объекте, а по степени уменьшения неопределённости наших знаний о нём?

12. Как определяется единица измерения количества информации?

13. В каких случаях и по какой формуле можно вычислить количество информации, содержащейся в сообщении?

14. Почему в формуле Хартли за основание логарифма взято число 2?

15. При каком условии формула Шеннона переходит в формулу Хартли?

16. Что определяет термин "бит" в теории информации и в вычислительной технике?

17. Приведите примеры сообщений, информативность которых можно определить однозначно.

Мы уже упоминали, что формула Хартли – частный случай формулы Шеннона для равновероятных альтернатив.

Подставив в формулу (1) вместо p i его (в равновероятном случае не зависящее отi ) значение, получим:

Таким образом, формула Хартли выглядит очень просто:

(2)

Из нее явно следует, что чем больше количество альтернатив (N ), тем больше неопределенность (H ). Эти величины связаны в формуле (2) не линейно, а через двоичный логарифм. Логарифмирование по основанию 2 и приводит количество вариантов к единицам измерения информации – битам.

Заметьте, что энтропия будет являться целым числом лишь в том случае, если N является степенью числа 2, т.е. еслиN принадлежит ряду:{1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048…}

Рис. 10. Зависимось энтропии от количества равновероятных вариантов выбора (равнозначных альтернатив).

Напомним, что такое логарифм.

Рис. 11. Нахождение логарифма b по основаниюa - это нахождениестепени , в которую нужно возвестиa , чтобы получитьb .

Логарифм по основанию 2 называется двоичным :

log 2 (8)=3 => 2 3 =8

log 2 (10)=3,32 => 2 3,32 =10

Логарифм по основанию 10 –называется десятичным :

log 10 (100)=2 => 10 2 =100

Основные свойства логарифма:

    log(1)=0, т.к. любое число в нулевой степени дает 1;

    log(a b)=b*log(a);

    log(a*b)=log(a)+log(b);

    log(a/b)=log(a)-log(b);

    log(1/b)=0-log(b)=-log(b).

Для решения обратных задач, когда известна неопределенность (H ) или полученное в результате ее снятия количество информации (I ) и нужно определить какое количество равновероятных альтернатив соответствует возникновению этой неопределенности, используют обратную формулу Хартли, которая выглядит еще проще:

(3)

Например, если известно, что в результате определения того, что интересующий нас Коля Иванов живет на втором этаже, было получено 3 бита информации, то количество этажей в доме можно определить по формуле (3), как N =2 3 =8 этажей .

Если же вопрос стоит так: “в доме 8 этажей, какое количество информации мы получили, узнав, что интересующий нас Коля Иванов живет на втором этаже?”, нужно воспользоваться формулой (2): I = log 2 (8)=3 бита .

    1. Количество информации, получаемой в процессе сообщения

До сих пор мы приводили формулы для расчета энтропии (неопределенности) H , указывая, чтоH в них можно заменять наI , потому что количество информации, получаемоепри полном снятии неопределенности некоторой ситуации, количественно равно начальной энтропии этой ситуации.

Но неопределенность может быть снята только частично, поэтому количество информации I , получаемой из некоторого сообщения, вычисляется какуменьшение энтропии, произошедшее в результате получения данногосообщения .

(4)

Для равновероятного случая , используя для расчета энтропии формулу Хартли, получим:

(5)

Второе равенство выводится на основании свойств логарифма. Таким образом, в равновероятном случае I зависит от того,во сколько раз изменилось количество рассматриваемых вариантов выбора (рассматриваемое разнообразие).

Исходя из (5) можно вывести следующее:

Если
, то
- полное снятие неопределенности, количество полученной в сообщении информации равно неопределенности, которая существовала до получения сообщения.

Если
, то
- неопределенности не изменилась, следовательно, информации получено не было.

Если
, то
=>
, если
,
=>
. Т.е. количество полученной информации будет положительной величиной, если в результате получения сообщения количество рассматриваемых альтернатив уменьшилось, и отрицательной, если увеличилось.

Если количество рассматриваемых альтернатив в результате получения сообщения уменьшилось вдвое, т.е.
, тоI= log 2 (2)=1 бит. Другими словами, получение 1 бита информации исключает из рассмотрения половину равнозначных вариантов.

Рассмотрим в качестве примера опыт с колодой из 36 карт.

Рис. 12. Иллюстрация к опыту с колодой из 36-ти карт.

Пусть некто вынимает одну карту из колоды. Нас интересует, какую именно из 36 карт он вынул. Изначальная неопределенность, рассчитываемая по формуле (2), составляет H = log 2 (36) 5,17 бит . Вытянувший карту сообщает нам часть информации. Используя формулу (5), определим, какое количество информации мы получаем из этих сообщений:

Вариант A . “Это карт а красной масти ”.

I=log 2 (36/18)=log 2 (2)=1 бит (красных карт в колоде половина, неопределенность уменьшилась в 2 раза).

Вариант B . “Это карт а пиковой масти ”.

I=log 2 (36/9)=log 2 (4)=2 бита (пиковые карты составляют четверть колоды, неопределенность уменьшилась в 4 раза).

Вариант С. “Это одна из старших карт: валет, дама, король или туз”.

I=log 2 (36)–log 2 (16)=5,17-4=1,17 бита (неопределенность уменьшилась больше чем в два раза, поэтому полученное количество информации больше одного бита).

Вариант D . “Это одна карта из колоды".

I=log 2 (36/36)=log 2 (1)=0 бит (неопределенность не уменьшилась - сообщение не информативно).

Вариант D . “Это дама пик ".

I=log 2 (36/1)=log 2 (36)=5,17 бит (неопределенность полностью снята).

    Априори известно, что шарик находится в одной из трех урн: А, В или С. Определите, сколько бит информации содержит сообщение о том, что он находится в урне В. Варианты: 1 бит, 1,58 бита, 2 бита, 2,25 бита.

    Вероятность первого события составляет 0,5, а второго и третьего 0,25. Чему для такого распределения равна информационная энтропия. Варианты: 0,5 бита, 1 бит, 1,5 бита, 2 бита, 2,5 бита, 3 бита.

    Вот список сотрудников некоторой организации:

Определите количество информации, недостающее для того, чтобы выполнить следующие просьбы:

    Пожалуйста, позовите к телефону Иванову.

    Меня интересует одна ваша сотрудница, она 1970 года рождения.

    Какое из сообщений несет больше информации:

    В результате подбрасывания монеты (орел, решка) выпала решка.

    На светофоре (красный, желтый, зеленый) сейчас горит зеленый свет.

В результате подбрасывания игральной кости (1, 2, 3, 4, 5, 6) выпало 3 очка.

60. Измерение информации – вероятностный и алфавитный подходы. Формулы Хартли, Шеннона. Пример в MS Ex с el .

С точки зрения на информацию, как на снятую неопределеность, количество информации в сообщении о каком-то событии зависит от вероятности совершения данного события.

Научный подход к оценке сообщений был предложен еще в 1928 году Р. Хартли. Расчетная формула Хартли для равновероятностных событий имеет вид:

I = log 2 N или 2 I = N ,

где N - количество равновероятных событий (число возможных выборов), I - количество информации.

Если N = 2 (выбор из двух возможностей), то I = 1 бит.

Пример 1. Использование формулы Хартли для вычисления количества информации. Сколько бит информации несет сообщение о том, что

поезд прибывает на один из 8 путей?

Формула Хартли: I = log 2 N ,

где N – число равновероятностных исходов события, о котором речь идет в сообщении,

I – количество информации в сообщении.

I = log 2 8 = 3(бит) Ответ: 3 бита.

Модифицированная формула Хартли для неравновероятностных событий. Так как наступление каждого из N возможных событий имеет одинаковую вероятность

p = 1 / N , то N = 1 / p и формула имеет вид

I = log 2 N= log 2 (1/p) = - log 2 p

Количественная зависимость между вероятностью события (p) и количеством информации в сообщении о нем (I) выражается формулой:

I = log 2 (1/ p )

Вероятность события вычисляется по формуле p = K / N , K – величина, показывающая, сколько раз произошло интересующее нас событие; N – общее число возможных исходов, событий. Если вероятность уменьшается, то количество информации увеличивается.

Пример 2. В классе 30 человек. За контрольную работу по математике получено 6 пятерок, 15 четверок, 8 троек и 1 двойка. Сколько бит информации несет сообщение о том, что Иванов получил четверку?

Ответ:1 бит.

Использование формулы Шеннона. Общий случай вычисления количества информации в сообщении об одном из N, но уже неравновероятных событий. Этот подход был предложен К.Шенноном в 1948 году.

Основные информационные единицы:

I ср = -

Значение I ср p i = 1 / N .

Пример 3. Сколько бит информации несет случайно сгенерированное сообщение «фара», если в среднем на каждую тысячу букв в русских текстах буква «а» встречается 200 раз, буква «ф» - 2 раза, буква «р» - 40 раз.

Будем считать, что вероятность появления символа в сообщении совпадает с частотой его появления в текстах. Поэтому буква «а» встречается со средней частотой 200/1000=0,2; Вероятность появления буквы “а” в тексте (p a)можем считать приблизительно равной 0,2;

буква «ф» встречается с частотой 2/1000=0,002; буква «р» - с частотой 40/1000=0,04;

Аналогично, p р = 0,04, p ф = 0,002. Далее поступаем согласно К.Шеннону. Берем двоичный логарифм от величины 0,2 и называем то, что получилось количеством информации, которую переносит одна-единственная буква “а” в рассматриваемом тексте. Точно такую же операцию проделаем для каждой буквы. Тогда количество собственной информации, переносимой одной буквой равно log 2 1/ p i = - log 2 p i , Удобнее в качестве меры количества информации пользоваться средним значением количества информации, приходящейся на один символ алфавита

I ср = -

Значение I ср достигает максимума при равновероятных событиях, то есть при равенстве всех p i

p i = 1 / N .

В этом случае формула Шеннона превращается в формулу Хартли.

I = M*I ср =4*(-(0,002*log 2 0,002+0,2* log 2 0,2+0,04* log 2 0,04+0,2* log 2 0,2))=4*(-(0,002*(-8,967)+0,2*(-2,322)+0,04*(-4,644)+0,2*(-2,322)))=4*(-(-0,018-0,46-0,19-0,46))=4*1,1325=4,53

Ответ: 4,53 бита

Алфавитный подход к измерению информации

Алфавитный подход используется в технике, в данном случае количество информации не зависит от содержания, а зависит от мощности алфавита и количества символов в тексте.

Для кодировки ASCII – мощность алфавита=256

I=log 2 256=8(бит);При кодировании символьной информации в кодах каждый символ, включая пробелы и знаки препинания, кодируется 1 байтом (8 битами).

Единицы измерения информации в вычислительной технике

1 бит (технический подход)

минимальная единица измерения информации

количество информации измеряется только целым числом бит

1 Кбайт (килобайт)

2 10 байт = 1024 байт

~ 1 тысяча байт

1 Мбайт (мегабайт)

2 10 Кбайт = 2 20 байт

~ 1 миллион байт

1 Гбайт (гигабайт)

2 10 Мбайт = 2 30 байт

~ 1 миллиард байт

  • 3. Технологии передачи данных. Ethernet, Token Ring, ISDN, X.25, Frame Relay.
  • 4. Устройства межсетевого интерфейса: повторители, мосты, маршрутизаторы, шлюзы. Методы коммутации и маршрутизации. Способы повышения производительности сети
  • 5 .Одноранговые и серверные сети: сравнительная характеристика. Основные виды специализированных серверов.
  • 6. Технологическая основа сети Интернет. Система адресации (IP-адреса, доменные имена, система DNS). Основные протоколы общения в сети.
  • 7. Базовые пользовательские технологии работы в сети Интернет. WWW, FTP, TELNET, E-MAIL. Поиск информации в сети Интернет.
  • 9. Базы данных: данные, модель данных, база данных, система управления базами данных, информационная система. Модели данных. Реляционная модель данных.
  • 12. Проектирование информационных систем. Структура и модели жизненного цикла.
  • 13. Моделирование и представление структуры предприятия. Диаграммы IDEF0.
  • 14. Моделирование и представление потоков данных. DFD-диаграммы.
  • 16. Экспертные системы (ЭС): понятие, назначение, архитектура, отличительные особенности. Классификация ЭС. Этапы разработки ЭС.
  • 17. Базы знаний экспертных систем. Методы представления знаний: логические модели, продукционные правила, фреймы, семантические сети.
  • 18 Знания. Виды знаний. Методы извлечения знаний: коммуникативные, текстологические.
  • 19 Языки программирования, их характеристики (Пролог, Delphi, C++).
  • 20. Языки программирования, их характеристики (PHP, Perl, JavaScript).
  • 21. Цели, задачи, принципы и основные направления обеспечения информационной безопасности Российской Федерации. Правовая, организационная, инженерно-техническая защита информации.
  • 22. Электронные издания: понятие, состав. Классификация ЭИ. Регистрация ЭИ.
  • 23. Информационные ресурсы: понятие, состав. Государственные информационные ресурсы.
  • 24. Операционная система персонального компьютера как средство управления ресурсами (на примере изучаемой ОС). Структура и компоненты ОС.
  • 25. Вредоносное программное обеспечение: классификации, методы обнаружения и удаления.
  • 26 Структура web-приложений. Протокол HTTP. Cookie. Функции web-приложения. Протокол CGI.
  • 27 Обеспечение надежности работы ИС. Транзакции. OLTP-системы.
  • 28. Эргономические цели и показатели качества программного продукта.
  • 31.Информационный менеджмент: понятие и основные функции.
  • 33 Стандартизация в области программного обеспечения. Стандарты документирования программных средств.
  • 34. Оценка качественных и количественных характеристик информационных систем. Модели оценки характеристик надежности программного и информационного обеспечения. Основные понятия, показатели и методы обеспечения надежности информационных систем.
  • 36.Особенности выполнения инновационных программ в сфере информатизации (характеристика информационной политики в сфере информатизации, принципы формирования проекта и внедрения ИС, управление проектами информатизации).

При изучении различных явлений и объектов окружающего мира люди стремились связать с этими объектами число, ввести их количественную меру. Люди научились измерять расстояния, взвешивать различные предметы, вычислять площади фигур и объёмы тел. Научившись измерять время, его длительность, мы до сих пор пытаемся понять его природу. Термометр был придуман за много лет до того, как учёные поняли, что он измеряет: с момента появления первого термометра до создания термодинамики прошло примерно три столетия. Количественное изучение некоторого явления, объекта может опережать его качественное изучение, процесс формирования соответствующего понятия может следовать за количественным изучением.

Похожая ситуация сложилась и в отношении информации. Р. Хартли в 1928, а затем К. Шеннон в 1948 предложили формулы для вычисления количества информации, однако на вопрос о том, что такое информация, они так и не ответили. В теории связи информация выступает в виде различных сообщений: например, букв или цифр, как в телеграфии, или в виде непрерывной функции времени, как при телефонии или радиовещании. В любом из указанных примеров, в конечном итоге, задача состоит в передаче смыслового содержания человеческой речи. В свою очередь, человеческая речь может быть представлена в звуковых колебаниях или в письменном изложении.

Это ещё одно из свойств этого вида информации: способность представлять одно и то же смысловое содержание в различном физическом виде. Впервые на это обратил особое внимание У. Эшби . Представление информации в различном физическом виде называется кодированием. Для того, чтобы общаться с другими людьми, человеку приходится постоянно заниматься кодированием, перекодированием и декодированием. Очевидно, что по каналам связи информация может передаваться в самых различных системах кодирования.

Р. Хартли первым ввел в теорию передачи информации методологию «измерения количества информации». При этом Р. Хартли считал, что информация, которую он собирался измерять, это «… группа физических символов - слов, точек, тире и т. п., имеющих по общему соглашению известный смысл для корреспондирующих сторон». Таким образом, Хартли ставил перед собой задачу ввести какую-то меру для измерения кодированной информации.

Пусть передаётся последовательность из n символов а 1 а 2 а 3 а n , каждый из которых принадлежит алфавиту А m , содержащему m символов. Чему равно число К различных вариантов таких последовательностей? Если n = 1 (передаётся один символ), то K = m; если n=2 (передаётся последовательность из 2-х символов), то K = m*m = m 2 ; в общем случае для последовательности из n символов получим


Количество информации, содержащееся в такой последовательности, Хартли предложил вычислять как логарифм числа K по основанию 2:

I = Log 2 K, (2.1)

где K = m n .

То есть, количество информации, содержащееся в последовательности из n символов из алфавита A m , в соответствии с формулой Хартли равно

I = Log 2 (m n) = n Log 2 m . (2.2)

Замечание 1. Хартли предполагал, что все символы алфавита A m могут с равной вероятностью (частотой) встретиться в любом месте сообщения. Это условие нарушается для алфавитов естественных языков: например, не все буквы русского алфавита встречаются в тексте с одинаковой частотой.

Замечание 2. Любое сообщение длины n в алфавите A m будет содержать одинаковое количество информации. Например, в алфавите {0; 1} сообщения 00111, 11001 и 10101 содержат одинаковое количество информации. Это означает, что при вычислении количества информации, содержащегося в сообщении, мы отвлекаемся от его смыслового содержания. «Осмысленное» сообщение и сообщение, полученное из него произвольной перестановкой символов, будут содержать одинаковое количество информации.

Пример. В телеграфном сообщении используются два символа - точка (.) и тире (-), т.е. алфавит состоит из m = 2 символов. Тогда при передаче одного символа (n =1) количество информации I = Log 2 2 = 1. Это количество было принято за единицу измерения количества информации и называется 1 бит (от английского binary unit = bit ). Если телеграфное сообщение в алфавите {. ; -} содержит n символов, то количество информации I = n Log 2 2 = n (бит).

С помощью символов 0 и 1 кодируется информация в компьютере и при передаче в вычислительных сетях, т.е. алфавит состоит из двух символов {0 ; 1}; один символ и в этом случае содержит I = Log 2 2 = 1 бит информации, поэтому сообщение длиной n символов в алфавите {0 ; 1} в соответствии с формулой Хартли (2.2) будет содержать n бит информации.

Если рассматривать передачу сообщений в алфавите русского языка, состоящего из 33 букв, то количество информации, содержащееся в сообщении из n символов, вычисленное по формуле Хартли, равно I = n*Log 2 33 » n* 5.0444 бит. Английский алфавит содержит 26 букв, один символ содержит Log 2 26 » 4.7 бит, поэтому сообщение из n символов, вычисленное по формуле Хартли, содержит n* Log 2 26 » 4.7 *n бит информации. Однако, этот результат не является правильным, так как не все буквы встречаются в тексте с одинаковой частотой. Кроме того, к буквам алфавита надо добавить разделительные знаки: пробел, точку, запятую и др.

Формула (2.1) внешне напоминает формулу Больцмана для вычисления энтропии системы с N равновероятными микросостояниями:

S= - k*Ln(W), (2.3)

где k - постоянная Больцмана = 1,38*10 -23 , а W- вероятность спонтанного принятия одного из микросостояний системы в единицу времени t = 10 -13 сек., W = 1/N, т.е.

S= -k*Ln(1/N) = k*Ln(N), (2.4)

что полностью согласуется с формулой (2.1) за исключением множителя k и основания логарифма. Из-за этого внешнего сходства величину Log 2 K в теории информации также называют энтропией и обозначают символом H. Информационная энтропия - это мера неопределённости состояния некоторой случайной величины (физической системы) с конечным или счётным числом состояний. Случайная величина (с.в.) - это величина, которая в результате эксперимента или наблюдения принимает числовое значение, заранее неизвестно какое.

Итак, пусть X - случайная величина, которая может принимать N различных значений x 1 , x 2 , … x N ; если все значения с.в. X равновероятны, то энтропия (мера неопределённости) величины X равна:

H(X) = Log 2 N. (2.5)

Замечание. Если случайная величина (система) может находиться только в одном состоянии (N=1), то её энтропия равна 0. Фактически это уже не случайная величина. Неопределённость системы тем выше, чем больше число её возможных равновероятных состояний.

Энтропия и количество информации измеряются в одних и тех же единицах - в битах.

Определение. 1 бит - это энтропия системы с двумя равновероятными состояниями.

Пусть система X может находиться в двух состояниях x1 и x2 с равной вероятностью, т.е. N = 2; тогда её энтропия H(X) = Log 2 2 = 1 бит. Пример такой системы даёт нам монета, при подбрасывании которой выпадает либо орёл (x1), либо решка (x2). Если монета «правильная», то вероятность выпадения орла или решки одинаковая и равна 1/2.

Дадим ещё одно определение единицы измерения информации.

Определение. Ответ на вопрос любой природы (любого характера) содержит 1 бит информации, если он с равной вероятностью может быть «да» или «нет».

Пример. Игра в «пусто-густо». Вы прячете мелкий предмет в одной руке и предлагаете партнёру угадать, в какой руке вы его спрятали. Он спрашивает вас « в левой руке?» (или просто выбирает руку: левую или правую). Вы отвечаете «да», если он угадал, или «нет», в противном случае. При любом варианте ответа партнёр получает 1 бит информации, а неопределённость ситуации полностью снимается.

Формулу Хартли можно использовать при решении задач на определение выделенного элемента некоторого заданного множества. Этот результат можно сформулировать в виде следующего правила.

Если в заданном множестве M, состоящем из N элементов, выделен некоторый элемент x, о котором ничего более неизвестно, то для определения этого элемента необходимо получить Log 2 N бит информации.

Рассмотрим несколько задач на применение формулы Хартли.

Задача 1. Некто задумал натуральное число в диапазоне от 1 до 32. Какое минимальное число вопросов надо задать, чтобы гарантированно угадать задуманное (выделенное) число. Ответы могут быть только «да» или «нет».

Комментарий. Можно попытаться угадать задуманное число простым перебором. Если повезёт, то придётся задать только один вопрос, а при самом неудачном варианте перебора придётся задать 31 вопрос. В предложенной задаче нужно определить минимальное число вопросов, с помощью которых вы гарантированно определяете задуманное число.

Решение. По формуле Хартли можно вычислить количество информации, которое необходимо получить для определения выделенного элемента x из множества целых чисел {1,2,3 32}. Для этого необходимо получить Н = Log 2 32 = 5 бит информации. Вопросы надо задавать так, чтобы ответы на них были равновероятны. Тогда ответ на каждый такой вопрос будет приносить 1 бит информации. Например, можно разбить числа на две равные группы от 1 до 16 и от 17 до 32 и спросить, в какой группе находится задуманное число. Далее, аналогично следует поступить с выделенной группой, которая содержит уже лишь 16 чисел, и т.д. Пусть, например, задумано число 7.

Вопрос №1: Задуманное число принадлежит множеству {17; 32}? Ответ «нет» приносит вам 1 бит информации. Мы теперь знаем, что число принадлежит множеству {1 ; 16}.

Вопрос №2: Задуманное число принадлежит множеству {1 ; 8}? Ответ «да» приносит вам ещё 1 бит информации. Мы теперь знаем, что число принадлежит множеству {1 ; 8}.

Вопрос №3: Задуманное число принадлежит множеству {1 ; 4}? Ответ «нет» приносит вам ещё 1 бит информации. Мы теперь знаем, что число принадлежит множеству {5 ; 8}.

Вопрос №4: Задуманное число принадлежит множеству {7 ; 8}? Ответ «да» приносит вам ещё 1 бит информации. Мы теперь знаем, что число принадлежит множеству {7 ; 8}.

Вопрос №5: Задуманное число равно 8? Ответ «нет» приносит вам ещё 1 бит информации. Мы теперь знаем, что задуманное число равно 7. Задача решена. Было задано пять вопросов, в ответ получено 5 бит информации и определено задуманное число. ‚

Задача 2. (Задача о фальшивой монете). Имеется 27 монет, из которых 26 настоящих и одна фальшивая. Каково минимальное число взвешиваний на рычажных весах, за которое можно гарантированно определить одну фальшивую монету из 27, используя то, что фальшивая монета легче настоящей.

Рычажные весы имеют две чашки и с их помощью можно лишь установить, одинаково ли по весу содержимое чашек, и если нет, то содержимое какой из чашек тяжелее.

Решение. Это задача на определение одного выделенного элемента из 27. По формуле Хартли мы сразу можем определить количество информации, которое нужно получить для определения фальшивой монеты: оно равно I = Log 2 27 = Log 2 (3 3) = 3 Log 2 3 бит. Отметим, что ещё не зная стратегии взвешивания, можно сказать, сколько информации мы должны получить для решения задачи.

Если положить на чашки весов равное количество монет, то возможны три равновероятных исхода:

1. Левая чашка тяжелее правой (Л > П);

2. Левая чашка легче правой (Л < П);

3. Левая чашка находится в равновесии с правой (Л = П);

Система «рычажные весы» может находиться в трёх равновероятных состояниях, поэтому одно взвешивание даёт Log 2 3 бит информации. Всего для решения задачи надо получить I = 3 Log 2 3 бит информации, значит надо сделать три взвешивания для определения фальшивой монеты. Мы уже знаем минимальное число взвешиваний, но ещё не знаем, как их следует проводить. Стратегия должна быть такой, чтобы каждое взвешивание давало максимальное количество информации. Разделим все монеты на три равные кучки A, B и C по 9 штук в каждой. Фальшивая монета, обозначим её буквой f, может с равной вероятность находиться в любой из трёх кучек. Выберем любые две из них, например A и B, и взвесим их.

Возможны три исхода:

1) A тяжелее B (A > B); значит f Î B;

2) A легче B (A < B); значит f Î A;

3) A находится в равновесии с B (A = B); значит f Î С.

При любом исходе мы определим в какой кучке находится фальшивая монета f, но в этой кучке будет уже только 9 монет. Разобъём её на три равные кучки A1, B1, C1 по 3 монеты в каждой. Выберем любые две и взвесим их. Как и на предыдущем шаге, мы определим ту кучку монет, в которой находится фальшивая монета, но теперь кучка состоит только из трёх монет. Выберем любые две монеты и взвесим их. Это будет последнее, третье взвешивание, после которого мы найдём фальшивую монету.

Задача 3 . Не используя калькулятор, оцените с точность до одного бита энтропию системы, которая может с равной вероятностью находится в 50 состояниях.

Решение. По формуле Хартли H = Log 2 50. Оценим данное выражение.

Очевидно, 32 < 50 < 64; логарифмируем это неравенство à Log 2 32 < Log 2 50 < Log 2 64 à 5 < Log 2 50 < 6. Энтропия системы с точностью до 1 бита 5 < H < 6 . ‚

Задача 4. Известно, что энтропия системы составляет 7 бит. Определите число состояний этой системы, если известно, что все они равновероятны.

Решение. Обозначим через N число состояний системы. Так как все состояния равновероятны, то H = Log 2 N à N = 2 H , т.е. N = 2 7 = 128.

 


Читайте:



Сколько золота содержится в процессорах Какие металлы есть в телефоне

Сколько золота содержится в процессорах Какие металлы есть в телефоне

Может ли обычная мобильная трубка содержать драгоценные металлы? Вы не задумывали об этом, а ответ на этот вопрос уже нашла компания 911...

Грязный биткоин: как отмывают деньги через криптовалюты

Грязный биткоин: как отмывают деньги через криптовалюты

Фонда защиты демократии и аналитической компании Elliptic была изучена экосистема отмывания биткоинов, полученных незаконным путём. Проанализировав...

Как починить зарядку от ноутбука

Как починить зарядку от ноутбука

Ремонт импульсного источника питания. Отремонтировать блок питания или преобразователь напряжения самостоятельно может любой человек, владеющий...

Справочная информация - промэлектроника

Справочная информация - промэлектроника

Носители, использующие флэш-память, составляют самый многочисленный класс портативных носителей цифровой информации и применяются в подавляющем...

feed-image RSS