загрузка...

§ 1. Вероятность, неопределенность и информация


Анализ понятия информации мы начнем с рассмотрения наиболее разработанной - статистической теории информации. Поскольку упомянутая теория возникла на базе теоретиковероятностных идей, выясним сначала, что же понимают под вероятностью.
Нет надобности здесь заниматься критикой субъективистского понимания вероятности, этот вопрос достаточно полно освещен в нашей литературе . Разумеется, вероятность как понятие отражает определенные признаки объективных процессов. Что это за признаки? Чтобы ответить на этот вопрос, рассмотрим два основных подхода к определению понятия вероятности - классический и статистический (частотный).
В классическом подходе вероятность каких-либо событий определяется исходя из их возможности. Например, нам нужно бросить монету. Выпадение какой-либо определенной ее стороны (либо цифры, либо герба) в этом случае равновозможно, рав-
См. Гнеденко Б. В. Курс теории вероятностей. М.: Физматгиз, 1961 ; Сачков Ю. В. К обоснованию теории вероятностей // Вопр. философии. 1958. № 11.
новероятно. Число равновероятных событий соответствует числу сторон монеты, то есть двум, а вероятность выпадения одной стороны герба (или цифры) равна: p = 2 . Если у нас в руках игральная кость (куб), то в этом случае число равновозможных событий определяется по числу граней куба, а вероятность выпадения
какой-либо грани (каждой из шести) равна: p = - .
6
Однако во многих задачах соображения классического подхода не могут привести к определению вероятности. Ведь очень часто равновозможность событий нарушается в результате, скажем, неравномерного распределения материала игральной кости, действия возмущений в процессе бросания и т. д. В таких случаях заранее теоретически определить вероятность, не проводя испытаний, экспериментов (например, бросаний), оказывается затруднительным, если не невозможным. В теории вероятностей испытания, когда появляется данный результат А (например, выпадает какая-либо определенная грань игральной кости), называются испытаниями, благоприятствующими событию А. Вероятность р (А) события А определяется как отношение числа возможных результатов испытания, благоприятствующих событию А, к числу всех возможных результатов испытания. При этом если условия рав- новозможности событий нарушаются, то упомянутое отношение выражает не вероятность, а частоту появления события А. Но оказывается, что при большом числе испытаний частота события А близка к вероятности. Вероятность, таким образом, представляет собой как бы некоторую постоянную, вокруг кото - рой может колебаться частота. Такая вероятность носит название частотной, или статистической.
Нетрудно заметить, что мы рассматривали события, кото - рые могут произойти, а могут и не произойти. Но такие события, как известно, являются случайными. Значит, вероятность - это не только количественная мера возможности наступления события, но и количественная мера степени его случайности. Если вероятность события равна единице, то данное событие обязательно должно произойти; его наступление уже оказывается не случайным, а необходимым. Если же вероятность события равна нулю, то такое событие не произойдет и его ненаступление также необходимо. Поэтому случайные события характеризуются лишь значениями вероятности, заключенной в интервале от нуля до единицы (1 gt; p gt; 0).
Понятия возможности, случайности, вероятности находятся в определенном отношении с понятием неопределенности. В примере с бросанием игральной кости неопределенность означает, что в начальный момент мы не можем сказать, какая именно грань выпадет. Ведь может выпасть любая из шести граней. Неопределенность, как и вероятность, конечно, не нужно понимать в субъективистском духе. Дело не в нашем незнании, а в том, что неопределенность существует объективно. Она имеет место тогда, когда производится выбор из некоторой совокупности элементов какой-то их части, например одного элемента. Степень неопределенности выбора характеризуется отношением числа выбранных элементов к общему числу элементов совокупности (множества).
Если множество состоит всего из одного элемента, то степень неопределенности равна нулю, ибо мы можем выбрать один и только один элемент. Вероятность выбора в этом случае равна единице, что следует из соображений классического подхода (это как бы бросание «монеты», имеющей всего лишь одну «сторону»,- естественно, что одна «сторона» всегда и выпадает). Теперь рассмотрим множество из двух элементов, например бросание «нормальной» монеты (с двумя сторонами). Очевидно, что вероятность выпадения какой-либо стороны равна, как уже упоминалось:
p = 1 . Степень неопределенности оказывается здесь уже от-
^ 2
личной от нуля: ведь можно выбрать или один, или другой элемент. Выбор в данном случае сводится к отличению одного элемента от другого. Выбрав какой-либо элемент, а значит, отличив его от другого, мы уменьшим неопределенность до нуля (ибо оставшийся элемент есть множество с нулевой неопределенностью).
Продолжая эти рассуждения, мы приходим к выводу, что увеличение числа элементов во множестве ведет к росту степени неопределенности и к уменьшению вероятности выбора одного элемента. Получается, что бесконечное число элементов во множестве соответствует бесконечной неопределенности и нулевой вероятности.
Итак, степени неопределенности и вероятности связаны друг с другом. Зная вероятность, мы сможем определить степень неопределенности. Предположим, что мы должны угадать одно из восьми чисел: 1, 2, 3, 4, 5, 6, 7, 8. Мы можем задавать задумавшему число вопросы и получать ответы «да» или «нет». Поскольку мы не можем предпочесть ни одно из восьми чисел, то из соображений равновозможности определяем, что вероятность
угадать задуманное число составляет !. Степень неопределенно -
8
сти может быть измерена количеством чисел, то есть 8. Если мы должны угадать одно из 20 чисел, то соответственно степень неопределенности равна 20, а вероятность выбора одного числа
равна — . Казалось бы, между степенью неопределенности и ве-
20 1
роятностью получается весьма простая зависимость: н = — , где
H - степень неопределенности, а p - вероятность выбора элемента. Действительно, при p = 0 степень неопределенности равна бесконечности. Чем больше вероятность, тем меньше степень неопределенности. Но когда мы переходим к р = 1 и подставляем в формулу, то получаем, что и H = 1. Но это неверно. Ведь при p = 1 степень неопределенности должна быть равна нулю, ибо выбирать не из чего - во множестве всего один элемент. Значит, зависимость между H иp должна быть иной.
Оказывается, если мы положим, что
н = log— = -1 og p,
p
то в этом случае мы удовлетворим всем условиям о связи степени неопределенности с вероятностью. В самом деле, при p = 0 имеем log lt;ю = lt;ю, при p = 1 logl = 0; другими словами, уменьшение p ведет к увеличению H. Итак, логарифмическая функция есть функция связи числа элементов во множестве, то есть степени неопределенности с вероятностью выбора одного элемента из этого множества.
Какие же логарифмы можно использовать при определении степени неопределенности через вероятность? Это вопрос не принципиальный - можно брать логарифмы при любом основании, но наиболее употребительны все же двоичные, десятичные и натуральные логарифмы. Если берутся логарифмы по основанию 2 (log2 A), то получаемая в этом случае степень неопределенности выражается в битах (сокращение от английского выражения «двоичный разряд»). Например, степень неопределенности множества из двух элементов составляет один бит, множества из четырех элементов с равными вероятностями - два бита и т. д.
Мы так подробно говорили о неопределенности и степени ее измерения потому, что изучением степени неопределенности, связи ее с вероятностью и занимается статистическая теория информации. В теории информации рассматриваются любые события, в результате которых уменьшается, уничтожается, исчезает неопределенность. Так, если мы хотим узнать по телефону, прибыл ли интересующий нас самолет, то, получив ответ «да», мы тем самым уменьшаем неопределенность до нуля. Следует заметить, что, получив ответ «нет», мы также полностью снимаем неопределенность. Если вероятности обоих ответов равны, то уменьшение неопределенности происходит на одну и ту же величину.
Пример, который мы только что привели, содержит всего два возможных ответа (множество с двумя элементами). Здесь в результате любого ответа («да» или «нет») неопределенность уничтожается полностью. Если имеется больше возможных ответов (исходов), то каждый ответ может уменьшать неопределенность на определенную величину. Так, в ранее упомянутом примере с угадыванием одного из восьми чисел может быть восемь различных исходов. Предположим, что мы назвали число 1 и не угадали (получили ответ «нет»). В результате неопределенность уменьшилась от 8 до 7 (или, в логарифмических единицах, от - log2 8 до - log2 7), ибо искомое число уже остается среди чисел от 2 до 8. Если мы назовем далее числа 2, 3, 4 и не угадаем, то нам станет ясно, что искомое число заключено уже между 5 и 8. Соответственно степень неопределенности уменьшается до 4 (или, в логарифмических единицах, до - log24). Разность между первоначальной степенью неопределенности (- log28) и этой последней (- log24) равна одному биту. Другими словами, мы получили один бит информации. Степень уменьшенной (уничтоженной, снятой) неопределенности в результате передачи сообщения (о том, прибыл ли самолет, угадали ли мы число и т. д.) называется количеством информации. В приведенных выше примерах речь шла о количестве информации лишь от одного события, сообщения. Оно называется индивидуальным количеством информации (- logp, где p - вероятность того или иного события).
Мы видим, что, чем более невероятны, неожиданны события, уничтожающие неопределенность, тем большее количество информации они несут. Но событие (пусть даже неожиданное), которое не уменьшает неопределенности, не несет никакой информации. Допустим, мы называем цифру, чтобы отгадать задуманную. В ответ мы должны услышать «да» или «нет». Но вме - сто этого нам говорят: «Завтра будет хорошая погода». Это сообщение не приводит к уменьшению неопределенности в данной задаче и поэтому не несет никакой информации. Однако эта же фраза может уменьшить неопределенность в другом случае, если нас интересует, какая будет погода завтра. Нулевое количество информации приносит и событие, которое обязательно должно произойти, то есть соответствует вероятности, равной единице.
Современную статистическую теорию информации не интересует индивидуальное количество информации, это понятие слишком просто и поэтому практически «не работает». Вместо индивидуального количества информации рассматривается среднее количество информации. Так, если нас интересует степень неопределенности опыта с n различными исходами (результатами), то ее определяют через логарифм числа этих исходов
*
(log n) , при условии, что вероятности исходов равны.
В том случае, если вероятности исходов различны, формула приобретает несколько иной вид. Рассмотрим следующий пример. Предположим, что опыт состоит в извлечении одного шара из ящика, содержащего один черный и два белых шара (суммарное количество шаров равно трем). Исходя из классического подхода, вероятность выбора черного шара равна - , а вероят-
2              3
ность выбора белого шара равна - . В качестве степени неопределенности всего опыта принимается среднее значение неопределенности отдельных возможных исходов. Это среднее значение получается, если вероятность отдельного исхода умножается на его неопределенность и эти произведения складываются. В нашем примере имеем:
1              2              3
H = — х log2 3 + — х log2 ^ = 0,92 (бита)
В общем случае формула степени неопределенности имеет вид:
H =-Z Р (Ai)l0g2 Р (Ai) .
i=1
Именно эта формула, предложенная в 1948 г. Американским математиком и инженером К. Шенноном, в настоящее время, пожалуй, не уступает в известности эйнштейновской формуле
E = mc2
Если в результате опыта уничтожается выражаемая формулой Шеннона неопределенность, то количество информации оказывается равным степени уничтоженной неопределенности.
Эта формула называется формулой Хартли.
**
Здесь предполагается, что производится опыт с возможными исходами A1, A2 ... An, вероятности этих исходов равны р (Ар, р (А2) ...р (Ап) соответственно.
Знак X означает сокращенную запись суммы произведений - р (Ai) log2 p (Ai), т. е. - р (Ai) log2p (Ai) -р (А2) log2р (А2) - ... -р (Ап) log2p (Ап).
Формулу Шеннона называют еще формулой негэнтропии, поскольку она с отрицательным знаком аналогична формуле энтропии в ее статистической интерпретации, данной Больцманом[††]. Формула энтропии в термодинамике определяет степень беспорядка, хаотичности молекул газа в сосуде. При этом вероятности p (Ai) в данном случае определяются как отношение числа молекул ni, заполняющих данную воображаемую ячейку сосуда, к числу всех молекул. Они обозначают условную вероятность нахождения молекулы в ячейке с номером i, когда газ характеризуется определенным распределением.
Несмотря на то что математические формулы количества информации и энтропии (по Больцману) отличаются лишь знаком , все же между ними есть существенное различие. Вероятности в формуле энтропии относятся только к газу - вообще к статистическим физическим и химическим объектам, имеющим отношение к тепловому движению. В силу этого было бы бессмысленным распространять законы статистической термодинамики, скажем, на лингвистику или на экономику, ибо последние не изучают «лингвистическую» и «экономическую» энергию или теплоту. Однако можно абстрагироваться от некоторых особенностей объектов термодинамики, лингвистики, экономики и других наук и выделить в них нечто общее, присущее действующим в них статистическим закономерностям. Этим общим может оказаться наличие неопределенности в тех или иных случайных явлениях. Изучением неопределенности и занимается теория информации. Современная статистическая теория информации применима к сфере любых случайных явлений, поскольку она вычленяет из них лишь аспект, связанный с изменением неопределенности. Поэтому можно рассматривать теорию информации как некую теорию, в определенном аспекте обобщающую представления статистической термодинамики. Из этого не следует, что их можно отождествлять. Между тем в философской и естественнонаучной литературе можно встретить точки зрения, абсолютизирующие или же тождество упомянутых теорий, или же их различие.
До сих пор мы рассматривали только прерывные, дискретные совокупности. Одним из важных свойств таких совокупностей является то, что все их элементы можно сосчитать, то есть занумеровать числами натурального ряда (1, 2, 3, 4...). Однако существуют и непрерывные, или несчетные, совокупности. Например, число точек в отрезке (сегменте) прямой от нуля до единицы невозможно сосчитать, занумеровать. При попытке обобщить определение количества информации на непрерывные, несчетные множества возникают трудности. Преодоление этих трудностей привело к видоизменению исходной формулы Шеннона, которая носит еще название формулы абсолютной негэн- тропии. Вместо нее пришлось ввести формулу так называемой относительной негэнтропии.
Последняя выражает негэнтропию какого-либо опыта (совокупности испытаний) не саму по себе, а по отношению к другому опыту. Если бы мы определяли негэнтропию опыта саму по себе, то получили бы бесконечное количество информации, ибо это опыт с непрерывным (бесконечным) числом исходов (результатов). Поэтому, чтобы получить конечное количество информации (конечную степень неопределенности), необходимо объединить в один исход группу непрерывных исходов, так чтобы их множество уже оказалось конечным, прерывным. Это объединение непрерывных исходов в группы происходит таким образом, что пренебрегают исходами, отличающимися менее, чем на некоторое малое число s. В результате такой операции неопределенность опыта оказывается уже конечной. Но это устранение бесконечности получается благодаря тому, что неопределенность измеряется относительно заданной точности, стандарта, который как бы играет роль определенной системы координат.
Идея относительной негэнтропии была высказана еще К. Шенноном в его основополагающей работе. «В дискретном случае, - писал он, - энтропия измеряет абсолютным образом степень случайности значения рассматриваемой случайной величины. В непрерывном случае это измерение производится относительно заданной системы координат... В непрерывном случае энтропия может рассматриваться как мера случайности относительно принятого стандарта, а именно выбранной системы ко - ординат...»[‡‡]
Может показаться, что задание стандарта точности, или, что то же, системы координат, приводит к субъективному пониманию количества информации. Ведь формула Шеннона (абсолютная негэнтропия) не зависела от выбора системы координат, а значит, и от наблюдателя, ученого. Однако такой вывод будет по - спешным. Дело в том, что гносеологическая операция объединения непрерывных событий в группы отражает особенности самих явлений. Последним объективно присуща неопределенность, которую абсолютно точно измерить невозможно.
Ныне на более общей формуле количества информации (относительной негэнтропии) строится вся современная статистическая теория информации.
Само обобщение формулы количества информации имеет важное методологическое значение, которое, пожалуй, сравнимо с некоторыми выводами специальной теории относительности. Пространство и время оказались не абсолютными, как в механике Ньютона, а относительными, т. е. зависящими по своим метрическим свойствам от скорости движения инерциальных систем. Так и в развитии теории информации произошел аналогичный переход от абсолютного количества информации к относительному, к функции отношения двух систем. Только такая функция имеет реальное значение и остается справедливой как для дискретных, так
и для непрерывных систем. Ведь формула относительной негэн- тропии выражает количество информации относительно заданной системы отсчета (системы координат), иначе говоря, характеризует количество информации, содержащееся в одном объекте отно - сительно другого объекта. Переход от абсолютной негэнтропии к относительной приобретает фундаментальное, решающее значение. По аналогии со специальной теорией относительности можно говорить о «релятивизации» формулы количества информации. Уместно также отметить, что эта «релятивизация» произошла менее чем через десять лет после появления первых работ Шеннона, тогда как релятивизация классической механики потребовала двух столетий развития науки. Этот факт - яркое свидетельство ускорения темпов развития науки.
Кроме понятия количества информации в статистической теории информации используется еще ряд важных понятий. Здесь мы ограничимся кратким рассмотрением лишь так называемой избыточности .
Мы очень часто пользуемся избыточностью. Например, ко - гда преподаватель несколько раз объясняет студентам трудное место, то это и есть не что иное, как использование избыточности с точки зрения теории информации. То же самое имеет место при телефонном разговоре в условиях плохой слышимости, ко - гда нам приходится произносить одну фразу несколько раз.
Избыточность играет большую роль при передаче сообщений. В каналах связи обычно действуют помехи (шумы), приводящие к искажению сообщений, к потере (снижению) количества информации. А это может сказаться на смысле передаваемого
Формула избыточности определяется как
I факт.
I макс.
где I факт. - количество информации в данной совокупности исходов, а I макс. - количество информации в той же совокупности при условии, что все исходы оказались бы равновероятными. Совокупности исходов равной избыточности обладают тем свойством, что с увеличением количества исходов количество информации в них увеличивается.

сообщения. Поэтому принимаются меры для сохранения необходимого количества и смысла информации, в частности широко используется увеличение избыточности сообщений, что может выражаться в повторении тех или иных элементов сообщения, всего сообщения или же в кодировании сообщения большим числом символов (знаков).
Если бы в каналах передачи информации не было помех, то можно было бы передавать максимальное количество информации, т. е. сообщения с нулевой избыточностью. Однако наличие шумов (помех) ведет к тому, что избыточность специально завышается и величина ее зависит от уровня помех. Слишком низкая избыточность может принести к искажению сообщений, слишком высокая - к уменьшению скорости передачи информации по каналу связи. Дело в том, что каждый канал связи обладает определенной пропускной способностью, т. е. через него можно передать некоторое максимальное количество информации в единицу времени. К. Шеннон сформулировал теоремы, ко - торые устанавливают условия кодирования информации при передаче ее по каналам связи (без помех и с помехами).
Вполне понятно, что в нашу задачу не входит рассмотрение всех понятий статистической теории информации. Мы остановились лишь на тех из них, которые, как нам представляется, имеют отношение к выяснению природы информации.
Как уже отмечалось, основополагающие идеи статистической теории информации были изложены Шенноном еще в 1948 г. Но и до него ряд мыслей высказывались Р. Фишером, Л. Сцилар- дом, К. Кюпфмюллером, Р. Хартли, Г. Найквистом, В. А. Котель - никовым. До создания статистической теории информации, кото - рая дала метод количественного анализа сообщений, существовали определенные идеи об информации, которые необязательно покоились на вероятностных, статистических представлениях. Под информацией обычно понимали сообщения, сведения о чем- либо, которые получали или передавали люди. Первоначальные идеи об информации были преимущественно связаны с речью людей, со сведениями, которые человек получал в результате производственной, познавательной и иной деятельности.
Применение статистических, вероятностных методов не только сделало возможным количественное исследование сообщений, сведений. Оно поставило вопрос о расширении объема понятия информации. Действительно, статистическая теория информации отвлекается от требований осмысленности информации, от возможности ее использования человеком. С позиций этой теории можно считать, что информацию несет не только человеческая речь, но и вообще любые объекты и процессы, кото - рые подчиняются статистическим закономерностям. Последние имеют место и в человеческом обществе, они присущи живой и неживой природе.
Вместе с тем из анализа статистической теории информации мы еще не можем сделать вывода о том, что информация - это всеобщее свойство материи.
Информация пока предстает перед нами как снятая неопределенность, связанная лишь со случайными процессами, а также с превращением возможностей в действительность, причем лишь тех из них, которые имеют место в случайных процессах (в статистических информационных процессах всегда происходит выбор: из некоторого множества возможностей в действительность превращается лишь часть). Уже формула Шеннона выступает как операция превращения случайных величин [ - log p (Ai) ] в неслучайную - среднее количество информации, что наталкивает на мысль о связи информационных процессов не только с чисто случайными, но и с неслучайными, необходимыми процессами, закономерностями, точнее, с превращением случайностей в необходимость. Однако из анализа статистической теории информации не вытекает, что информация может быть присуща необходимым процессам, например процессам, описываемым законами классической механики.
До недавнего времени считалось общепринятым, что теория информации - ветвь теории вероятностей. Это положение достаточно прочно вошло в математическую и философскую литературу. Так, Е. С. Вентцель отмечала, что «теория информации представляет собой не просто прикладную науку, в
которой применяются вероятностные методы исследования, а
*
должна рассматриваться как раздел теории вероятностей» . Н. И. Жуков также полагает, что современная количественная теория информации является «разделом математической теории вероятно стей» [§§].
Но такое заключение уже не отвечает современному уровню развития теории информации. В последние годы в связи с развитием невероятностных подходов в математических, семантических и других концепциях информации появилась иная, более широкая точка зрения на соотношение теории информации и теории вероятностей, на природу информации. Поэтому, анализируя природу информации, мы не можем ограничиваться только статистической теорией, а обязаны, по возможности, рассматривать все основные концепции (теории) информации.
<< | >>
Источник: Урсул А. Д.. Природа информации: философский очерк. 2010

Еще по теме § 1. Вероятность, неопределенность и информация:

  1. 1.4.1.2.4 Вероятная направленность
  2. Угол вероятности
  3. 3. ДЕТЕРМИНИЗМ, ТЕОРИЯ ВЕРОЯТНОСТЕЙ, СИММЕТРИЯ
  4. Акторы, вероятная каузальность и переходное отношение
  5. Убедитесь в том, что ваша компания реалистично оценивает вероятность изменения окружающей ее бизнес-среды
  6. 4.1. Понятие неопределенности и риска
  7. 2.4. НЕОПРЕДЕЛЕННОСТЬ Ц САМООРГАНИЗАЦИЯ
  8. 1.2.4. Система неопределенностей
  9. Неопределенность и парадокс ЭПР
  10. Принятие решений в условиях неопределенности и риска
  11. 4.3. Организационные методы уменьшения неопределенностей
  12. 5.6. МОДЕЛЬ ПРИНЯТИЯ РЕШЕНИЯ В УСЛОВИЯХ ЧАСТИЧНОЙ НЕОПРЕДЕЛЕННОСТИ
  13. 5.1 МЕТОДЫ ПРИНЯТИЯ ЭФФЕКТИВНЫХ РЕШЕНИЙ В УСЛОВИЯХ НЕОПРЕДЕЛЕННОСТИ
  14. 5.3. КРИТЕРИИ ЭФФЕКТИВНОСТИ В УСЛОВИЯХ полной НЕОПРЕДЕЛЕННОСТИ