Тема 2. Основы представления и обработки информации в компьютере

Литература

1. Информатика в экономике: Учебное пособие/Под ред. Б.Е. Одинцова, А.Н. Романова. – М.: Вузовский учебник, 2008.

2. Информатика: Базовый курс: Учебное пособие/Под ред. С.В. Симоновича. – СПб.: Питер, 2009.

3. Информатика. Общий курс: Учебник/Соавт.: А.Н. Гуда, М.А. Бутакова, Н.М. Нечитайло, А.В. Чернов; Под общ. ред. В.И. Колесникова. – М.: Дашков и К, 2009.

4. Информатика для экономистов: Учебник/Под ред. Матюшка В.М. - М.: Инфра-М, 2006.

5. Экономическая информатика: Введение в экономический анализ информационных систем.- М.: ИНФРА-М, 2005.

Меры информации (синтаксическая, семантическая, прагматическая)

Для измерения информации могут применяться различные подходы, но наибольшее распространение получили статистический (вероятностный), семантический и прагматический методы.

Статистический (вероятностный) метод измерения информации был разработан К. Шенноном в 1948 году, который предложил количество информации рассматривать как меру неопределенности состояния системы, снимаемой в результате получения информации. Количественно выраженная неопределенность получила название энтропии. Если после получения некоторого сообщения наблюдатель приобрел дополнительную информацию о системе Х, то неопределенность уменьшилась. Дополнительно полученное количество информации определяется как:

где - дополнительное количество информации о системе Х , поступившее в форме сообщения;

Начальная неопределенность (энтропия) системы X ;

Конечная неопределенность (энтропия) системы X, наступившая после получения сообщения.

Если система X может находиться в одном из дискретных состояний, количество которых n , а вероятность нахождения системы в каждом из них равна и сумма вероятностей всех состояний равна единице, то энтропия вычисляется по формуле Шеннона:

где - энтропия системы Х;

а - основание логарифма, определяющее единицу измерения информации;

n – количество состояний (значений), в котором может находится система.

Энтропия величина положительная, а так как вероятности всегда меньше единицы, а их логарифм отрицательный, поэтому знак минус в формуле К.Шеннона делает энтропию положительной. Таким образом, за меру количества информации принимается та же энтропия, но с обратным знаком.

Взаимосвязь информации и энтропии можно понимать следующим образом: получение информации (ее увеличение) одновременно означает уменьшение незнания или информационной неопределенности (энтропии)

Таким образом, статистический подход учитывает вероятность появления сообщений: более информативным считается то сообщение, которое менее вероятно, т.е. менее всего ожидалось. Количество информации достигает максимального значения, если события равновероятны.

Р. Хартли предложил следующую формулу для измерения информации:

I=log2n ,

где n - количество равновероятных событий;

I – мера информации в сообщении о наступлении одного из n событий

Измерение информации выражается в ее объёме. Чаще всего это касается объёма компьютерной памяти и объёма данных, передаваемых по каналам связи. За единицу принято такое количество информации, при котором неопределённость уменьшается в два раза, такая единица информации получила название бит .

Если в качестве основания логарифма в формуле Хартли используется натуральный логарифм (), то единицей измерения информации является нат (1 бит = ln2 ≈ 0,693 нат). Если в качестве основания логарифма используется число 3, то - трит , если 10, то - дит (хартли).

На практике чаще применяется более крупная единица - байт (byte ), равный восьми битам. Такая единица выбрана потому, что с ее помощью можно закодировать любой из 256 символов алфавита клавиатуры компьютера (256=28).

Кроме байтов информация измеряется полусловами (2 байта), словами (4 байта) и двойными словами (8 байт). Широко используются также еще более крупные единицы измерения информации:

1 Килобайт (Кбайт - kilobyte ) = 1024 байт = 210 байт,

1 Мегабайт (Мбайт - megabyte ) = 1024 Кбайт = 220 байт,

1 Гигабайт (Гбайт - gigabyte ) = 1024 Мбайт = 230 байт.

1 Терабайт (Тбайт - terabyte ) = 1024 Гбайт = 240 байт,

1 Петабайт (Пбайт - petabyte ) = 1024 Тбайт = 250 байт.

В 1980 году российский математик Ю. Манин предложил идею построения квантового компьютера, в связи с чем появилась такая единица информации как кубит (quantum bit, qubit) – «квантовый бит» – мера измерения объема памяти в теоретически возможном виде компьютера, использующем квантовые носители, например - спины электронов. Кубит может принимать не два различных значения («0» и «1»), а несколько, соответствующих нормированным комбинациям двух основных состояний спина, что дает большее число возможных сочетаний. Так, 32 кубита могут закодировать около 4 млрд состояний.

Семантический подход. Синтаксической меры не достаточно, если требуется определить не объем данных, а количество нужной в сообщении информации. В этом случае рассматривается семантический аспект, позволяющий определить содержательную сторону сведений.

Для измерения смыслового содержания информации можно воспользоваться тезаурусом ее получателя (потребителя). Идея тезаурусного метода была предложена Н. Винером и развита нашим отечественным ученым А.Ю. Шрейдером.

Тезаурусом называется совокупность сведений , которыми располагает получатель информации. Соотнесение тезауруса с содержанием поступившего сообщения позволяет выяснить, насколько оно снижает неопределенность..

Зависимость объема смысловой информации сообщения от тезауруса получателя

Согласно зависимости, представленной на графике, при отсутствии у пользователя какого-либо тезауруса (знаний о существе поступившего сообщении, то есть =0), или наличия такого тезауруса, который не изменился в результате поступления сообщения (), то объем семантической информации в нем равен нулю. Оптимальным будет такой тезаурус (), при котором объем семантической информации будет максимальным (). Например, семантической информации в поступившем сообщении на незнакомом иностранном языке будет ноль , но и такая же ситуация будет в том случае, если сообщение уже не является новостью, так как пользователю уже все известно.

Прагматическая мера информации определяет ее полезность в достижении потребителем своих целей. Для этого достаточно определить вероятность достижения цели до, и после получения сообщения и сравнить их. Ценность информации (по А.А. Харкевичу) рассчитывается по формуле:

где - вероятность достижения цели до получения сообщения;

Вероятность достижения цели поле получения сообщения;

Количество и качество информации

Уровни проблем передачи информации

При реализации информационных процессов всегда происходит перенос информации в пространстве и времени от источника информации к приемнику (получателю) с помощью сигналов. Сигнал - физический процесс (явление), несущий сообщение (информацию) о событии или состоянии объекта наблюдения.

Сообщение - форма представления информации в виде совокупности знаков (символов), используемая для передачи.

Сообщение как совокупность знаков с точки зрения семиотики - науки, занимающейся исследованием свойств знаков и знаковых систем, - может изучаться на трех уровнях:

1) синтаксическом, где рассматриваются внутренние свойства сообщений, т. е. отношения между знаками, отражающие структуру данной знаковой системы.

2) семантическом, где анализируются отношения между знаками и обозначаемыми ими предметами, действиями, качествами, т. е. смысловое содержание сообщения, его отношение к источнику информации;

3) прагматическом, где рассматриваются отношения между сообщением и получателем, т. е. потребительское содержание сообщения, его отношение к получателю.

Проблемы синтаксического уровня касаются создания теоретических основ построения информационных систем. На этом уровне рассматривают проблемы доставки получателю сообщений как совокупности знаков, учитывая при этом тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т. п., полностью абстрагируясь от смыслового содержания сообщений и их целевого предназначения. На этом уровне информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как смысловая сторона при этом не имеет значения.

Проблемы семантического уровня связаны с формализацией и учетом смысла передаваемой информации, определения степени соответствия образа объекта и самого объекта. На данном уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи, формируются понятия и представления, выявляется смысл, содержание информации, осуществляется ее обобщение.

На прагматическом уровне интересуют последствия от получения и использования данной информации потребителем. Проблемы этого уровня связаны с определением ценности и полезности использования информации при выработке потребителем решения для достижения своей цели. Основная сложность здесь состоит в том, что ценность, полезность информации может быть совершенно различной для различных получателей и, кроме того, она зависит от ряда факторов, таких, например, как своевременность ее доставки и использования.

Меры информации

Меры информации синтаксического уровня

Для измерения информации на синтаксическом уровне вводятся два параметра: объем информации (данных) – V Д (объемный подход) и количество информации - I (энтропийный подход).

Объем информации V Д. При реализации информационных процессов информация передается в виде сообщения, представляющего собой совокупность символов какого-либо алфавита. Если количество информации, содержащейся в сообщении из одного символа, принять за единицу, тообъем информации (данных) V Д в любом другом сообщении будет равен количеству символов (разрядов) в этом сообщении.

Так, в десятичной системе счисления один разряд имеет вес, равный 10, и соответственно единицей измерения информации будет дит (десятичный разряд). В этом случае сообщение в виде n V Д = п дит. Например, четырехразрядное число 2003 имеет объем данных V Д = 4 дит.

В двоичной системе счисления один разряд имеет вес, равный 2, и соответственно единицей измерения информации будет бит (bit (binary digit) - двоичный разряд). В этом случае сообщение в виде n -разрядного числа имеет объем данных V Д = п бит. Например, восьмиразрядный двоичный код 11001011 имеет объем данных V Д = 8 бит.

В современной вычислительной технике наряду с минимальной единицей измерения данных бит широко используется укрупненная единица измерения байт, равная 8 бит. При работе с большими объемами информации для подсчета ее количества применяют более крупные единицы измерения, такие как килобайт (кбайт), мегабайт (Мбайт), гигабайт (Гбайт), терабайт (Тбайт):

1 кбайт = 1024 байт = 2 10 байт;

1 Мбайт = 1024 кбайт = 2 20 байт = 1 048 576 байт;

1 Гбайт = 1024 Мбайт = 2 30 байт = 1 073 741 824 байт; .

1 Тбайт = 1024 Гбайт = 2 40 байт = 1 099 511 627 776 байт.

Количество информации I (энтропийный подход). В теории информации и кодирования принят энтропийный подход к измерению информации. Этот подход основан на том, что факт получения информации всегда связан с уменьшением разнообразия или неопределенности (энтропии) системы. Исходя из этого количество информации в сообщении определяется как мера уменьшения неопределенности состояния данной системы после получения сообщения. Как только наблюдатель выявил что-нибудь в физической системе, энтропия системы снизилась, так как для наблюдателя система стала более упорядоченной.

Таким образом, при энтропийном подходе под информацией понимается количественная величина исчезнувшей в ходе какого-либо процесса (испытания, измерения и т. д.) неопределенности. При этом в качестве меры неопределенности вводится энтропия Н, и количество информации равно:

где H apr - априорная энтропия о состоянии исследуемой системы;

H aps - апостериорная энтропия.

Апостериори - происходящее из опыта (испытания, измерения).

Априори - понятие, характеризующее знание, предшествующее опыту (испытанию), и независимое от него.

В случае, когда в ходе испытания имевшаяся неопределенность снята (получен конкретный результат, т. е. H aps = 0), количество полученной информации совпадает с первоначальной энтропией

Рассмотрим в качестве исследуемой системы дискретный источник информации (источник дискретных сообщений), под которым будем понимать физическую систему, имеющую конечное множество возможных состояний. Это множество А = {a 1, a 2 , ..., а п } состояний системы в теории информации называют абстрактным алфавитом или алфавитом источника сообщений.

Отдельные состояния а 1 , а 2 ,..., а„ называют буквами или символами алфавита.

Такая система может в каждый момент времени случайным образом принять одно из конечных множеств возможных состояний а i .

Поскольку одни состояния выбираются источником чаще, а другие реже, то в общем случае он характеризуется ансамблем А, т. е. полной совокупностью состояний с вероятностями их появления, составляющими в сумме единицу:

, причем (2.2)

Введем меру неопределенности выбора состояния источника. Ее можно рассматривать и как меру количества информации, получаемой при полном устранении неопределенности относительно равновероятных состояний источника.

Тогда при N = 1 получаем Н(А) = 0.

Указанная мера была предложена американским ученым Р. Хартли в 1928 г. Основание логарифма в формуле (2.3) не имеет принципиального значения и определяет только масштаб или единицу измерения В зависимости от основания логарифма применяют следующие единицы измерения.

1. Биты - при этом основание логарифма равно 2:

(2.4)

2. Ниты - при этом основание логарифма равно е:

3. Диты - при этом основание логарифма равно 10:

В информатике в качестве меры неопределенности обычно используют формулу (2.4). При этом единица неопределенности называется двоичной единицей, или битом, и представляет собой неопределенность выбора из двух равновероятных событий.

Формулу (2.4) можно получить эмпирически: для снятия неопределенности в ситуации из двух равновероятных событий необходим один опыт и соответственно один бит информации, при неопределенности, состоящей из четырех равновероятных событий, достаточно 2 бит информации, чтобы угадать искомый факт. Для определения карты из колоды, состоящей из 32 карт, достаточно 5 бит информации, т. е достаточно задать пять вопросов с ответами «да» или «нет», чтобы определить искомую карту.

Предложенная мера позволяет решать определенные практические задачи, когда все возможные состояния источника информации имеют одинаковую вероятность.

В общем случае степень неопределенности реализации состояния источника информации зависит не только от числа состояний, но и от вероятностей этих состояний. Если источник информации имеет, например, два возможных состояния с вероятностями 0,99 и 0,01, то неопределенность выбора у него значительно меньше, чем у источника, имеющего два равновероятных состояния, так как в этом случае результат практически предрешен (реализация состояния, вероятность которого равна 0,99).

Американский ученый К. Шеннон обобщил понятие меры неопределенности выбора H на случай, когда H зависит не только от числа состояний, но и от вероятностей этих состояний (вероятностей р i выбора символов а i , алфавита A). Эту меру, представляющую собой неопределенность, приходящуюся в среднем на одно состояние, называют энтропией дискретного источника информации:

(2.5)

Если снова ориентироваться на измерение неопределенности в двоичных единицах, то основание логарифма следует принять равным двум:

(2.6)

При равновероятных выборах вероятность p i =1/N формула (2.6) преобразуется в формулу Р. Хартли (2.3):

Предложенная мера была названа энтропией не случайно. Дело в том, что формальная структура выражения (2.5) совпадает с энтропией физической системы, определенной ранее Больцманом.

Используя формулы (2.4) и (2.6), можно определить избыточность D алфавита источника сообщений А, которая показывает, насколько рационально применяются символы данного алфавита:

где Н max (А) - максимально возможная энтропия, определяемая по формуле (2.4);

Н(А) - энтропия источника, определяемая по формуле (2.6).

Суть данной меры заключается в том, что при равновероятном выборе ту же информационную нагрузку на знак можно обеспечить, используя алфавит меньшего объема, чем в случае с неравновероятным выбором.

УРОВНИ ПРОБЛЕМ ПЕРЕДАЧИ ИНФОРМАЦИИ

При реализации информационных процессов всегда происходит перенос информации в пространстве и времени от источника информации к приемнику (получателю). При этом для передачи информации используют различные знаки или символы, например естественного или искусственного (формального) языка, позволяющие выразить ее в некоторой форме, называемой сообщением.

Сообщение как совокупность знаков с точки зрения семиотики (от греч. semeion - знак, признак) - науки, занимающейся исследованием свойств знаков и знаковых систем, - может изучаться на трех уровнях :

1) синтаксическом, где рассматриваются внутренние свойства сообщений, т. е. отношения между знаками, отражающие структуру данной знаковой системы. Внешние свойства изучают на семантическом и прагматическом уровнях;

Таким образом, учитывая определенную взаимосвязь проблем передачи информации с уровнями изучения знаковых систем, их разделяют на три уровня: синтаксический, семантический и прагматический.

Проблемы синтаксического уровня касаются создания теоретических основ построения информационных систем, основные показатели функционирования которых были бы близки к предельно возможным, а также совершенствования существующих систем с целью повышения эффективности их использования. Это чисто технические проблемы совершенствования методов передачи сообщений и их материальных носителей - сигналов. На этом уровне рассматривают проблемы доставки получателю сообщений как совокупности знаков, учитывая при этом тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т. п., полностью абстрагируясь от смыслового содержания сообщений и их целевого предназначения. На этом уровне информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, так как смысловая сторона при этом не имеет значения.

Современная теория информации исследует в основном проблемы именно этого уровня. Она опирается на понятие «количество информации», являющееся мерой частоты употребления знаков, которая никак не отражает ни смысла, ни важности передаваемых сообщений. В связи с этим иногда говорят, что современная теория информации находится на синтаксическом уровне.

Проблемы этого уровня чрезвычайно сложны, так как смысловое содержание информации больше зависит от получателя, чем от семантики сообщения, представленного на каком-либо языке.

На прагматическом уровне интересуют последствия от получения и использования данной информации потребителем. Проблемы этого уровня связаны с определением ценности и полезности использования информации при выработке потребителем решения для достижения своей цели. Основная сложность здесь состоит в том, что ценность, полезность информации может быть совершенно различной для различных получателей и, кроме того, она зависит от ряда факторов, таких, например, как своевременность ее доставки и использования. Высокие требования в отношении скорости доставки информации часто диктуются тем, что управляющие воздействия должны осуществляться в реальном масштабе времени, т. е. со скоростью изменения состояния управляемых объектов или процессов. Задержки в доставке или использовании информации могут иметь катастрофические последствия.

Термин "информация " происходит от латинского "informatio ", что означает разъяснение, осведомление, изложение. С позиции материалистической философии информация есть отражение реального мира с помощью сведений (сообщений). Сообщение - это форма представления информации в виде речи, текста, изображения, цифровых данных, графиков, таблиц и т.п. В широком смысле информация - это общенаучное понятие, включающее в себя обмен сведениями между людьми, обмен сигналами между живой и неживой природой, людьми и устройствами.

Информатика рассматривает информацию как концептуально связанные между собой сведения, данные, понятия, изменяющие наши представления о явлении или объекте окружающего мира. Наряду с информацией в информатике часто употребляется понятие “данные ”. Покажем в чем их отличие.

Данные могут рассматриваться как признаки или записанные наблюдения, которые по каким-то причинам не используются, а только хранятся. В том случае, если их используют для уменьшения неопределенности (получения сведений) о каком-либо объекте, данные превращаются в информацию. Данные существуют объективно и не зависят от человека и объема его знаний. Одни и те же данные для одного человека могут превратиться в информацию, т.к. они способствовали уменьшению неопределенности знаний человека, а для другого человека так и останутся данными.

Пример 1

Напишите на листе 10 номеров телефонов в виде последовательности 10-ти чисел и покажите их вашему сокурснику. Он воспримет эти цифры как данные, т.к. они не предоставляют ему никаких сведений.

Затем напротив каждого номера укажите название фирмы и род деятельности. Непонятные ранее цифры для вашего сокурсника обретут определенность и превратятся из данных в информацию, которую он в дальнейшем мог бы использовать.

Данные можно разделить на факты, правила и текущие сведения. Факты отвечают на вопрос "я знаю, что…". Примеры фактов:

Москва - столица России;
Дважды два равно четыре;
Квадрат гипотенузы равен сумме квадратов катетов.

Правила отвечают на вопрос "я знаю, как…". Примеры правил:

Правила вычисления корней квадратного уравнения;
Инструкция пользования банкоматом;
Правила дорожного движения.

Факты и правила представляют достаточно данные длительного использования. Они достаточно статичны, т.е. не изменчивы во времени.

Текущие сведения представляют данные, употребляемые в относительно короткий промежуток времени - курс доллара, цена товара, новости.

Одной из важнейших разновидностей информации является информация экономическая. Ее отличительная черта - связь с процессами управления коллективами людей, организацией. Экономическая информация сопровождает процессы производства, распределения, обмена и потребления материальных благ и услуг. Значительная часть ее связана с общественным производством и может быть названа производственной информацией.

При работе с информацией всегда имеется ее источник и потребитель (получатель). Пути и процессы, обеспечивающие передачу сообщений от источника информации к ее потребителю называются информационными коммуникациями.

1.2.2. Формы адекватности информации

Для потребителя информации очень важной характеристикой является ее адекватность .

В реальной жизни вряд ли возможна ситуация, когда вы сможете ориентироваться на полную адекватность информации. Всегда присутствует некоторая степень неопределенности. От степени адекватности информации реальному состоянию объекта или процесса зависит правильность принятия решений потребителем.

Пример 2

Вы успешно окончили школу и хотите продолжить образование по экономическому направлению. Поговорив с друзьями, вы узнаете, что подобную подготовку можно получить в разных вузах. В результате таких бесед вы получаете весьма разноречивые сведения, которые не позволяют вам принять решение в пользу того или иного варианта, т.е. полученная информация неадекватна реальному состоянию дел.

Для того чтобы получить более достоверные сведения, вы покупаете справочник для поступающих в вузы, из которого получаете исчерпывающую информацию. В этом случае можно говорить, что информация, полученная вами из справочника, адекватно отражает направления обучения в вузах и помогает вам определиться в окончательном выборе.

Адекватность информации может выражаться в трех формах: семантической, синтаксической, прагматической.

Синтаксическая адекватность

Синтаксическая адекватность отображает формально-структурные характеристики информации и не затрагивает смыслового содержания. На синтаксическом уровне учитываются тип носителя и способ представления информации, скорость передачи и обработки, размеры кодов представления информации, надежность и точность преобразования этих кодов и т.п. Информацию, рассматриваемую только с синтаксических позиций, обычно называют данными, т.к. при этом не имеет значения смысловая сторона. Эта форма способствует восприятию внешних структурных характеристик, т.е. синтаксической стороны информации.

Семантическая (смысловая) адекватность

Семантическая адекватность определяет степень соответствия образа объекта и самого объекта. Семантический аспект имеет в виду учет смыслового содержания информации. На этом уровне анализируются те сведения, которые отражает информация, рассматриваются смысловые связи. В информатике устанавливаются смысловые связи между кодами представления информации. Эта форма служит для формирования понятий и представлений, выявления смысла, содержания информации и ее обобщения.

Прагматическая (потребительская) адекватность

Прагматическая адекватность отражает отношение информации и ее потребителя, соответствие информации цели управления, которое на ее основе реализуется. Проявляются прагматические свойства информации только при наличии единства информации (объекта), пользователя и цели управления. Прагматический аспект рассмотрения связан с ценностью, полезностью использования информации для выработки потребителем решения для достижения своей цели. С этой точки зрения анализируются потребительские свойства информации. Эта форма адекватности непосредственно связана с практическим использованием информации, с соответствием ее целевой функции деятельности системы.

1.2.3. Измерение информации

Для измерения информации вводятся два параметра:

Эти параметры имеют разные выражения и интерпретацию в зависимости от рассматриваемой формы адекватности. Каждой форме адекватности соответствует своя мера количества информации и объема данных (рис. 1).

Рис. 1. Меры информации

Синтаксические меры информации

Синтаксические меры количества информации имеют дело с обезличенной информацией, не выражающей смыслового отношения к объекту.

Объем данных в сообщении измеряется количеством символов (разрядов) в этом сообщении. В различных системах счисления один разряд имеет различный вес, и соответственно меняется единица измерения данных:

в двоичной системе счисления единица измерения - бит (binary digit - двоичный разряд). Наряду с этой единицей измерения широко используется укрупненная единица измерения “байт”, равная 8 бит.
в десятичной системе счисления единица измерения - дит (десятичный разряд).

Пример 3

Сообщение в двоичной системе в виде восьмиразрядного двоичного кода 10111011 имеет объем данных Сообщение в десятичной системе в виде шестиразрядного числа 275903имеетобъемданных

Определение количества информации I на синтаксическом уровне невозможно без рассмотрения понятия неопределенности состояния системы (энтропии системы). Действительно, получение информации о какой-либо системе всегда связано с изменением степени неосведомленности получателя о состоянии этой системы. Рассмотрим это понятие.

Пусть до получения информации потребитель имеет некоторые предварительные (априорные) сведения о системе a . Мерой его неосведомленности о системе является функция Н(a), которая в тоже время служит и мерой неопределенности состояния системы. Эта мера получила название энтропия . Если потребитель имеет полную информацию о системе, то энтропия равна 0. Если потребитель имеет полную неопределенность о какой-то системе, то энтропия является положительным числом. По мере получения новой информации энтропия уменьшается.

После получения некоторого сообщения b получатель приобрел некоторую дополнительную информацию , уменьшившую его априорную неосведомленность так, что апостериорная (после получения сообщения b ) неопределенность состояния системы стала .

Тогда количество информации о системе, полученное в сообщении b , определится как , т. е. количество информации измеряется изменением (уменьшением) неопределенности состояния системы.

Если конечная неопределенность обратится в нуль, то первоначальное неполное знание заменится полным знанием и количество информации . Иными словами, энтропия системы Н(a) может рассматриваться как мера недостающей информации.

Энтропия системы Н(a) , имеющая N возможных состояний, согласно формуле Шеннона, равна

(1)

где - вероятность того, что система находится в i -м состоянии.

Для случая, когда все состояния системы равновероятны, т.е. их вероятности равны , ее энтропия определяется соотношением

(2)

Энтропия системы в двоичной системе счисления измеряется в битах. Исходя из формулы (2) можно сказать, что в системе в равновероятными состояниями 1 бит равен количеству информации, которая уменьшает неопределенность знаний в два раза.

Пример 4

Система, которая описывает процесс бросания монеты, имеет два равновероятных состояния. Если вам нужно угадать, какая сторона выпала сверху, то вы сначала имеете полную неопределенность о состоянии системы. Что бы получить информацию о состоянии системы, вы задаете вопрос: "Это орел?". Этим вопросом вы пытаетесь отбросить половину неизвестных состояний, т.е. уменьшить неопределенность в 2 раза. Какой бы ответ ни последовал "Да" или "Нет", вы получите полную ясность о состоянии системы. Таким образом, ответ на вопрос содержит 1 бит информации. Поскольку после 1-го вопроса наступила полня ясность, то энтропия системы равна 1. Этот же ответ дает формула (2), т.к. log2 2=1.

Пример 5.

Игра "Отгадай число". Вам надо угадать задуманное число от 1 до 100. В начале отгадывания вы имеете полную неопределенность о состоянии системы. При отгадывании надо задавать вопросы не хаотично, а так, чтобы ответ уменьшал неопреденность знаний в 2 раза, получая таким образом примерно 1 бит информации после каждого вопроса. Например, сначала надо задать вопрос: "Число больше 50?". "Правильный" подход к отгадыванию дает возможность угадать число за 6-7 вопросов. Если применить формулу (2), то получится, что энтропия системы равна log2 100=6,64.

Пример 6.

Алфавит племени "тумбо-юмбо" содержит 32 различных символа. Какова энтропия системы? Другими словами надо определить, какое количество информации несет в себе каждый символ.
Если считать, что каждый символ встречается в словах с равной вероятностью, то энтропия log2 32=5.

Наиболее часто используются двоичные и десятичные логарифмы. Единицами измерения в этих случаях будут соответственно бит и дит.

Коэффициент (степень) информативности (лаконичность) сообщения определяется отношением количества информации к объему данных, т.е.

Чем больше коэффициент информативности Y, тем меньше объем работы по преобразованию информации (данных) в системе. Поэтому стремятся к повышению информативности, для чего разрабатываются специальные методы оптимального кодирования информации.

Семантическая мера информации

Для измерения смыслового содержания информации, т.е. ее количества на семантическом уровне наибольшее признание получила тезаурусная мера, предложенная Ю.И.Шнейдером. Он связывает семантические свойства информации прежде всего со способностью пользователя принимать поступившее сообщение. Для этого используется понятие "тезаурус пользователя ".

В зависимости от соотношений между смысловым содержанием информации S и тезаурусом пользователя Sp изменяется количество семантической информации , воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Характер такой зависимости показан на рис. 2. Рассмотрим два предельных случая, когда количество семантической информации равно 0:

Максимальное количество семантической информации потребитель приобретает при согласовании ее смыслового содержания S со своим тезаурусом, когда поступающая информация понятна пользователю и несет ему ранее не известные (отсутствующие в его тезаурусе) сведения.

Следовательно, количество семантической информации в сообщении, количество новых знаний, получаемых пользователем, является величиной относительной. Одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для пользователя некомпетентного.

о.

Рис. 2. Зависимость количества семантической информации, воспринимаемой потребителем, от его тезауруса

При оценке семантического (содержательного) аспекта информации надо стремиться к согласованию величин S и Sp.

Относительной мерой количества семантической информации может служить коэффициент содержательности С , который определяется как отношение количества семантической информации к ее объему

Прагматическая мера информации

Прагматическая мера информации служит для определения ее полезности (ценности) для достижения пользователем поставленной цели. Эта мера также величина относительная, обусловленная особенностями использования этой информации в той или иной системе. Ценность информации целесообразно измерять в тех же самых единицах (или близких к ним), в которых измеряется целевая функция.

Пример 7

В экономической системе прагматические свойства (ценность) информации можно определить приростом экономического эффекта функционирования, достигнутым благодаря использованию этой информации для управления системой:

где - ценность информационного сообщения для системы управления ;

- априорный ожидаемый экономический эффект функционирования системы управления ;

Ожидаемый эффект функционирования системы при условии, что для управления будет использована информация, содержащаяся в сообщении .

Для сопоставления введенные меры информации представим в табл. 1.

Таблица 1. Единицы измерения информации и примеры

Меры информации	Единицы измерения	Примеры (для компьютерной области)
Синтаксическая: а)Шенноновский подход б)компьютерный подход	а)степень уменьшения неопределенности б)единицы представления информации	а) вероятность события б) бит, байт, Кбайт и т.д.
Семантическая	а) тезаурус б) экономические показатели	а)пакет прикладных программ, персональный компьютер, компьютерные сети и т.д. б)рентабельность, производительность, коэффициент амортизации и т.д.
Прагматическая	Ценность использования	Емкость памяти, производительность компьютера, скорость передачи данных и т.д. Денежное выражение Время обработки информации и принятия решений

1.2.4. Свойства информации

Возможность и эффективность использования информации обуславливаются такими основными ее свойствами, как: репрезентативность, содержательность, достаточность, доступность, актуальность, своевременность, точность, достоверность, устойчивость.
Репрезентативность информации связана с правильностью ее отбора и формирования с целью адекватного отражения свойств объекта.

Важнейшее значение здесь имеют:

правильность концепции, на базе которой сформулировано исходное понятие;
обоснованность отбора существенных признаков и связей отображаемого явления.

Нарушение репрезентативности информации приводит нередко к существенным ее погрешностям.

Содержательность информации отражает семантическую емкость, равную отношению количества семантической информации в сообщении к объему обрабатываемых данных, т. е. . С увеличением содержательности информации растет семантическая пропускная способность информационной системы, так как для получения одних и тех же сведений требуется преобразовать меньший объем данных.

Наряду с коэффициентом содержательности C , отражающим семантический аспект, можно использовать и коэффициент информативности, характеризующийся отношением количества синтаксической информации (по Шеннону) к объему данных .

Достаточность (полнота) информации означает, что она содержит минимальный, но достаточный для принятия правильного решения состав (набор показателей). Понятие полноты информации связано с ее смысловым содержанием (семантикой) и прагматикой. Как неполная, т.е. недостаточная для принятия правильного решения, так и избыточная информация снижают эффективность принимаемых пользователем решений.

Доступность информации восприятию пользователя обеспечивается выполнением соответствующих процедур ее получения и преобразования. Например, в информационной системе информация преобразовывается к доступной и удобной для восприятия пользователя форме. Это достигается, в частности, и путем согласования ее семантической формы с тезаурусом пользователя.

Актуальность информации определяется степенью сохранения ценности информации для управления в момент ее использования и зависит от динамики изменения ее характеристик и от интервала времени, прошедшего с момента возникновения данной информации.

Своевременность информации означает ее поступление не позже заранее назначенного момента времени, согласованного с временем решения поставленной задачи.

Точность информации определяется степенью близости получаемой информации к реальному состоянию объекта, процесса, явления и т.п. Для информации, отображаемой цифровым кодом, известны четыре классификационных понятия точности:

формальная точность, измеряемая значением единицы младшего разряда числа;
реальная точность, определяемая значением единицы последнего разряда числа, верность которого гарантируется;
максимальная точность, которую можно получить в конкретных условиях функционирования системы;
необходимая точность, определяемая функциональным назначением показателя.

Достоверность информации определяется ее свойством отражать реально существующие объекты с необходимой точностью. Измеряется достоверность информации доверительной вероятностью необходимой точности, т.е. вероятностью того, что отображаемое информацией значение параметра отличается от истинного значения этого параметра в пределах необходимой точности.

Устойчивость информации отражает ее способность реагировать на изменения исходных данных без нарушения необходимой точности. Устойчивость информации, как и репрезентативность, обусловлены выбранной методикой ее отбора и формирования.

В заключение следует отметить, что такие параметры качества информации, как репрезентативность, содержательность, достаточность, доступность, устойчивость целиком определяются на методическом уровне разработки информационных систем. Параметры актуальности, своевременности, точности и достоверности обусловливаются в большей степени также на методическом уровне, однако, на их величину существенно влияет и характер функционирования системы, в первую очередь, ее надежность. При этом параметры актуальности и точности жестко связаны, соответственно, с параметрами своевременности и достоверности.

1.2.5. Общая характеристика информационных процессов

В природе и в обществе постоянно происходит взаимодействие объектов, связанные с изменением информации. Изменение информации происходит в результате разнообразных воздействий. Совокупность действий с информацией называют информационным процессом . Информационная деятельность состоит из разнообразных действий, которые выполняются с информацией. Среди них можно выделить действия, связанные с поиском, приемом, обработкой, передачей, хранением и защитой информации.

Обмен информацией между людьми, реакция человеческого организма на природные явления, взаимодействия человека и автоматизированной системы, - все это примеры информационных процессов.

Процесс сбора включает в себя:

измерение параметров;
регистрацию параметров в виде данных для последующей обработки;
преобразование данных в форму, используемую в системе (кодирование, приведение к нужному виду и ввод в систему обработки).

Для того, чтобы данные были измерены и зарегистрированы, необходимо наличие аппаратных средств, преобразующих сигналы в форму, воспринимаемую системой получателя (совместимую). Например, для регистрации температуры больного или влажности почвы для последующей их обработки нужны специальные датчики. Для записи этих данных на носитель или их передачи также нужны аппаратные средства.

Хранение информации необходимо для того, чтобы можно было многократно воспользоваться одними и теми же данными. Для обеспечения хранения информации необходимы апапратные средства записи данных на материальный носитель и чтения с носителя.

Процесс обмена информацией подразумевает наличие источника и потребителя (приемника) информации. Процесс выхода информации от источника называется передачей , а процесс получения информации потребителей называется приемом . Таким образом, процесс обмена подразумевает наличие двух взаимосвязанных процессов передачи-приема.

Процессы передачи и приема могут быть односторонними, двусторонними, а также поочередно двусторонними.

Пути и процессы, обеспечивающие передачу сообщений от источника информации к ее потребителю, называются информационными коммуникациями .

Рис. 3. Информационный процесс обмена информацией

Источниками и потребителями информации могут быть люди, животные, растения, автоматические устройства. От источника к потребителю информация передается в форме сообщений. Прием и передача сообщений осуществляется в виде сигналов. Сигнал - это изменение физической среды, отображающее сообщение. Сигнал может быть звуковой, световой, обонятельный (запах), электрический, электромагнитный и т.д.

Кодирующее устройство преобразует сообщение из вида, понятного источнику, в сигналы физической среды, по которой передается сообщение. Декодирующее устройство выполняет обратную операцию и преобразует сигналы среды к виду, понятному потребителю.

Материальными носителями передаваемых сообщений могут быть природные химические соединения (ощущаемые на запах и на вкус), механические колебания воздуха или мембраны телефона (при передаче звука), колебания электрического тока в проводах (телеграф, телефон), электромагнитные волны оптического диапазона (воспринимаемые человеческим глазом), электромагнитные волны радиодиапазона (для передачи звука и телеизображения).

В организме человека и животных информация передается по нервной системе в виде слабых электрических токов или с помощью особых химических соединений (гормонов), переносимых кровью.

Каналы связи характеризуются пропускной способностью - количеством данных, переданных в единицу времени. Она зависит от скорости преобразования информации в приемо-передающих устройствах, и от физических свойств самих каналов. Пропускная способность определяется возможностями физической природы канала.

В вычислительной технике информационные процессы автоматизированы и используют аппаратные и программные методы, приводящие сигналы в совместимую форму.

На всех этапах обработки и передачи необходимо передающее и принимающее устройства, имеющие соответствующие совместимые аппаратные средства. Данные после получения могут быть зафиксированы на носителях информации для хранения до следующего процесса.

Следовательно, информационный процесс может состоять из серии преобразований данных и их сохранения в новой форме.
Информационные процессы в современном мире имеют тенденцию автоматизации на компьютере. Появляется все большее количество информационных систем, которые реализуют информационные процессы, и удовлетворяют запросы потребителей информации.

Хранение данных в компьютерных каталогах позволяет быстро копировать информацию, размещать на разных носителях, выдавать пользователям в разной форме. Претерпевают изменения и процессы передачи информации на большие расстояния. Человечество постепенно переходит на связь через глобальные сети.

Обработка - это процесс преобразования информации из одного вида в другой.

Чтобы осуществить обработку, необходимы следующие условия:

исходные данные - сырье для обработки;
среда и инструменты обработки;
технология, которая определяет правила (способы) преобразования данных

Процесс обработки завершается получением новой информации (по форме, по содержанию, по смыслу), которую называют результирующей информацией.

Процесс обработки информации напоминает процесс материального производства. При производстве товаров необходимо сырье (исходные материалы), среда и инструменты производства (цех и станки), технология изготовления товара.
Все описанные выше отдельные стороны информационного процесса тесно взаимосвязаны.

При выполнении информационного процесса на компьютере выделяют четыре группы действий с данными - ввод, хранение, обработку и вывод.

Обработка предполагает преобразование данные в некоторой программной среде. Каждая программная среда обладает набором инструментов, с помощью которых можно опреровать данныи. Чтобы осуществить обработку надо знать технологию работы в среде, т.е. технологию работы с инструментами среды.

Чтобы обработка стала возможной надо данные ввести, т.е. передать от пользователя в компьютер. Для этого предназначены разнообразные устройства ввода.

Чтобы данные не пропали, и их можно было многократно использовать, осуществляется запись данных на разнообразные устройства хранения информациию.

Чтобы увидеть результаты обработки информации, ее надо вывести, т.е. передать из компьютера пользователю, с помощью разнообразных устройств вывода.

1.2.6. Кодирование числовой информации

Общие понятия

Система кодирования применяется для замены названия объекта на условное обозначение (код) с целью обеспечения удобной и более эффективной обработки информации.

Система кодирования - совокупность правил кодового обозначения объектов.

Код строится на базе алфавита, состоящего из букв, цифр и других символов. Код характеризуется:

длиной - число позиций в коде;
структурой - порядок расположения в коде символов, используемых для обозначения классификационного признака.

Процедура присвоения объекту кодового обозначения называется кодированием.

Представление о системах счисления

Числа могут быть представлены в различных системах счисления.

Для записи чисел могут использоваться не только цифры, но и буквы (например, запись римских цифр - XXI, MCMXCIX). В зависимости от способа изображения чисел системы счисления делятся на позиционные и непозиционные .

В позиционной системе счисления количественное значение каждой цифры числа зависит от того, в каком месте (позиции или разряде) записана та или иная цифра этого числа. Позиции числа нумеруют от 0 справа налево. Например, меняя позицию цифры 2 в десятичной системе счисления, можно записать разные по величине десятичные числа, например, 2 (цифра 2 стоит на 0-й позиции и означает две единицы); 20 (цифра 2 стоит на 1-й позиции и означает два десятка); 2000 (цифра 2 стоит на 3-й позиции и означает две тысячи); 0,02 и т.д. Перемещение положения цифры в соседний разряд увеличивает (уменьшает) ее значение в 10 раз.

В непозиционной системе счисления цифры не изменяют своего количественного значения при изменении их расположения (позиции) в числе. Примером непозиционной системы может служить римская система, в которой независимо от местоположения, одинаковый символ имеет неизменное значение (например, символ X в числе XVX означает десять, где бы он ни стоял).

Количество (p) различных символов, используемых для изображения числа в позиционной системе счисления, называется основанием системы счисления. Значения цифр лежат в пределах от 0 до p-1.

В десятичной системе счисления p=10 и для записи любого числа используется 10 цифр: 0, 1, 2, ... 9.

Для компьютера наиболее подходящей и надежной оказалась двоичная система счисления (p=2), в которой для представления чисел используются последовательности цифр - 0 и 1. Кроме того, для работы компьютера оказалось удобным использовать представление информации с помощью еще двух систем счисления:

восьмеричной (p=8, т.е. любое число представляется с помощью 8 цифр - 0,1, 2,...7);
шестнадцатеричной (p=16, используемые символы - цифры - 0, 1, 2, ..., 9 и буквы - A, B, C, D, E, F, заменяющие числа 10,11, 12, 13, 14, 15 соответственно).

Соответствие кодов десятичной, двоичной и шестнадцатеричной систем счисления представлено в таблице 2.

Таблица 2. Соответствие кодов десятичной, двоичной и шестнадцатеричной систем счисления

Десятичная	Двоичная	Шестнадцатеричная

В общем случае любое число N в позиционной системе счисления можно представить в виде:

где k - количество разрядов в целой частности числа N;

- (k –1)-ая цифра целой части числа N, записанного в системе счисления с основанием p;

N-ая цифра дробной части числа N, записанного в системе счисления с основанием p;

n - количество разрядов в дробной части числа N;

Максимальное число, которое может быть представлено в к разрядах .

Минимальное число, которое может быть представлено в n разрядах .

Имея в целой части числа к разрядов, а в дробной n разрядов, можно записать всего разных чисел.

С учетом этих обозначений запись числа N в любой позиционной системе счисления с основанием p имеет вид:

Пример 8

При p = 10 запись числа в десятичной системе счисления – 2466,675 10 , где k = 4, n = 3.

При p = 2 запись числа в двоичной системе – 1011,112 , где k = 4, n = 2.

Двоичная и шестнадцатеричная системы счисления обладают такими же свойствами, что и десятичная, только для представления чисел используется не 10 цифр, а всего две в первом случае и 10 цифр и 6 букв во втором случае. Соответственно и разряд числа называют не десятичным, а двоичным или шестнадцатеричным. Основные законы выполнения арифметических действий в двоичной и шестнадцатеричной системах счисления соблюдаются точно также как и в десятичной.

Для сравнения рассмотрим представление чисел в разных системах счисления, как сумму слагаемых, в которых учтен вес каждого разряда.

Пример 9

В десятичной системе счисления

В двоичной системе счисления

В шестнадцатеричной системе счисления

Существуют правила перевода чисел из одной системы счисления в другую.

Формы представления чисел в компьютере

В компьютерах применяются две формы представления двоичных чисел:

естественная форма или форма с фиксированной запятой (точкой);
нормальная форма или форма с плавающей запятой (точкой).

В естественной форме (с фиксированной запятой) все числа изображаются в виде последовательности цифр с постоянным для всех чисел положением запятой, отделяющей целую часть от дробной.

Пример 10

В десятичной системе счисления имеются 5 разрядов в целой части числа и 5 разрядов в дробной части числа. Числа, записанные в такую разрядную сетку, например, имеют вид: +00564,24891; -10304,00674 и т.д. Максимальное число, которое можно представить в такой разрядной сетке будет 99999,99999.

Форма представления чисел с фиксированной запятой наиболее проста, но имеет ограниченный диапазон представления чисел. Если в результате операции получится число, выходящее за допустимый диапазон, происходит переполнение разрядной сетки, и дальнейшие вычисления теряют смысл. Поэтому в современных компьютерах такая форма представления используется обычно только для целых чисел .

Если используется система счисления с основанием p при наличии k разрядов в целой части и n разрядов в дробной части числа, то диапазон значащих чисел N при их представлении в форме с фиксированной запятой, определяется соотношением:

Пример 11

При p =2, k =10, n =6 диапазон значащих чисел будет определяться следующим соотношением:

В нормальной форме (с плавающей запятой) каждое число изображается в виде двух групп цифр. Первая группа цифр называется мантиссой , вторая – порядком , причем абсолютная величина мантиссы должна быть меньше 1, а порядок – целым числом. В общем виде число в форме с плавающей запятой может быть представлено в виде:

где M – мантисса числа (| M | < 1);

r – порядок числа (r - целое число);

p – основание системы счисления.

Пример 12

Приведенные в примере 3 числа +00564,24891; -10304,00674 будут представлены в форме с плавающей запятой следующими выражениями:

Нормальная форма представления имеет огромный диапазон отображения чисел и является основной в современных компьютерах. Знак числа кодируется двоичной цифрой. При этом код 0 означает знак «+», код 1 - знак «-».

Если используется система счисления с основанием p при наличии m разрядов у мантиссы и s разрядов у порядка (без учета знаковых разрядов порядка и мантиссы), то диапазон значащих чисел N при их представлении в нормальной форме, определяется соотношением:

Пример 13

При p =2, m =10, s =6 диапазон значащих чисел будет определяться примерно от до

Форматы представления чисел в компьютере

Последовательность нескольких битов или байтов часто называют полем данных. Биты в числе (в слове, в поле и т.п.) нумеруются справа налево, начиная с 0-го разряда.

В компьютере могут обрабатываться поля постоянной и переменной длины.

Поля постоянной длины:

слово – 2 байта

полуслово – 1 байт

двойное слово – 4 байта

расширенное слово – 8 байт.

Поля переменной длины могут иметь размер от 0 до 256 байт, но обязательно равный целому числу байтов.

Числа с фиксированной запятой чаще всего имеют формат слова и полуслова. Числа с плавающей запятой – формат двойного и расширенного слова.

Пример 14

Числу –193 в десятичной системе соответствует в двоичной системе число –11000001. Представим это число в двух форматах.

Для естественной формы представления этого числа (с фиксированной запятой) потребуется слово емкостью 2 байта. (таблица 3).

Таблица 3

Знак числа

Абсолютная величина числа

№ разряда

В нормальной форме число -19310 в десятичной записи имеет вид -0,193х103, а в двоичной записи это же число имеет вид -0,11000001х21000. Мантисса, обозначающая число 193, записанная в двоичной форме имеет 8 позиций. Таким образом, порядок числа равен 8, поэтому степень числа 2 равна 8 (10002). Число 8 также записано в двоичной форме. Для нормальной формы представления этого числа (с плавающей запятой) потребуется двойное слово, т.е. 4 байта (таблица 4).

Таблица 4

	Знак числа	Порядок	Мантисса
№ разряда

Знак числа записывается в крайнем левом 31-м бите. На запись порядка числа отводится 7 бит (с 24-го по 30-й). В этих позициях записано число 8 в двоичной форме. Для записи мантиссы отводится 24 бита (с 0-го по 23-й). Мантисса записывается слева направо.

Перевод из любой позиционной системы в десятичную систему счисления

Перевод из любой позиционной системы счисления, например используемой в компьютере с основанием p = 2; 8; 16, в десятичную систему счисления производится по формуле (1).

Пример 15

Перевести в десятичную систему счисления двоичное число . Подставляя в формулу перевода (1) соответствующие двоичные разряды исходного числа, найдем:

Пример 16

Пример 17

Перевести число в десятичную систему счисления.

При переводе учтено, что в 16-ой системе счисления буква А заменяет значение 10.

Перевод целого числа из десятичной в другую позиционную систему счисления

Рассмотрим обратный перевод - из десятичной системы в другую систему счисления. Для простоты ограничимся переводом только целых чисел.

Общее правило перевода следующее: необходимо разделить число N на p. Полученный при этом остаток даст цифру, стоящую в 1-ом разряде p-ричной записи числа N. Затем полученное частное снова разделить на p и снова запомнить полученный остаток - это будет цифра второго разряда и т.д. Такое последовательное деление продолжается до тех пор, пока частное не окажется меньше, чем основание системы счисления - p. Это последнее частное и будет цифрой старшего разряда.

Пример 18

Перевести десятичное число N = 20 (p = 10) в двоичную систему счисления (p = 2).

Действуем по указанному выше правилу (рис. 4). Первое деление дает частное 10 и остаток, равный 0. Это цифра младшего разряда. Второе деление дает частное – 5 и остаток – 1. Третье деление дает частное – 2 и остаток – 0. Деление продолжается, пока частное не равно нулю. Пятое частное – 0. Остаток – 1. Этот остаток – старшая цифра полученного двоичного числа. На этом деление заканчивается. Теперь записываем результат, начиная с последнего частного, затем переписываем все остатки. В итоге получим:

Рис. 4. Перевод десятичного числа в двоичное методом деления

1.2.7. Кодирование текстовой данных

Текстовые данные представляют собой совокупность алфавитных, цифровых и специальных символов, зафиксированных на некотором физическом носителе (бумага, магнитный диск, изображение на экране дисплея).

Нажатие клавиши на клавиатуре приводит к тому, что сигнал посылается в компьютер в виде двоичного числа, которое хранится в кодовой таблице. Кодовая таблица – это внутреннее представление символов в компьютере. Во всем мире в качестве стандарта принята таблица ASCII (American Standard Code for Informational Interchange – Американский стандартный код информационного обмена).

Для хранения двоичного кода одного символа выделен 1байт=8 бит. Учитывая, что каждый бит принимает значение 1 или 0, количество возможный сочетаний единиц и нулей равно . Значит, с помощью 1 байта можно получить 256 разных двоичных кодовых комбинаций и отобразить с их помощью 256 различных символа. Эти коды и составляют таблицу ASCII. Для сокращения записей и удобства пользования этими кодами символов в таблице используют шестнадцатеричную систему счисления, состоящую из 16 символов – 10-ти цифр и 6-ти латинских букв: A, B, C, D, E, F. При кодировании символов сначала записывается цифра столбца, а затем строки, на пересечении которых находится данный символ.

Кодирование каждого символа 1-м байтом связано с расчетом энтропии системы символов (см. пример 6). При разработке системы кодирования символов учли, что необходимо закодировать 26 строчных букв латинского (английского) алфавита и 26 прописных букв, цифры от 0 до 9, знаки препинания, специальные символы, арифметические знаки. Это так называемые, международные, символы. Получается около 128 символов. Еще 128 кодов отводится для кодирования символов национального алфавита и некоторых дополнительных знаков. В русском языке это 33 строчных и 33 прописных буквы. Общее число символов, подлежащих кодированию больше и меньше . В предположении, что все символы встречаются с равной вероятностью, то энтропия системы будет 7 < H < 8. Поскольку для кодирования используется целое число бит, то 7 бит будет мало. Поэтому для кодирования каждого символа используется по 8 бит. Как было сказано выше, 8 бит позволяют закодировать символов. Это число дало название единице измерения объема данный «байт».

Пример 19

Латинская буква S в таблице ASCII представлена шестнадцатеричным кодом – 53. При нажатии на клавиатуре буквы S, в память компьютера записывается его эквивалент – двоичный код 01010011, который получается путем замены каждой шестнадцатеричной цифры на ее двоичный эквивалент.

В данном случае цифра 5 заменена кодом 0101, а цифра 3 – кодом 0011. При выводе буквы S на экран в компьютере происходит декодирование – по этому двоичному коду строится его изображение.

Обратите внимание! Любой символ в таблице ASCII кодируется с помощью 8-ми двоичных разрядов или 2-х шестнадцатеричных разрядов (1 разряд представлен 4-мя битами).

Таблица (рис. 5) отображает кодировку символов в шестнадцатеричной системе счисления. Первые 32 символа являются управляющими и предназначены, в основном, для передачи команд управления. Они могут меняться в зависимости от программных и аппаратных средств. Вторая половина кодовой таблицы (от 128 до 255) не определена американским стандартом и предназначена для национальных символов, псевдографических и некоторых математических символов. В разных странах могут использоваться различные варианты второй половины кодовой таблицы для кодирования букв своего алфавита.

Обратите внимание! Цифры кодируются по стандарту ASCII в двух случаях – при вводе-выводе и, если они встречаются в тексте.

Для сравнения рассмотрим число 45 для двух вариантов кодирования.

При использовании в тексте это число потребует для своего представления 2 байта, т.к. каждая цифра будет представлена своим кодом в соответствии с таблицей ASCII (рис. 4). В шестнадцатеричной системе код будет 34 35, в двоичной системе – 00110100 00110101, что потребует 2 байта.

Рис. 5. Таблица кодов ASCII (фрагмент)

1.2.8. Кодирование графической информации

Представление о цвете в компьютере

Графические данные – это различного рода графики, диаграммы, схемы, рисунки и т.д. Любое графическое изображение можно представить как некоторую композицию цветовых областей. Цвет определяет свойство видимых предметов, непосредственно воспринимаемое глазом.

В компьютерной промышленности в основе отображения любого цвета лежат три так называемых первичных цвета: синий, зеленый, красный. Для их обозначения используется аббревиатура RGB (Red - Green - Blue).

Все цвета, встречающиеся в природе, можно создавать, смешивая и варьируя интенсивность (яркость) этих трех цветов. Смесь, состоящая из 100% каждого цвета, дает белый цвет. Смесь 0% от каждого цвета дает черный цвет.

Искусство воспроизведения цвета в компьютере путем сложения в различных пропорциях трех первичных RGB цветов называется аддитивным смешением.

Человеческий глаз может воспринимать огромное количество цветов. Монитор и принтер в состоянии воспроизводить лишь ограниченную часть этого диапазона.

В связи с необходимостью описания различных физических процессов воспроизведения цвета в компьютере, были разработаны различные цветовые модели. Диапазон воспроизводимых цветов и способ их отображения для монитора и принтера различны и зависит от используемых цветовых моделей.

Цветовые модели описываются с помощью математического аппарата и позволяют представить различные цветовые оттенки путем смешивания нескольких основных цветов.

Цвета на экране монитора могут выглядеть иначе, чем при их выводе на печать. Это отличие обусловлено тем, что для вывода на печать применяются иные, нежели для монитора цветовые модели.

Среди цветовых моделей наиболее известны модели RGB, CMYK, HSB, LAB.

Модель RGB

Модель RGB называют аддитивной, поскольку по мере увеличения яркости составляющих цветов увеличивается яркость результирующего цвета.

Цветовая модель RGB обычно используется для описания цветов, отображаемых мониторами, получаемых сканерами и цветовыми фильтрами. Для отображения цветовой гаммы на печатающем устройстве она не используется.

Цвет в модели RGВ представляется как сумма трех базовых цветов – красного (Red), зеленого (Green) и синего (Blue) (рис. 6). RGB хорошо воспроизводит цвета в диапазоне от синего до зеленого и несколько хуже – желтые и оранжевые оттенки.

В модели RGB каждый базовый цвет характеризуется яркостью (интенсивностью), которая может принимать 256 дискретных значений от 0 до 255. Поэтому можно смешивать цвета в различных пропорциях, варьируя яркость каждой составляющей. Таким образом, можно получить

256x256x256 = 16 777 216 цветов.

Каждому цвету можно сопоставить код, который содержит значения яркости трех составляющих. Используются десятичное и шестнадцатеричное представления кода.

Рис. 6. Комбинации базовых цветов модели RGB

Десятичное представление – это три группы из трех десятичных чисел, разделенных запятыми, например, 245,155,212. Первое число соответствует яркости красной составляющей, второе – зеленой, а третье – синей.

Код цвета в шестнадцатеричном представлении имеет вид 0хХХХХХХ. Префикс 0х указывает на то, что мы имеем дело с шестнадцатеричным числом. За префиксом следуют шесть шестнадцатеричных цифр (0, 1, 2,...,9, А, В, С, D, E, F). Первые две цифры – шестнадцатеричное число, представляющее яркость красной составляющей, вторая и третья пары соответствуют яркости зеленой и синей составляющих.

Пример 20

Максимальная яркость базовых цветов позволяет отобразить белый цвет. Этому соответствует в десятичном представлении код 255,255,255, а в шестнадцатеричном представлении – код 0xFFFFFF.

Минимальная яркость (или) соответствует черному цвету. Этому соответствует в десятичном представлении код 0,0,0, а в шестнадцатеричном представлении код 0x000000.

Смешение красного, зеленого и синего цветов с различными, но одинаковыми яркостями дает шкалу из 256 оттенков (градаций) серого цвета – от черного до белого. Изображения в оттенках серого еще называют полутоновыми изображениями.

Поскольку яркость каждой из базовых составляющих цвета может принимать только 256 целочисленных значений, каждое значение можно представить 8-разрядным двоичным числом (последовательностью из 8 нулей и единиц, () т.е. одним байтом. Таким образом, в модели RGB информация о каждом цвете требует 3 байта (по одному байту на каждый базовый цвет) или 24 бита памяти для хранения. Поскольку все оттенки серого цвета образуются смешением трех составляющих одинаковой яркости, то для представления любого из 256 оттенков серого требуется лишь 1 байт.

Модель CMYK

Модель CMYK описывает смешение красок на печатающем устройстве. В этой модели используются три базовых цвета: голубой (Cyan), пурпурный (Magenta) и желтый (Yellow). Кроме того, применяется черный цвет (blacK) (рис. 7). Прописные буквы, выделенные в словах, составляют аббревиатуру палитры.

Рис. 7. Комбинации базовых цветов модели CMYK

Каждый из трех базовых цветов модели CMYK получается в результате вычитания из белого цвета одного из базовых цветов модели RGB. Так, например, голубой (cyan) получается вычитанием красного из белого, а желтый (yellow) – вычитанием синего. Напомним, что в модели RGB белый цвет представляется как смесь красного, зеленого и синего максимальной яркости. Тогда базовые цвета модели CMYK можно представить с помощью формул вычитания базовых цветов модели RGB следующим образом:

Cyan = RGB - R = GB = (0,255,255)

Yellow = RGB - В = RG = (255,255,0)

Magenta = RGB - G = RB = (255,0,255)

В связи с тем, что базовые цвета CMYK получаются путем вычитания из белого базовых цветов RGB, их называют субтрактивными.

Базовые цвета модели CMYK являются яркими цветами и не вполне годятся для воспроизведения темных цветов. Так, при их смешивании на практике получается не чисто черный, а грязно-коричневый цвет. Поэтому в цветовую модель CMYK включен еще и чистый черный цвет, который используется для создания темных оттенков, а также для печати черных элементов изображения.

Краски субтрактивной модели CMYK не являются столь чистыми, как цвета аддитивной модели RGB.

Не все цвета модели CMYK могут быть представлены в модели RGB и наоборот. В количественном отношении цветовой диапазон CMYK меньше цветового диапазона RGB. Это обстоятельство имеет принципиальное значение, а не обусловлено только физическими особенностями монитора или печатающего устройства.

Модель HSB

Модель HSB основана на трех параметрах: Н – оттенок или тон (Hue), S – насыщенность (Saturation) и В – яркость (Brightness). Она является вариантом модели RGB и также основана на использовании базовых цветов.

Из всех используемых в настоящее время моделей эта модель наиболее точно соответствует способу восприятия цвета человеческим глазом. Она позволяет описывать цвета интуитивно ясным способом. Часто используются художниками.

В модели HSB насыщенность характеризует чистоту цвета. Нулевая насыщенность соответствует серому цвету, а максимальная насыщенность – наиболее яркому варианту данного цвета. Яркость понимается как степень освещенности.

Графически модель HSB можно представить в виде кольца, вдоль которого располагаются оттенки цветов (рис. 8).

Рис. 8. Графическое представление модели HSB

Модель Lab

Модель Lab используется для печатающего устройства. Она более совершенна, чем модель CMYK, где не хватает очень многих оттенков. Графическое представление модели Lab представлено на рис. 9.

Рис. 9. Графическое представление модели Lab

Модель Lab основана на трех параметрах: L - яркость (Luminosity) и два цветовых параметра - а и b. Параметр а содержит цвета от темно-зеленого через серый до ярко-розового. Параметр b содержит цвета от светло-синего через серый до ярко-желтого.

Кодирование графической информации

Графические изображения хранятся в файлах графических форматов.

Изображения представляют собой совокупность графических элементов (picture element) или, сокращенно, пикселов (pixel). Для того, чтобы описать изображение, необходимо определить способ описания одного пиксела.

Описание цвета пиксела является, по существу, кодом цвета в соответствии с той или иной цветовой моделью. Цвет пиксела описывается несколькими числами. Эти числа еще называют каналами. В случае моделей RGB, CMYK и Lab эти каналы называют также цветовыми каналами.

В компьютере количество бит, отводимое на каждый пиксел для представления цветовой информации, называют цветовой глубиной (color depth) или битовой глубиной цвета (bit depth). Цветовая глубина определяет, как много цветов может быть представлено пикселом. Чем больше цветовая глубина, тем больше объем файла, содержащего описание изображения.

Пример 21

Если цветовая глубина равна 1 бит, то пиксел может представлять только один из двух возможных цветов – белый или черный. Если цветовая глубина равна 8 бит, то количество возможных цветов равно 2. При глубине цвета 24 бит количество цветов превышает 16 млн.

Изображения в системах RGB, CMYK, Lab и оттенках серого (gray scale) обычно содержат 8 бит на один цветовой канал. Поскольку в RGB и Lab три цветовых канала, глубина цвета в этих режимах равна 8?3 = 24. В CMYK четыре канала и поэтому цветовая глубина равна 8?4 = 32. В полутоновых изображениях только один канал, следовательно, его цветовая глубина равна 8.

Форматы графических файлов

Формат графического файла связан с методом кодирования графического изображения.

В настоящее время существует более двух десятков форматов графических файлов, например, BMP, GIF, TIFF, JPEG, PCX, WMF и др. Есть файлы, которые кроме статических изображений, могут содержать анимационные клипы и/или звук, например, GIF, PNG, AVI, SWF, MPEG, MOV и др. Важной характеристикой этих файлов является способность представлять содержащиеся в них данные в сжатом виде.

Формат ВМР (Bit Map Picture – Windows Device Independent Bitmap) – формат Windows, он поддерживается всеми графическими редакторами, работающими под ее управлением. Применяется для хранения растровых изображений, предназначенных для использования в Windows. Способен хранить как индексированный (до 256 цветов), так и RGB-цвет (16 млн. оттенков).

Формат GIF (Graphics Interchange Format) – формат графического обмена использует алгоритм сжатия информации без потерь LZW и предназначен для сохранения растровых изображений с количеством цветов не более 256.

Формат PNG (Portable Network Graphics) – формат переносимой графики для сети был разработан с целью заменить формат GIF. Формат PNG позволяет сохранять изображения с глубиной цвета 24 и даже 48 бит, он также позволяет включать каналы масок для управления градиентной прозрачностью, но не поддерживает слои. PNG не сжимает изображения с потерей качества подобно JPEG.

Формат JPEG (Joint Photographic Experts Group) – формат объединенной группы экспертов по фотографии предназначен для компактного хранения многоцветных изображений с фотографическим качеством. Файлы этого формата имеют расширение jpg, jpe или jpeg.

В отличие от GIF, в формате JPEG используется алгоритм сжатия с потерями информации, благодаря чему достигается очень большая степень сжатия (от единиц до сотен раз).

1.2.9. Кодирование звуковой информации

Представление о звуке

С начала 90-х годов персональные компьютеры получили возможность работать со звуковой информацией. Каждый компьютер, имеющий звуковую плату, микрофон и колонки, может записывать, сохранять и воспроизводить звуковую информацию.

Звук представляет собой звуковую волну с непрерывно меняющейся амплитудой и частотой (рис. 10).

Рис. 10. Звуковая волна

Чем больше амплитуда сигнала, тем он громче для человека, чем больше частота (Т) сигнала, тем выше тон. Частота звуковой волны выражается в Герцах (Гц, Hz) или числом колебаний в секунду. Человеческое ухо воспринимает звуки в диапазоне (примерно) от 20 Гц до 20 кГц, который так и называется – звуковой диапазон частот.

Характеристики качества звука

"Глубина" кодирования звука - количество бит на один звуковой сигнал.

Современные звуковые карты обеспечивают 16, 32 или 64-битную "глубину" кодирования звука. Количество уровней (градаций амплитуды) можно рассчитать по формуле

Уровней сигнала (градаций амплитуды)

Частота дискретизации – это количество измерений уровней сигнала за 1 секунду

Одно измерение в 1 секунду соответствует частоте 1 Гц

1000 измерений в 1 секунду - 1 кГц

Количество измерений может лежать в диапазоне от 8000 до 48 000 (8 кГц – 48 кГц)

8 кГц соответствует частоте радиотрансляции,

48 кГц – качеству звучания аудио- CD.

Методы кодирования звуковой информации

Для того чтобы компьютер мог обрабатывать непрерывный звуковой сигнал, он должен быть превращен в последовательность электрических импульсов (двоичных нулей и единиц). Однако в отличие от числовых, текстовых и графических данных, у звукозаписей не было столь же длительной и проверенной истории кодирования. В итоге методы кодирования звуковой информации двоичным кодом далеки от стандартизации. Множество отдельных компаний разработали свои корпоративные стандарты, но если говорить обобщенно, то можно выделить два основных направления.

Метод FM (Frequency Modulation) основан на том, что теоретически любой сложный звук можно разложить на последовательность простейших гармонических сигналов разных частот, каждый из которых представляет собой правильную синусоиду, а, следовательно, может быть описан числовыми параметрами, то есть кодом. В природе звуковые сигналы имеют непрерывный спектр, то есть являются аналоговыми. Их разложение в гармонические ряды и представление в виде дискретных цифровых сигналов выполняют специальные устройства – аналогово-цифровые преобразователи (АЦП). Обратное преобразование для воспроизведения звука, закодированного числовым кодом, выполняют цифро-аналоговые преобразователи (ЦАП). Процесс преобразования звука представлен на рисунке 11.

Рис. 11. Процесс преобразования звука

При таких преобразованиях неизбежны потери информации, связанные с методом кодирования, поэтому качество звукозаписи обычно получается не вполне удовлетворительным. В то же время данный метод кодирования обеспечивает компактный код, и потому он нашел применение еще в те годы, когда ресурсы средств вычислительной техники были явно недостаточны.

Метод таблично-волнового (Wave-Table) синтеза лучше соответствует современному уровню развития техники. Если говорить упрощенно, то можно сказать, что где-то в заранее подготовленных таблицах хранятся образцы звуков для множества различных музыкальных инструментов (хотя не только для них). В технике такие образцы называют сэмплами. Числовые коды выражают тип инструмента, номер его модели, высоту тона, продолжительность и интенсивность звука, динамику его изменения, некоторые параметры среды, в которой происходит звучание, а также прочие параметры, характеризующие особенности звука. Поскольку в качестве образцов используются "реальные" звуки, то качество звука, полученного в результате синтеза, получается очень высоким и приближается к качеству звучания реальных музыкальных инструментов.

Основные форматы звуковых файлов

Формат MIDI (Musical Instrument Digital Interface) – цифровой интерфейс музыкальных инструментов. Создан в 1982 году ведущими производителями электронных музыкальных инструментов – Yamaha, Roland, Korg, E-mu и др. Изначально был предназначен для замены принятого в то время управления музыкальными инструментами при помощи аналоговых сигналов управлением при помощи информационных сообщений, передаваемых по цифровому интерфейсу. Впоследствии стал стандартом де-факто в области электронных музыкальных инструментов и компьютерных модулей синтеза.

Формат аудио-файла WAV, представляющий произвольный звук как он есть – в виде цифрового представления исходного звукового колебания или звуковой волны (wave), отчего в ряде случаев технология создания таких файлов, именуется wave-технологией. Позволяет работать со звуками любого вида, любой формы и длительности.

Графическое представление WAV-файла очень удобно и часто используется в звуковых редакторах и программах-секвенсорах для работы с ними и последующего преобразования (об этом речь пойдет в следующей главе). Данный формат был разработан компанией Microsoft, и все стандартные звуки Windows имеют расширение WAV.

Формат MP3. Это один из цифровых форматов хранения аудио, разработанный Fraunhofer IIS и THOMPSON (1992г.), позднее утвержденный как часть стандартов сжатого видео и аудио MPEG1 и MPEG2. Данная схема является самой сложной из семейства MPEG Layer 1/2/3. Она требует больших затрат машинного времени для кодирования по сравнению с остальными и обеспечивает более высокое качество кодирования. Используется главным образом для передачи аудио в реальном времени по сетевым каналам и для кодирования CD Audio.

1.2.10. Кодирование видео информации

Принципы кодирования видео информации

Video в переводе с латыни означает «смотрю, вижу». Когда говорят о видео, прежде всего, имеют ввиду движущееся изображение на экране телевизора или компьютерного монитора.

Видеокамера преобразует оптическое изображение передаваемой сцены в последовательность электрических сигналов. Эти сигналы несут информацию о яркости и цветности отдельных участков изображения. С целью сохранения для последующего воспроизведения они могут быть записаны на магнитную ленту в аналоговой или цифровой форме.

При аналоговой записи изменения намагниченности видеоленты аналогичны форме световой или звуковой волны. Аналоговые сигналы, в отличие от цифровых, являются непрерывными во времени.

Цифровой сигнал представляет собой последовательность кодовых комбинаций электрических импульсов.

Информация, представленная в цифровом виде, измеряется в битах. Процесс превращения непрерывного сигнала в набор кодовых слов называется аналого-цифровым преобразованием.

Аналогово-цифровое преобразование сигнала проходит в три этапа. На этапе дискретизации (рис. 12) происходит представление непрерывного сигнала последовательностью отсчётов его мгновенных значений. Эти отсчёты берутся через равные промежутки времени.

Рис. 12. Дискретизация

Следующий этап – квантование (рис. 13). Весь диапазон значений сигнала делится на уровни. Величина каждого отсчёта заменяется округлённым значением ближайшего уровня квантования, его порядковым номером

Рис. 13. Уровневое квантование

Кодирование завершает процесс оцифровки аналогового сигнала (рис. 14), который теперь имеет конечное число значений. Каждое значение соответствует порядковому номеру уровня квантования. Этот номер выражается в двоичных единицах. В пределах одного интервала дискретизации передаётся одно кодовое слово.

Рис. 14. Цифровое кодирование

Таким образом, информация об изображении, представленная в цифровом виде, может быть передана на жёсткий диск компьютера для последующей обработки и монтажа без каких-либо дополнительных преобразований.

Компьютерное видео характеризуется следующими параметрами:

количество кадров в секунду (15, 24, 25...);

поток данных (килобайт/с);

формат файла (avi, mov...);

способ сжатия (Microsoft Video for Windows, MPEG, MPEG-I, MPEG-2, Moution JPEG).

Форматы видео информации

формат AVI – формат несжатого видео, создаваемый при оцифровке изображения. Это наиболее ресурсоемкий формат, но при этом при оцифровке в него потеря данных минимальна. Поэтому он предоставляет больше возможностей для редактирования, накладки эффектов и любой другой обработки файлов. Однако следует учитывать, что в среднем одна секунда цифруемого изображения занимает 1,5–2 Mбайт на жестком диске.

формат MPEG – сокращение названия экспертной группы ISO (Moving Picture Expert Group), которая занимается разработкой стандартов кодирования и сжатия видео- и аудиоданных. На сегодняшний день известно несколько разновидностей форматов MPEG.

MPEG-1 – для записи синхронизированных видеоизображения и звукового сопровождения на CD-ROM с учетом максимальной скорости считывания около 1,5 Мбит/с. Качественные параметры видеоданных, обработанных MPEG-1, во многом аналогичны обычному VHS-видео, поэтому такой формат применяется, в первую очередь, там, где неудобно или непрактично использовать стандартные аналоговые видеоносители;

MPEG-2 – для обработки видеоизображения, соизмеримого по качеству с телевизионным, при пропускной способности системы передачи данных в пределах от 3 до 15 Мбит/с. На технологиях, основанных на MPEG-2, работают многие телеканалы; сигнал, сжатый в соответствии с этим стандартом, транслируется через телевизионные спутники и используется для архивации больших объемов видеоматериала;

MPEG-3 – для использования в системах телевидения высокой четкости (high-defenition television, HDTV) со скоростью потока данных 20–40 Мбит/с; но позже он стал частью стандарта MPEG-2 и отдельно теперь не используется;

MPEG-4 – для работы с цифровым представлением медиаданных для трех областей: интерактивного мультимедиа (включая продукты, распространяемые на оптических дисках и через Сеть), графических приложений (синтетического контента) и цифрового телевидения

Справочные сведения о представлении чисел в компьютере приведены в таблице (таблица 5).

1.2.11. Таблица 5. Представление числовой, текстовой, графической информации в компьютере

Выводы

В данной теме рассмотрено понятие информации и различные способы ее кодирования в компьютере.

Показаны различия информации и данных. Введено понятие адекватности информации и представлены основные ее формы: синтаксическая, семантическая и прагматическая. Для этих форм приведены меры количественной и качественной оценки. Рассмотрены основные свойства информации: репрезентативность, содержательность, достаточность, актуальность, своевременность, точность, достоверность, устойчивость. Информационный процесс представлен как совокупность основных этапов преобразования информации.

Большое внимание в теме уделено вопросам кодирования разного вида информации в компьютере. Приведены основные форматы представления в компьютере числовой, текстовой, графической, звуковой и видео информации. Указаны особенности рассматриваемых форматов в зависимости от вида информации.

Вопросы для самопроверки

В чем различие информации и данных?
Что такое адекватность и в каких формах она проявляется?
Какие существуют меры информации и когда ими надо пользоваться?
Расскажите о синтаксической мере информации.
Расскажите о семантической мере информации.
Расскажите о прагматической мере информации.
Какие существуют показатели качества информации?
Что такое система кодирования информации?
Как можно представить информационный процесс?
Что такое система кодирования и чем она характеризуется?
Какие известны системы счисления и в чем их отличие?
Какие системы счисления применяются в компьютере?
Каким соотношением можно представить число в позиционной системе счисления?
Какие формы представления чисел применяются в компьютере и в чем их отличие?
Приведите на примерах форматы представления чисел для форм с фиксированной и плавающей запятой.
Как осуществляется перевод из любой позиционной системы счисления в десятичную систему счисления? Приведите примеры.
Как осуществляется перевод целого числа из десятичной в другую позиционную систему счисления? Приведите примеры.
Как кодируется текстовая информация? Приведите примеры.
В чем суть кодирования графической информации?
Расскажите о модели RGB кодирования графической информации.
Когда применяется модель кодирования CMYK графической информации? В чем ее отличие от модели RGB?
Какие вы знаете форматы представления в компьютере графической информации и их особенности?

Аннотация

Презентации

Название презентации	Аннотация
Презентация

Единицы количества информации, определяемые в рамках вероятностного и объемного подходов, представляют собой разновидности синтаксической меры информации, используемой при наиболее общем подходе, когда предметом рассмотрения является не только информация в узком смысле (например, обрабатываемая компьютером), но все ее виды, включая социальную.

Синтаксическая мера оперирует с обезличенной информацией, не выражающей смыслового отношения к объекту. Объем данных в информационном сообщении измеряется количеством символов (разрядов). В различных системах счисления разряды имеют различный вес, соответственно меняются единицы измерения данных. Примерами могут служить бит, нат, трит, дит. В рамках вероятностного подхода синтаксическая мера количества информации определяется степенью изменения неопределенности состояния системы, в рамках объемного подхода характеризует объем информации.

Семантическая мера используется для характеристики информации с точки зрения ее смысла. Семантический анализ дает возможность раскрыть содержание информации и показать отношения между смысловыми значениями составляющих ее элементов. В сочетании с понятием «тезаурус» семантическая мера называется тезаурусной мерой информации. Тезаурусная мера была предложена Ю.И.Шнейдером и получила широкое распространение. Тезаурус – это совокупность сведений, которыми располагает пользователь или система. Другое определение, не противоречащее первому: тезаурус – полнота систематизированного набора данных о предмете информации. В ходе информационного процесса в зависимости от соотношений между смысловым содержанием информации и тезаурусом пользователя изменяется количество семантической информации, воспринимаемой пользователем и включаемой им в дальнейшем в свой тезаурус. Максимальное количество семантической информации пользователь получает, когда информация ему понятна и несет ранее неизвестные ему (отсутствующие в тезаурусе) сведения. Приобретенное в ходе информационного процесса количество семантической информации является величиной относительной, так как одно и то же сообщение может иметь смысловое содержание для компетентного пользователя и быть бессмысленным (семантический шум) для некомпетентного. Мерой семантической информации может служить коэффициент содержательности, определяемый как отношение количества семантической информации к общему ее объему.

Прагматическая мера характеризует полезность (ценность) информации для достижения пользователем поставленной цели. Эта мера также является относительной величиной, зависящей от конкретных потребностей пользователя и условий протекания информационного процесса. В технической системе прагматические свойства информации определяют возможность улучшения качества функционирования системы.

Формы представления информации в ЭВМ. Системы счисления

В физической основе работы вычислительной техники лежит генерация, обработка и передача электрических сигналов. Электрические сигналы разделяют на аналоговые (непрерывные) и цифровые (дискретные). В вычислительной технике применяют цифровые сигналы. Каждому уровню напряжения (тока) ставят в соответствие определённую цифру. Соотнесение параметров электрического сигнала с цифрами отражает связь между техникой и математикой. Современные ЭВМ базируются на двоичной системе счисления, в которой имеются только две цифры – 0 и 1. Выбор в пользу этой системы обусловлен тем, что технически реализовать её проще, чем привычную для человека десятичную систему счисления.

Основной элемент электроники ЭВМ – транзистор, работающий в ключевом режиме . В этом режиме транзистор в зависимости от приложенного к нему напряжения реализует по принципу ключа два логических состояния: открыт ‑ закрыт или включён ‑ выключен. Два этих состояния сопоставляют 0 и 1 двоичной системы счисления - тем математическим объектам, с помощью которых кодируется любая информация, обрабатываемая компьютером. На уровне характеристик электрического сигнала «нулю» может, например, соответствовать напряжение минус 5 вольт, а «единице» - плюс 5 вольт. Или – 15 В и + 15 В. Абсолютные значения напряжений, которым сопоставлены логические состояния 0 и 1, для программной обработки информации несущественны и определяются оптимальными условиями функционирования электронных плат. В устройствах хранения данных информационные «нули» и «единицы» могут быть реализованы иначе: например, на магнитном диске состояниям 0 и 1 соответствуют разные направления вектора намагниченности; в накопителях Flash – отсутствие или наличие электрического заряда в данной микроскопической области вещества; в микросхемах ОЗУ – незаряженный или заряженный конденсатор.

Итак, внутреннее представление любой информации в компьютере является двоичным. В программировании также используются восьмеричная и шестнадцатеричная системы счисления. Кроме того, поскольку пользователем компьютера является человек, важна связь упомянутых систем счисления с десятичной.

Система счисления – принятый способ записи чисел – характеризуется количеством цифр, с помощью которых можно выразить любое число. Все системы счисления можно разделить на два класса: позиционные и непозиционные . Позиционные системы счисления – те, в которых вес цифр зависит от их местоположения в записи числа. Количество цифр в позиционной системе называется основанием системы счисления . Ниже в одном блоке собраны важные определения, относящиеся к системам счисления.

Цифры – символы, используемые в записи числа и составляющие некоторый алфавит.

Число – некоторая величина, которая складывается из цифр по определённым правилам.

Система счисления – способ записи чисел с помощью цифр.

Позиционная система счисления – система счисления, в которой вес цифры зависит от ее местоположения в записи.

Разряд – позиция цифры в числе.

Основание – количество цифр, используемых для записи чисел.

В компьютерах используются позиционные системы счисления.

Системы счисления,

получившие наибольшее применение в вычислительной технике

Основание	Система счисления
	двоичная
	восьмеричная	0, 1, 2, 3, 4, 5, 6, 7
	десятичная	0, 1, 2, 3, 4, 5, 6, 7, 8, 9
	шестнадцатеричная	0, 1, 2, 3, 4, 5, 6, 7, 8, 9, A, B, C, D, E, F

Примером непозиционной системы счисления является римская. В этой системе используется 7 знаков (I, V, X, L, C, D, M), которые соответствуют следующим величинам: I – 1, V – 5, X – 10, L – 50, C – 100, D – 500, M – 1000. Обычно римскими числами пользуются при нумерации глав в книгах или веков в истории. Недостатком непозиционных систем счисления, исключающим возможность их использования в вычислительной технике, является отсутствие формальных правил записи чисел и, соответственно, невозможность выполнения арифметических действий над ними.

Рассмотрим представление числа в позиционной системе счисления. Начнём с простого примера. Пусть N – целое число. Оно может быть представлено краткой или развёрнутой записью. Краткая запись числа:

N = (a n a n -1 …a 1 a 0) p

Здесь a 0 , a 1 , … , a n -1 , a n – цифры, находящиеся соответственно на нулевой, первой, … , (n-1)-ой, n-ой позициях в записи числа. Нумерация позиций, или разрядов, начинается с нуля и идёт справа налево. 0 – это младший разряд числа, имеющий наименьший вес; n – старший разряд с наибольшим весом. Число p – это основание системы счисления.

Например, в числе N = (6874) 10 цифра 4 представляет нулевой разряд, 7 – первый разряд, 8 – второй разряд, 6 – третий разряд. Вес разрядов увеличивается справа налево, от единиц до тысяч: 4 единицы – 7 десятков – 8 сотен – 6 тысяч . 10 – основание системы счисления – указывает, что это число записано в привычной для человека десятичной системе счисления и читается как шесть тысяч восемьсот семьдесят четыре .

Число N может быть представлено развёрнутой записью:

N = a n p n + a n-1 p n-1 + … + a 1 p 1 + a 0 p 0

Здесь число N выражено в виде суммы, каждое слагаемое которой представляет произведение цифры на основание системы счисления, возведённое в степень, равную номеру позиции (разряду) этой цифры в числе:

цифра  (основание ) номер разряда

Возвращаясь к рассмотренному выше примеру, приведём развёрнутую запись числа N = (6874) 10:

(6874) 10 = 610 3 + 810 2 + 710 1 + 410 0 .

С развёрнутой формой записи числа связан универсальный способ перевода чисел из любой системы счисления в десятичную.

Например, требуется перевести шестнадцатеричное число (E7B) 16 в десятичную систему счисления.

Сначала нумеруем разряды числа – справа налево, от младшего разряда к старшим. Учитываем, что нумерация разрядов начинается с нуля.

Учтём соответствие цифр шестнадцатеричной и десятичной систем счисления: E – 14, B – 11. Тогда

Итак, задача решена: (E7B) 16 = (3707) 10 .

Аналогичным способом выполняется перевод дробных чисел. Цифры, расположенные справа от запятой, соответствуют разрядам с отрицательными номерами.

N = (a n a n-1 …a 1 a 0 ,a -1 a -2 …a -k) p

Рассмотрим перевод дробного восьмеричного числа (725,46) 8 в десятичную систему счисления.

Нумеруем разряды.

Произведём вычисления и получим результат в десятичной системе счисления.

(725,46) 8 = 78 2 + 28 1 + 58 0 + 48 -1 + 68 -2 = 448 + 16 + 5 + 4/8 + 6/64 =

448 + 16 + 5 + 0,5 + 0,09375 = 469,59375

Итак, (725,46) 8 = (469,59375) 10 .

Несколько сложнее выполняется перевод чисел из десятичной в иные системы счисления.

Методика основана на последовательном целочисленном делении с выделением остатков в качестве цифр искомого числа. Исходное число делят на основание системы счисления, в которую осуществляют перевод. Результатом целочисленного деления будет частное, представленное целым числом, и остаток. Этот остаток будет младшим разрядом искомого числа. Полученное на первом шаге частное снова делят на основание требуемой системы счисления, снова получают частное и остаток. Остаток сохраняют в качестве следующего разряда искомого числа. Деление продолжают до тех пор, пока очередное частное не окажется меньше основания требуемой системы счисления. Это частное будет старшим разрядом искомого числа. Из него и остатков, полученных на последнем и предыдущих шагах, формируют искомое число.

Разберём эту методику на примере. Пусть, требуется перевести число (894) 10 в семеричную систему счисления.

894: 7 = 127, остаток 5

127: 7 = 18, остаток 1

18: 7 = 2 , остаток 4

Последнее частное – 2 – меньше основания системы счисления, в которую осуществляется перевод, – 7. Теперь можно записать искомое число: (2415) 7 .

Итак, (894) 10 = (2415) 7 .

Логические основы ЭВМ

Алгебра логики. Логические высказывания

Предшественницей и составной частью алгебры, по правилам которой функционируют цифровые устройства ЭВМ, является алгебра логики. Эта алгебра оперирует логическими высказываниями, содержание которых можно оценить как соответствующее действительности (истина) или несоответствующее действительности (ложь).

Логическое высказывание – это повествовательное предложение, истинность или ложность которого можно оценить.

Примеры истинных высказываний: «вода – это жидкость», «после зимы наступит весна», «число 48 в 8 раз больше числа 6». Примеры ложных высказываний: «река Кама впадает в озеро Байкал», «воробей – это ястреб», «число 2 больше числа 3».

В первом предложении глагол употреблен в повелительном наклонении. Побудительное предложение не может быть логическим высказыванием.

Второе предложение не является логическим высказыванием ввиду абсурдности понятий «площадь отрезка» и «длина куба».

Третье предложение является вопросительным, поэтому оно также не может быть логическим высказыванием.

Логическим высказыванием, причем ложным, является четвертое предложение.

Первое предложение представляет собой логическое высказывание. Оно ложно, так как в реальности ближайшей к Солнцу планетой является Меркурий.

Второе предложение - не повествовательное, а восклицательное, поэтому оно не является логическим высказыванием.

Третье предложение могло бы быть логическим высказыванием, если бы содержащихся в нем сведений было достаточно, чтобы оценить его истинность или ложность. Однако невозможно судить о принадлежности числа X указанному интервалу, так как само это число неизвестно. Поэтому третье предложение также не является логическим высказыванием.

Булева алгебра. Основные логические операции

Логические устройства ЭВМ проектируются на основе математического аппарата булевой алгебры, названной в честь английского математика Джорджа Буля, сформулировавшего ее основные понятия и правила. Это алгебра двоичных переменных, констант и функций, принимающих только два значения – единица (в алгебре логики ей соответствует значение ИСТИНА) и ноль (в алгебре логики – ЛОЖЬ).

Основными операциями булевой алгебры являются инверсия , конъюнкция , дизъюнкция . Их русские названия – соответственно отрицание , логическое умножение , логическое сложение . Иначе - операции НЕ , И , ИЛИ .

Обозначения логических операций булевой алгебры

A и B – логические высказывания.

Для наглядного представления и выполнения логических вычислений используют таблицы истинности.

Ниже приведены таблицы истинности основных логических операций.

Инверсия

Инверсия – функция одного аргумента, которым является логическое высказывание A. Если A ложно, то Ā истинно, и наоборот.

Конъюнкция и дизъюнкция

Конъюнкция и дизъюнкция – функции двух и более аргументов. Их результатом является сложное (составное) логическое высказывание, которое в зависимости от значений аргументов функции принимает значение 1 или 0. Таблица истинности должна включать все возможные комбинации значений аргументов – простых или сложных логических высказываний. Всего таких комбинаций 2 n , где n – число аргументов. В простейшем случае, когда оперируем двумя логическими высказываниями A и B, таблицы истинности выглядят следующим образом.

Конъюнкция Дизъюнкция

Аргументы	Результат	Аргументы	Результат

Для произвольного числа аргументов верны два правила.

1. Если среди аргументов конъюнкции есть хотя бы один, который всегда принимает значение 0 (ЛОЖЬ), то результат конъюнкции вне зависимости от значений других аргументов тоже 0 (ЛОЖЬ).

2. Если среди аргументов дизъюнкции есть хотя бы один, который всегда принимает значение 1 (ИСТИНА), то результат дизъюнкции вне зависимости от значений других аргументов тоже 1 (ИСТИНА).

Приведенные таблицы истинности подтверждают эти правила.

Некоторые высказывания обычного человеческого языка можно сопоставлять логическим функциям. Например, высказывание «Для получения отличной оценки на экзамене требуется как наличие зачета по практике, так и хорошее знание теоретического материала» соответствует конъюнкции. Высказывание «Чтобы кожа приобрела загар, надо несколько дней провести на пляже при жарком солнце или несколько раз посетить солярий» представляет дизъюнкцию. Еще пример дизъюнкции: «Чтобы похудеть, надо больше работать физически и меньше есть.» Проиллюстрируем последнее высказывание таблицей истинности.

Высказываниям, представляющим конъюнкцию, обычно соответствуют конструкции «A и B », «как A ,так и B », «A вместе с B »; представляющим дизъюнкцию – «A или B ». Могут быть исключения: пример – разобранное в конце предыдущей страницы предложение.

Конструкциям типа «или A ,или B », «A либо B », «либо A ,либо B » соответствует функция, называемаястрогой дизъюнкцией . Ее отличие от обычной дизъюнкции заключается в том, что она равна 1 только в том случае, когда значения ее аргументов различны. Обозначение строгой дизъюнкции –A  B, другие ее названия –неравнозначность ,исключающее ИЛИ (XORв языках программирования),сложение по модулю 2 . Ниже приведена таблица истинности строгой дизъюнкции.

Строгая дизъюнкция (неравнозначность)

В современной алгебре логики определены еще две основные операции – эквиваленция и импликация .

Эквиваленция (эквивалентность, равнозначность) – это функция, противоположная строгой дизъюнкции. Она принимает значение ИСТИНА тогда, когда все ее аргументы либо истинны, либо ложны. Ее обозначение: A  B.

Эквиваленция (равнозначность)

Импликация – функция двух логических аргументов. Ее обозначение: A  B. Таблица истинности функции «импликация» выглядит следующим образом.

Импликация

Импликация может быть выражена через основные операции булевой алгебры: A  B = A  B.

В языках программирования эквиваленции соответствует функция EQV, импликации – IMP.

Функции «эквиваленция» и «импликация» также могут быть соотнесены с отдельными высказываниями русского языка. Эквиваленции соответствуют высказывания типа: «A эквивалентно B » ; «A тогда и только тогда, когда B » ; «A необходимо и достаточно для B ». Импликации соответствуют конструкции: «Если A , то B » ; «B , если A » ; «B необходимо для A » ; «A достаточно для B » ; «A только тогда, когда B » ; «B тогда, когда A » . Классическим примером импликации является фраза «Если идет дождь, то на небе тучи». Обозначим A = «Идет дождь», B = «На небе тучи» и составим таблицу истинности.


			«Дождь не идет, на небе нет туч» - ясный солнечный день, составное высказывание истинно
			«Дождь не идет, на небе тучи» - сухой пасмурный день, составное высказывание истинно
			«Идет дождь, на небе нет туч» - такого не бывает, составное высказывание ложно
			«Дождь идет, на небе тучи» - пасмурный дождливый день, составное высказывание истинно

Надо подчеркнуть, что формализация высказываний человеческого языка носит весьма ограниченный характер. Большинство фраз и предложений русского языка, как разговорного, так и литературного, вообще не являются высказываниями с точки зрения алгебры логики. Это связано с наличием множества нюансов письма и речи, которые невозможно охватить в рамках формальной логики, с эмоциональной окраской и субъективностью суждений, а также с непреложностью того факта, что в мире гораздо больше относительных истин, чем абсолютных. Поэтому эксперименты с соотнесением операций формальной логики с высказываниями человеческого языка применимы только к однозначно воспринимаемым предложениям, констатирующим самые общие и простые факты.

Итак, базисом современной алгебры логики являются пять основных логических операций: инверсия, конъюнкция, дизъюнкция, импликация, эквиваленция. Все остальные операции могут быть выражены комбинациями трех операций булевой алгебры: инверсии, конъюнкции и дизъюнкции.

При анализе сложных логических высказываний необходимо помнить о приоритете логических операций: при отсутствии скобок сначала выполняется отрицание, далее в порядке убывания приоритета идут конъюнкция, строгая дизъюнкция, дизъюнкция, импликация и в последнюю очередь – эквиваленция. Скобки могут изменить этот порядок.

В цифровой технике широкое распространение получили микросхемы, построенные на логических элементах И-НЕ и ИЛИ-НЕ. Технологически они реализуются наиболее просто. Предпринимались даже попытки построения компьютеров, состоящих только из этих элементов. С ними связаны еще две двоичные алгебры – алгебра Шеффера и алгебра Пирса. Операция И-НЕ носит название «штрих Шеффера», операция ИЛИ-НЕ – «стрелка Пирса». Обозначения: соответственно A  B и A  B. С позиций булевой алгебры обе эти операции составные.


A  B = A  B	A  B = A  B

Таблицы истинности этих функций:

Штрих Шеффера Стрелка Пирса

Аргументы	Результат	Аргументы	Результат

Обозначения в цифровой технике.