Если в результате получения сообщения достигнута полная ясность в данном вопросе (т.е. неопределенность исчезнет), говорят, что получена исчерпывающая информация. Это означает, что нет необходимости в дополнительной информации на эту тему. Напротив, если после получения сообщения неопределенность осталась прежней (сообщаемые сведения или уже были известны, или не относятся к делу), значит, информации получено не было (нулевая информация).

Бит – наименьшая единица представления информации. В информатике часто используется величина, называемая байтом (byte) и равная 8 битам.

Байт – наименьшая единица обработки и передачи информации.

Бит позволяет выбрать один вариант из двух возможных; байт, соответственно, 1 из 256 (2 8).

Наряду с байтами для измерения количества информации используются более крупные единицы:

1 Кбайт (один килобайт) = 2 10 байт = 1024 байт;

1 Мбайт (один мегабайт) = 2 10 Кбайт = 1024 Кбайт;

1 Гбайт (один гигабайт) = 2 10 Мбайт = 1024 Мбайт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

1 Терабайт (Тб) = 1024 Гбайт = 2 40 байта,

1 Петабайт (Пб) = 1024 Тбайт = 2 50 байта.

Пример . Упорядочите по возрастанию следующую последовательность:

1024 Мбайт, 11 Петабайт, 2224 Гбайт, 1 Терабайт.

Решение . Сначала приведем величины измерения количества информации к единой величине, удобной для данной последовательности. В данном случае – это Гбайт.

1024 Мбайт = 1 Гбайт, что меньше 1 Терабайт = 1024 Гбайт, что, в свою очередь меньше 2224 Гбайт и меньше 11 Петабайт,

Следовательно, последовательность, упорядоченная по возрастанию, имеет вид:

1024 Мбайт, 1 Терабайт, 2224 Гбайт, 11 Петабайт

II. Кодирование информации.

Компьютер может обрабатывать только информацию, представленную в числовой форме. Вся другая информация (тексты, звуки, изображения, показания приборов и т.д.) для обработки на компьютере должна быть преобразована в числовую форму.

Переход от одной формы представления информации к другой, более удобной для хранения, передачи или обработки, называется кодированием информации.

Кодирование – это операция преобразования знаков или групп знаков одной знаковой системы в знаки или группы знаков другой знаковой системы.

Как правило, все числа в компьютере представляются с помощью нулей и единиц, т.е. работа производится в двоичной системе счисления, поскольку при этом устройства для их обработки получаются значительно более простыми.

1. Кодирование текста.

При вводе в компьютер каждая буква кодируется определенным числом, а при выводе на внешние устройства (экран или печать) для восприятия человеком по этим числам строятся изображения букв. Соответствие между набором букв и числами называется кодировкой символов.

Алфавитный подход основан на том, что всякое сообщение можно закодировать с помощью конечной последовательности символов некоторого алфавита. Множество символов, используемых при записи текста, называется алфавитом . Количество символов в алфавите называется его мощностью .

Существует двоичный алфавит, который содержит только 2 символа, и его мощность равна двум.

Для представления текстовой информации в компьютере чаще всего используется алфавит мощностью 256 символов. Один символ из такого алфавита несет 8 бит информации, т.к. 2 8 = 256.

8 бит составляют один байт, следовательно, двоичный код каждого символа занимает 1 байт памяти ЭВМ. Традиционно для кодирования одного символа используется количество информации, равное 1 байту (8 битам). Все символы такого алфавита пронумерованы от 0 до 255, а каждому номеру соответствует 8-разрядный двоичный код от 00000000 до 11111111.

Для разных типов ЭВМ и операционных систем используются различные таблицы кодировки, отличающиеся порядком размещения символов алфавита в кодовой таблице. Международным стандартом на персональных компьютерах является таблица кодировки ASCII. Сообщения, записанные с помощью символов ASCII, используют алфавит из 256 символов.

Кроме того, в настоящее время существует еще ряд кодовых таблиц для русских букв. К ним относится таблица кодировки КОИ8, использующая алфавит из 256 символов.

Широкое распространение получил новый международный стандарт UNICODE, который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не 256 символов, а 2 16 = 65536 различных символов.

Информативность последовательности символов не зависит от содержания сообщения.

Чтобы определить объем информации в сообщении при алфавитном подходе, нужно последовательно решить задачи:

    Определить количество информации (i) в одном символе по формуле 2i = N, где N – мощность алфавита,

    Определить количество символов в сообщении, учитывая знаки препинания и пробелы (m),

    Вычислить объем информации по формуле: V = i * m.

Пример . Закодировано текстовое сообщение «Десять букв», определить его информационный объем по системе ASCII и UNICODE.

Решение . Сообщение содержит 11 символов. Один символ из алфавита ASCII несет 8 бит информации, поэтому информационный объем по системе ASCII составит 11*8 бит = 88 бита = 11 байт.

Один символ из алфавита UNICODE несет 16 бит информации или 2 байта, поэтому информационный объем по системе UNICODE составит 11*16 бит = 176 бит = 22 байта.

Для двоичного сообщения той же длины информационный объем составляет 11 бит, т.к. N = 2, i = 1 бит, m = 11, V = 11 бит.

Двоичный разряд, двоичное число по-английски Bi naryDigit . Из трех букв этих слов образовали звонкое словоbit , которое уже было в английском языке (bit– кусочек, кусок). В информатике оно имеет то же значение, что иBi naryDigit , но ему добавили и новый смысл.

Бит – единица информации и единица представления информации в компьютере.

Бит (один разряд двоичного числа) может принимать два значения: 0 или 1. В десятичных числах один разряд может принимать значения от 0 до 9. Если число одноразрядное (однобитовое), то 0 или 1 – это значение числа и цифры числа, которые в этом случае совпадают.

Поскольку компьютер может обрабатывать только двоичные числа, кодировать информацию можно только этими двоичными числами. В этом случае мы можем сказать, что азбука, используемая для кодирования информации, состоит из двух символов (чисел) 0 и 1.

Одноразрядным двоичным числом, т. е. одним битом, можно закодировать всего два символа, так как он принимает только два значения – 0 или 1. А десятичное одноразрядное число позволит нам закодировать 10 символов, ибо оно может иметь 10 значений – от 0 до 9.

Теперь используем для кодирования двухразрядные числа. Тогда в десятичной системе счисления можем использовать для кодирования числа от 0 до 99, т.е. 100 чисел. И закодировать можем 100 символов, в 10 раз больше, чем при кодировании одноразрядными числами.

Аналогичная закономерность имеет место и при увеличении разрядности двоичных чисел. Двухразрядным двоичным числом можем закодировать 4 символа, так как возможных чисел тоже 4: 00, 01, 10, 11, т. е. в два раза больше, чем одноразрядным. Можно проверить, что трехразрядным двоичным числом можно закодировать символов в 2 раза больше, чем двухразрядным. Обобщая эту закономерность, получаем простую формулу для определения количества символов S , которое можно закодироватьn – разрядными двоичными числами:

S = 2 n

Двоичное n -разрядное число, которое используется для кодирования информации в компьютере, называется байтом .

Из этого определения следует и другое определение байта:

Байт – единица обработки информации в компьютере, так как по значению байта можно узнать, какой символ им закодирован.

Если используются для кодирования другие n-разрядные двоичные числа, то они обязательно берутся кратными байту.

Байт сначала имел 6, затем 7 разрядов (битов), а теперь он равен 8-ми битам.

Одно из значений перевода английских слов bit и bite кусочек. Считая кусочек частью целого, бит, действительно, – часть двоичного числа. Если байтом кодируются буквы, символы, из которых строятся слова, то и байт выражает часть слова.

Байты используются также для измерения объема памяти, оперативной и внешней, размеров файлов. Но в этом случае применяются более крупные единицы измерений. Например, Килобайты (Кб), Мегабайты (Мб) Гигабайты (Гб), Терабайты (Тб):

1 Кб = 1024 байт = 2 10 байт

1 Мб = 1024 Кб= 2 10 Кб

1 Гб = 1024 Мб= 2 10 Мб

1 Тб = 1024 Гб= 2 10 Гб

Кодирование целых и действительных чисел

Целые числа кодируются двоичным кодом достаточно просто - достаточно взять целое число и делить его пополам до тех пор, пока в остатке не образуется ноль или единица. Полученный результат деления снова так же делить. И эту процедуру деления продолжаем до тех пор, пока результат деления не окажется меньше 2. Совокупность остатков от каждого деления, записанная справа налево вместе с последним остатком, и образует двоичный аналог десятичного числа.

19:2 = 9 + 1 9:2=4+1 4:2=2+0 2:2 = 1

Таким образом, 19 10 = 1011 2 .

Для кодирования целых чисел от 0 до 255 достаточно иметь 8 разрядов двоичного кода (8 бит). Шестнадцать бит позволяют закодировать целые числа от 0 до 65 535, а 24 бита - уже более 16,5 миллионов разных значений.

Для кодирования действительных чисел используют 80-разрядное кодирование. При этом число предварительно преобразуется в нормализованную форму:

3,1415926 = 0,31415926-10 1

300 000 = 0,3-10 6

123 456 789 = 0,123456789 10 1 /

Первая часть числа называется мантиссой, а вторая - характеристикой. Большую часть из 80 бит отводят для хранения мантиссы (вместе со знаком) и некоторое фиксированное количество разрядов отводят для хранения характеристики (тоже со знаком).

    Что понимается под битом информации?

    Дайте определение единицы измерения информации байта.

    Определите понятие разряда в байте.

    Перечислите производные единицы информации.

    Что такое мощность алфавита?

    По какой формуле можно вычислить размер алфавита?

    Какие существуют основные подходы к измерению информации?

    Запишите формулу, связывающую между собой количество событий с различными вероятностями и количество информации.

ПРИЛОЖЕНИЕ А

ПРИМЕРЫ ЗАДАЧ (С РЕШЕНИЯМИ)

Пример 1. После экзамена по информатике объявляют оценки («5», «4», «3» или «2»). Какое количество информации будет нести сообщение об оценке студента А, который выучил лишь половину билетов, и сообщение об оценке учащегося Б, который выучил все билеты.

Решение. Опыт показывает, что для учащегося А все четыре оценки (события) равновероятны и тогда количество информации, которое несет сообщение об оценке, можно вычислить по формуле Хартли:

I = Iog 2 4 = 2 бита.

В результате наблюдений, для студента В наиболее вероятной оценкой является «5» (р 1 = 1/2), вероятность оценки «4» в два раза меньше (р 2 = 1/4), а вероятности оценок «2» и «3» еще в два раза меньше (р 3 =p 4 =1/8). Так как данные события не являются равновероятными, для подсчета количества информации воспользуемся формулой Шеннона:

I = - (1/2·log 2 l/2+1/4·log 2 l/4+1/8·log 2 l/8+1/8·log 2 l/8)бит= 1,75 бит

(log 2 l/2=-1,log 2 l/4=-2,log 2 l/8=-3).

Ответ: 2 бита; 1,75 бит.

Пример 2. В барабане для розыгрыша лотереи находится 32 шара. Сколько информации содержит сообщение том, что выпал номер 17?

Решение. Поскольку вытаскивание любого из 32 шаров равновероятно, то количество информации об одном выпавшем номере находится из уравнения: 2 I =32. Так как 32=2 5 , тоI =5 бит. (Ответ не зависит от того, какой именно выпал номер).

Ответ: 5 бит.

Пример 3. Для регистрации на сайте пользователю требуется придумать пароль. Длина пароля – ровно 11 символов. В качестве символов используются десятичные цифры и 12 различных букв алфавита, причём все буквы используются в двух начертаниях: как строчные, так и заглавные (регистр буквы имеет значение).

Под хранение каждого такого пароля на компьютере отводится минимально возможное и одинаковое целое количество байтов, при этом используется посимвольное кодирование и все символы кодируются одинаковым и минимально возможным количеством битов.

Определите объём памяти, который занимает хранение 60 паролей (пароль должен занимать ЦЕЛОЕ число байт).

Решение.

    согласно условию, в пароле можно использовать 10 цифр (0...9) + 12 заглавных букв алфавита + 12 строчных букв, всего 10+12+12=34 символа;

    для кодирования 34 символов нужно выделить 6 бит памяти (5 бит не хватает, они позволяют закодировать только 2 5 =32 варианта);

    для хранения всех 11 символов пароля нужно 11*6 = 66 бит;

    поскольку пароль должен занимать целое число байт, берем ближайшее большее (точнее, не меньшее) значение, которое кратно 8: это 72= 9*8; то есть один пароль занимает 9 байт;

    следовательно, 60 паролей занимают 9*60 = 540 байт.

Ответ: 540 байт.

Пример 4. В базе данных хранятся записи, содержащие информацию о студентах:

<Фамилия> – 16 символов: русские буквы (первая прописная, остальные строчные);

<Имя> – 12 символов: русские буквы (первая прописная, остальные строчные);

<Отчество> – 16 символов: русские буквы (первая прописная, остальные строчные);

<Год рождения> – числа от 1960 до 1997.

Каждое поле записывается с использованием минимально возможного количества бит. Определите минимальное (целое) количество байт, необходимое для кодирования одной записи, если буквы е иё считаются совпадающими.

Решение.

    итак, нужно определить минимально возможные размеры в битах для каждого из четырех полей и сложить их;

    известно, что первые буквы имени, отчества и фамилии – всегда заглавные, поэтому можно хранить их в виде строчных и делать заглавными только при выводе на экран;

    таким образом, для символьных полей достаточно использовать алфавит из 32 символов (русские строчные буквы, «е» и «ё» совпадают, пробелы не нужны);

    для кодирования каждого символа 32-символьного алфавита нужно 5 бит (32=2 5), поэтому для хранения имени, отчества и фамилии нужно (16+12+16)*5=220 бит;

    для года рождения есть 38 вариантов, поэтому для него нужно отвести 6 бит (2 6 =64≥38);

    таким образом, всего требуется 226 бита или 29 байт.

Ответ: 29 байт.

Пример 5. Текст содержит 150 страниц; на каждой странице – 40 строк, в каждой строке – 60 символов (для записи текста использовался 256-символьный алфавит). Каков объем информации в Мбайтах содержится в документе?

Решение. Мощность алфавита равна 256 символов, поэтому один символ несет 1 байт информации. Значит, страница содержит 40·60 = 2400 байт информации. Объем всей информации в документе (в разных единицах):

2400·150 = 360 000 байт.

360000/1024 = 351,6 Кбайт.

351,5625/1024 = 0,3 Мбайт.

Ответ: 0,3 Мбайт.

Пример 6 . Какова мощность алфавита, с помощью которого записано сообщение, содержащее 2048 символов (страница текста), если его объем составляет 1,25 Кбайта?

Решение. Переведем информационное сообщение в биты:

1,25*1024*8=10240 бит.

Определим количество бит на один символ:

10240:2048=5 бит.

По формуле для мощности алфавита определим количество символов в алфавите:

N =2 i =2 5 =32 символа.

Ответ: 32 символа.

Лекция 2. Свойства информации. Количество информации. Понятие алгоритма.

Краткие итоги

В лекции были рассмотрены понятии информатика и информатизация. Описано как передается и в каком виде существует информация.

Контрольные вопросы

1. Что изучает Информатика?

2. Что понимается под информацией?

3. Что называется информационными процессами?

4. Дайте определение, что такое технические средства.

5. Дайте определение, что такое программное обеспечение и что оно в себя включает.

6. Что означает термин Brainware?

7. Дайте определение Информационным объектам.

8. Дайте примеры передачи сообщений.

9. Опишите процесс передачи сообщений.


Лекция 2. Свойства информации. Количество информации. Понятие алгоритма.

В лекции рассматривается общий смысл понятий алгоритма, количество информации, какими свойствами обладает информация. Понятия информатизация общества

Цель лекции: Понять, как измеряется количество информации. В лекции рассматривается понятия бита и байта информации.

Какими свойствами обладает информация?

Свойства информации:

Информация достоверна, если она отражает истинное положение дел. Недостоверная информация может привести к неправильному пониманию или принятию неправильных решений.

Достоверная информация со временем может стать недостоверной, так как она обладает свойством устаревать, то есть перестаёт отражать истинное положение дел.

Информация полна, если её достаточно для понимания и принятия решений. Как неполная, так и избыточная информация сдерживает принятие решений или может повлечь ошибки.

Точность информации определяется степенью ее близости к реальному состоянию объекта, процесса, явления и т.п.

Ценность информации зависит от того, насколько она важна для решения задачи, а также от того, насколько в дальнейшем она найдёт применение в каких-либо видах деятельности человека.

Только своевременно полученная информация может принести ожидаемую пользу. Одинаково нежелательны как преждевременная подача информации (когда она ещё не может быть усвоена), так и её задержка.

Если ценная и своевременная информация выражена непонятным образом, она может стать бесполезной.

Информация становится понятной, если она выражена языком, на котором говорят те, кому предназначена эта информация.

Информация должна преподноситься в доступной (по уровню восприятия) форме. Поэтому одни и те же вопросы по разному, излагаются в школьных учебниках и научных изданиях.

Информацию по одному и тому же вопросу можно изложить кратко (сжато, без несущественных деталей) или пространно (подробно, многословно). Краткость информации необходима в справочниках, энциклопедиях, учебниках, всевозможных инструкциях

Как измеряется количество информации?

Возможно, ли объективно измерить количество информации? На этот вопрос ученые до сих пор не могут дать точный ответ. Как, например можно измерить информацию, которая содержится в литературных произведениях Пушкина, Лермонтова, Достоевского. Важнейшим результатом теории информации является следующий вывод: В определенных, весьма широких условиях можно пренебречь качественными особенностями информации, выразить её количество числом, а также сравнить количество информации, содержащейся в различных группах данных.

В настоящее время получили распространение подходы к определению понятия «количество информации», основанные на том, что информацию, содержащуюся в сообщении, можно нестрого трактовать в смысле её новизны или, иначе, уменьшения неопределённости наших знаний об объекте. Эти подходы используют математические понятия вероятности и логарифма.

Допустим, нужно угадать одно число из набора чисел от единицы до ста. По формуле Хартли можно вычислить, какое количество информации для этого требуется: I = log 2 100  6,644. Таким образом, сообщение о верно угаданном числе содержит количество информации, приблизительно равное 6,644 единицы информации.

Приведем другие примеры равновероятных сообщений :

1. при бросании монеты: «выпала решка» , «выпал орел»;

2. на странице книги: «количество букв чётное» , «количество букв нечётное» .

Определим теперь, являются ли равновероятными сообщения "первой выйдет из дверей здания женщина" и "первым выйдет из дверей здания мужчина" . Однозначно ответить на этот вопрос нельзя. Все зависит от того, о каком именно здании идет речь. Если это, например, станция метро, то вероятность выйти из дверей первым одинакова для мужчины и женщины, а если это военная казарма, то для мужчины эта вероятность значительно выше, чем для женщины.

Для задач такого рода американский учёный Клод Шеннон предложил в 1948 г. другую формулу определения количества информации, учитывающую возможную неодинаковую вероятность сообщений в наборе.

Легко заметить, что если вероятности p 1 , ..., p N равны, то каждая из них равна 1 / N , и формула Шеннона превращается в формулу Хартли.

Помимо двух рассмотренных подходов к определению количества информации, существуют и другие. Важно помнить, что любые теоретические результаты применимы лишь к определённому кругу случаев, очерченному первоначальными допущениями.

В качестве единицы информации Клод Шеннон предложил принять один бит (англ . bit - binary digit - двоичная цифра).

Бит в теории информации - количество информации, необходимое для различения двух равновероятных сообщений (типа «орел»-«решка», «чет»-«нечет» и т.п.).

В вычислительной технике битом называют наименьшую "порцию" памяти компьютера, необходимую для хранения одного из двух знаков "0" и "1", используемых для внутримашинного представления данных и команд.

Бит - слишком мелкая единица измерения. На практике чаще применяется более крупная единица - байт , равная восьми битам. Именно восемь битов требуется для того, чтобы закодировать любой из 256 символов алфавита клавиатуры компьютера (256=2 8).



Широко используются также ещё более крупные производные единицы информации:

· 1 Килобайт (Кбайт) = 1024 байт = 210 байт,

· 1 Мегабайт (Мбайт) = 1024 Кбайт = 220 байт,

· 1 Гигабайт (Гбайт) = 1024 Мбайт = 230 байт.

В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как:

· 1 Терабайт (Тбайт) = 1024 Гбайт = 240 байт,

· 1 Петабайт (Пбайт) = 1024 Тбайт = 250 байт.

За единицу информации можно было бы выбрать количество информации, необходимое для различения, например, десяти равновероятных сообщений. Это будет не двоичная (бит ), а десятичная (дит ) единица информации.

При этом важно отличать двоичные кратные приставки от соответствующих десятичных:

«один К» – 1 К=210=1024 от «один кило» – 103=1000,

«один М» – 1 М=220=1048576 от «один мега» – 106=1000000 и т.д.

Этим часто злоупотребляют производители компьютерной техники, в частности, производители жестких магнитных дисков, которые при указании их информативной емкости используют меньшую единицу измерения с тем, чтобы результирующее значение выражалось большим числом (как в известном мультфильме – "А в попугаях-то я длиннее!").

Теоретический минимум

Информация относится к фундаментальным, неопределяемым понятиям науки информатика. Тем не менее, смысл этого понятия должен быть разъяснен. Предпримем попытку рассмотреть это понятие с различных позиций.
Термин информация происходит от латинского слова
informiatio , что означает сведения, разъяснения, изложение. В настоящее время наука пытается найти общие свойства и закономерности, присущие многогранному понятию информация, но пока это понятие во многом остается интуитивным и получает различные смысловые наполнения в различных отраслях человеческой деятельности:

    в быту информацией называют любые данные, сведения, знания, которые кого-либо интересуют. Например, сообщение о каких-либо событиях, о чьей-либо деятельности и т.п.;

    в технике под информацией понимают сообщения, передаваемые в форме знаков или сигналов (в этом случае есть источник сообщений, получатель (приемник) сообщений, канал связи);

    в кибернетике под информацией понимают ту часть знаний, которая используется для ориентирования, активного действия, управления, т.е. в целях сохранения, совершенствования, развития системы;

    в теории информации под информацией понимают сведения об объектах и явлениях окружающей среды, их параметрах, свойствах и состоянии, которые уменьшают степень неопределенности, неполноты имеющихся о них знаний.

Применительно к компьютерной обработке данных под информацией понимают некоторую последовательность символических обозначений (букв, цифр, закодированных графических образов и звуков и т.п.), несущую смысловую нагрузку и представленную в понятном компьютеру виде. Каждый новый символ в такой последовательности символов увеличивает информационный объем сообщения.

Информация может существовать в виде:

    текстов, рисунков, чертежей, фотографий;

    световых или звуковых сигналов;

    радиоволн;

    электрических и нервных импульсов;

    магнитных записей;

    жестов и мимики;

  • запахов и вкусовых ощущений;

    хромосом, посредством которых передаются по наследству признаки и свойства организмов.

Свойства информации (с точки зрения бытового подхода к определению информации):

релевантность - способность информации соответствовать нуждам (запросам) потребителя;

полнота - свойство информации исчерпывающе (для данного потребителя) характеризовать отображаемый объект или процесс;

своевременность - способность информации соответствовать нуждам потребителя в нужный момент времени;

достоверность - свойство информации не иметь скрытых ошибок. Достоверная информация со временем может стать недостоверной, если устареет и перестанет отражать истинное положение дел;

доступность - свойство информации, характеризующее возможность ее получения данным потребителем;

защищенность - свойство, характеризующее невозможность несанкционированного использования или изменения информации.

эргономичность - свойство, характеризующее удобство формы или объема информации с точки зрения данного потребителя.

1 бит - минимальная единица измерения информации. При вероятностном подходе к измерению информации это количество информации, уменьшающее неопределенность знаний в 2 раза.

Связь между единицами измерения информации:

1 байт = 8 бит;

1 Кб (килобайт) = 2 10 (1024) байт = 2 13 бит;

1 Мб (мегабайт) = 2 10 (1024) Кб *== 2 20 (1 048 576) байт = 2 23 бит;

1 Гб (гигабайт) = 2 10 Мб = 2 20 Кб = 2 30 байт = 2 33 бит;

1 Тб (терабайт) = 2 10 Гб = 2 20 Мб = 2 30 Кб = 2 40 байт = 2 43 бит.

При объемном подходе к измерению информации информативность сообщения определяется количеством символов, его составляющих.

Кодирование информации подразумевает преобразование знаков одной знаковой системы в знаки или группы знаков другой знаковой системы. Обратное преобразование называют декодированием.

Кодирующим отображением называется такое отображение F множества слов в некотором алфавите на множество слов в том же или каком-то другом фиксированном алфавите. Обычно исходное множество для кодирующего отображения F называется входным алфавитом, а результат отображения - выходным алфавитом.

Применение кодирующего отображения F к любому слову из входного алфавита называется кодированием, а само кодирующее отображение F - кодом. То есть код - это правило, по которому осуществляется кодирование.

При кодировании информации для представления ее в памяти ЭВМ используется двоичный способ, т.е. любая информация - будь то числа, текст, графическое изображение, звук или видео - представляется универсальным двоичным кодом. Алфавит этого кода составляют символы 0 и 1. Почему был выбран именно этот способ кодирования? В некоторых из первых ЭВМ предпринимались попытки внедрить десятичный или троичный код, но ни один из этих вариантов кодирования не дожил до современности. Причина проста: два существенно различных состояния, представляющих, соответственно, 0 или 1, технически реализовать значительно проще, чем три или десять. Действительно, отсутствие напряжения может обозначать 0, наличие - 1; отсутствие намагниченности участка носителя информации - 0, присутствие намагниченности - 1 и т.д. Поэтому другие варианты были просто изжиты. Каждая цифра машинного кода несет 1 бит информации.

Числовая информация была первым видом информации, который начали обрабатывать ЭВМ, и долгое время она оставалась единственным видом. Поэтому неудивительно, что в современном компьютере существует большое разнообразие типов чисел.

Целые числа. Целые числа могут представляться в компьютере со знаком или без знака.

Целые числа без знака. Обычно занимают в памяти компьютера один или два байта. В однобайтовом формате принимают значения от 00000000 2 до 11111111 2 . В двухбайтовом формате - от 00000000 00000000 2 до 11111111 11111111 2 .

Диапазоны значений целых чисел без знака

Формат числа в байтах

Диапазон

Запись с порядком

Обычная запись

0 ... 2 8 -1

0 ... 255

0 ... 2 16 -1

0 ... 65535

Целые числа со знаком. Обычно занимают в памяти компьютера один, два или четыре байта, при этом самый левый (старший) разряд содержит информацию о знаке числа.

Диапазоны значений целых чисел со знаком

Формат числа в байтах

Диапазон

Запись с порядком

Обычная запись

2 7 ... 2 7 -1

128 ... 127

2 15 ... 2 15 -1

32768 ... 32767

2 31 ... 2 31 -1

2147483648 ... 2147483647

Для того чтобы различать положительные и отрицательные числа, в их двоичном представлении выделяется знаковый разряд. По традиции используется самый старший (левый) бит, причем нулевое значение в нем соответствует знаку плюс, а единичное - минусу.

Из сказанного следует, что положительные числа представляют собой обычное двоичное изображение числа (с нулем в знаковом бите). А вот для записи отрицательных чисел используется специальный код, называемый в литературе дополнительным. Для практического получения кода отрицательных чисел используется следующий алгоритм:

модуль числа перевести в двоичную форму;

проинвертировать каждый разряд получившегося кода, т.е. заменить единицы нулями, а нули - единицами;

к полученному результату обычным образом прибавить единицу.

Вещественные числа. Для хранения этого типа данных в памяти современных ЭВМ обычно использу-ется представление чисел с плавающей запятой. Оно фактически взято из математики, где любое число А в системе счисления с основанием Q предлагается записывать в виде

А= (±М) * Q ±р ,

Где М называют мантиссой, а показатель степени Р - порядком числа. Для обозначения операции умножения мы используем компьютерный вариант - "*".

Если "плавающая" точка расположена в мантиссе перед первой значащей цифрой, то при фиксированном количестве разрядов, отведённых под мантиссу, обеспечивается запись максимального количества значащих цифр числа, то есть максимальная точность представления числа в машине. Из этого следует:

Мантисса должна быть правильной дробью, у которой первая цифра после точки (запятой в обычной записи) отлична от нуля: 0.1 2 <= |M | < 1. Если это требование выполнено, то число называется нормализованным

Мантиссу и порядок q -ичного числа принято записывать в системе с основанием q , а само основание - в десятичной системе. Примеры нормализованного представления:

Десятичная система Двоичная система

753.15 = 0.75315 . 10 3 ; -101.01 = -0.10101 . 2 11 (порядок 11 2 = 3 10)

0.000034 = - 0.34 . 10 -4 ; 0.000011 = 0.11 . 2 -100 (порядок -100 2 =-4 10).

Вещественные числа в компьютерах различных типов записываются по-разному, тем не менее, все компьютеры поддерживают несколько международных стандартных форматов, различающихся по точности, но имеющих одинаковую структуру следующего вида:

Здесь порядок n -разрядного нормализованного числа задается в так называемой смещенной форме :

если для задания порядка выделено k разрядов, то к истинному значению порядка, представленного в дополнительном коде , прибавляют смещение, равное (2 k-1 - 1). Например, порядок, принимающий значения в диапазоне от -128 до +127, представляется смещенным порядком, значения которого меняются от 0 до 255.

Использование смещенной формы позволяет производить операции над порядками, как над беззнаковыми числами, что упрощает операции сравнения, сложения и вычитания порядков, а также упрощает операцию сравнения самих нормализованных чисел.

Чем больше разрядов отводится под запись мантиссы, тем выше точность представления числа. Чем больше разрядов занимает порядок, тем шире диапазон от наименьшего отличного от нуля числа до наибольшего числа, представимого в машине при заданном формате.

Стандартные форматы представления вещественных чисел:

1) одинарный - 32-разрядное нормализованное число со знаком, 8-разрядным смещенным порядком и 24-разрядной мантиссой (старший бит мантиссы, всегда равный 1, не хранится в памяти, и размер поля, выделенного для хранения мантиссы, составляет только 23 разряда).

2) двойной - 64-разрядное нормализованное число со знаком, 11-разрядным смещенным порядком и 53-разрядной мантиссой (старший бит мантиссы не хранится, размер поля, выделенного для хранения мантиссы, составляет 52 разряда).

3) расширенный - 80-разрядное число со знаком, 15-разрядным смещенным порядком и 64-разрядной мантиссой. Позволяет хранить ненормализованные числа.

Следует отметить, что вещественный формат с m -разрядной мантиссой позволяет абсолютно точно представлять m -разрядные целые числа, т. е. любое двоичное целое число, содержащее не более m разрядов, может быть без искажений преобразовано в вещественный формат.

Таким образом, при использовании метода представления вещественных чисел с плавающей запятой в памяти фактически хранятся два числа: мантисса и порядок. Разрядность первой части определяет точность вычислений, а второй - диапазон представления чисел.

К описанным выше общим принципам представления вещественных чисел необходимо добавить правила кодирования мантиссы и порядка. Эти правила могут отличаться для различных машин. Системой счисления называется совокупность приемов наименования и записи чисел. В любой системе счисления для представления чисел выбираются некоторые символы (их называют цифрами) , и числа получаются в результате каких-либо операций над цифрами данной системы счисления.

Если значение цифры не зависит от ее местоположения в записи числа, то такая система счисления называется непозиционной. Наиболее известным примером непозиционной системы счисления является римская.

Система называется позиционной, если значение каждой цифры (ее вес) изменяется в зависимости от ее положения (позиции) в последовательности цифр, изображающих число.

Число единиц какого-либо разряда, объединяемых в единицу более старшего разряда, называют основанием позиционной системы счисления. Если количество таких цифр равно Р, то система счисления называется Р-ичной. Основание системы счисления совпадает с количеством цифр, используемых для записи чисел в этой системе счисления.

Запись произвольного числа х в Р-ичной позиционной системе счисления основывается на представлении этого числа в виде многочлена

где P – основание системы счисления; n – количество цифр в целой части числа, m – в дробной части.

Например,

Десятичная система счисления: P =10, алфавит системы: {0,1,2,3,4,5,6,7,8,9};

Двоичная система счисления: P =2, алфавит системы: {0, 1};

Восьмеричная система счисления: P =8, алфавит системы: {0,1,2,3,4,5,6,7};

Шестнадцатеричная система счисления: P =16, алфавит системы: 0,1,2,3,4,5,6,7,8,9, A , B , C , D , E , F }.

Таблица соотношения чисел вышеперечисленных систем счисления:

P=10

P=16

1000

1001

1010

1011

1100

1101

1110

1111

10000

При переводе чисел из десятичной системы счисления в систему с основанием Р > 1 обычно используют следующий алгоритм:

если переводится целая часть числа, то она делится на Р, после чего запоминается остаток от деления. Полученное частное вновь делится на Р, остаток запоминается. Процедура продолжается до тех пор, пока частное не станет равным нулю. Остатки от деления на Р выписываются в порядке, обратном их получению;

если переводится дробная часть числа, то она умножается на Р, после чего целая часть запоминается и отбрасывается. Вновь полученная дробная часть ум-ножается на Р и т.д. Процедура продолжается до тех пор, пока дробная часть не станет равной нулю. Целые части выписываются после двоичной запятой в порядке их получения. Результатом может быть либо конечная, либо периодическая двоичная дробь. Поэтому, когда дробь является периодической, приходится обрывать умножение на каком-либо шаге и довольствоваться приближенной записью исходного числа в системе с основанием Р.

Например:

1) число 118 10 перевести в двоичную, восьмеричную и шестнадцатеричную системы счисления.

Таким образом, 118 10 =1110110 2 , 118 10 =166 8 , 118 10 =76 16 .

2) перевести десятичные дроби 0,5625 10 и 0,8 10 в двоичную систему счисления

5625

1250

2500

5000

0000

Для смешанных чисел (имеющих целую и дробную части) каждая часть переводится по своему правилу, затем выписывается общий ответ.

При переводе чисел из системы счисления с основанием Р в десятичную систему счисления необходимо пронумеровать разряды целой части справа налево, начиная с нулевого, и в дробной части, начиная с разряда сразу после запятой слева направо (начальный номер - 1). Затем вычислить сумму произведений соответствующих значений разрядов на основание системы счисления в степени, равной номеру разряда. Это и есть представление исходного числа в десятичной системе счисления.

Например, перевести числа 1100111 2 и 10011,11 2 в 10-ю систему счисления.

1100111 2 =1 × 2 6 +1 × 2 5 +0 × 2 4 +0 × 2 3 +1 × 2 2 +1 × 2 1 +1 × 2 0 =103 10

10011,11 2 =1 × 2 4 +0 × 2 3 +0 × 2 2 +1 × 2 1 +1 × 2 0 +1 × 2 -1 +1 × 2 -2 =19,75 10

Перевод чисел из двоичной системы в восьмеричную производится «делением» двоичного числа на группы по 3 цифры (триады) с конца. Каждая группа преобразуется числом в новой системе счисления, например: 10.000.101 2 =205 8 . При переводе чисел из двоичной вшестнадцатеричную, аналогично, «делим» двоичное число на тетрады, то есть на группы по 4 цифры, например, 110.0110.1011=66 B .

Арифметические действия над числами в любой позиционной системе счисления производятся по тем же правилам, что и в десятичной системе, так как все они основываются на правилах выполнения действий над соответствующими многочленами. При этом нужно только пользоваться теми таблицами сложения и умножения, которые соответствуют данному основанию Р системы счисления.