Кодирование текстовой информации

18.01.2021 11 Автор : Марина Николаевна
Кодирование текстовой информации

Информация – это сведения об объектах окружающего нас мира.

Если эта информация выражена с помощью естественных и формальных языков в письменной или печатной форме, то такую информацию мы можем называть текстовой, т.е. выраженной с помощью знаков.

Пример.

На уроки учитель вам рассказывает какую-то тему, ученики же слушают, а затем записывают основные моменты. Пока учитель просто рассказывает, то вы воспринимаете информацию не в текстовом виде до тех пор, пока ученики ее не записали себе в тетрадь. То есть ученики звуковую информацию, которая переходила к ученикам от учителя закодировали и записали ее в форме текста.

Когда дома, ученик читает записи в своей тетради, то он эту информацию декодирует. Ученик, информацию в виде текста преобразовывает в понятную ему информацию. Это происходит потому, что люди мыслят не буквами, а образами.  Если написано «торт», то мы себе представляем этот торт. Если написано «яблоко», то мы представляем себе яблоко.

Сами буквы для человека ничего не значат, но их определенные последовательности мы в голове у себя собираем и таким образом декодируем записанную у себя информацию, преобразуем в понятный для нас вид.

Реализация процесса кодирования текстовой информации

Когда человек нажимает на кнопку клавиатуры, в процессор компьютера передается определенная последовательность импульсов. Затем процессор обрабатывает эту последовательность и передает ее в программу, в которой человек в настоящее время работает. И уже программа делает обратное преобразование. В соответствии с какими-то правилами она расшифровывает букву, которую мы ввели у себя на клавиатуре, и человек видит ее на экране, например, в текстовом процессоре майкрософт ворд.

Но здесь появляется сложность. Должно быть какое-то правило, которое при использовании разных программ и разных компьютеров, будет нам выдавать правильное значение.

Поэтому, разработчики компьютеров и программного обеспечение научились договариваться между собой.

Текстовую информацию в компьютере можно закодировать следующим образом: у нас есть какие-то символы – буквы алфавита. Мы можем каждой букве присвоить разные номера, а затем эти номера перевести в двоичный код. Вот кодировка пяти букв алфавита таким образом.

В этом случае можно вместо буквы А написать последовательность символов 001 и т.д. точно так же можно реализовать это технически: на клавиатуре вводится буква В, а процессору поступает сигнал: 011. А процессор получив сигнал будет обрабатывать поступившую информацию. В программе, соответственно, будет представлена такая же табличка, и для программы будет понятно, какой сигнал получен и как он должен быть преобразован и выведен на экран.

Такие таблицы должны быть единым международным стандартом.

В 1963 г. в Америке была создана в 1963 г. таблица под названием ASCII, что означало «Американский стандартный код таблиц соответствия».

В ней было закодировано 128 символов с номерами 0 — 127. В эту таблицу вошли различные символы (таблица на странице 139 учебника Босовой), в том числе скобки, значки, вопросительный и восклицательный знаки, символы латинского алфавита, причем как маленькие символы, так и большие символы, цифры, знаки препинания и т.д.

В эту табличку вошли все символы, которые могли понадобиться человеку для работы.

Так как компьютеры начали распространяться не только в Америке, но и в страны, где разговаривают на других языках, то понадобились в этой таблице дополнительные места, в которых можно было бы внести коды символов, например, кирилистического алфавита. Эти таблицы были расширены. И примером такой расширенной таблицы ASCII стала таблица Windows-1251.

Если мы на нее посмотрим (таблица 3.9 на странице 140 учебника Босовой), то символы до 127 берутся из таблицы ASCII.

Символы таблицы ASCII

Символы с 0 до 32 – это операции перевода строки, ввод пробела и другие символы, 33-127 – интернациональные (латинский алфавит, цифры, знаки препинания, математические операции), 128-255- национальные (символы русского алфавита или других языков).

И для кодирования всех этих символов понадобилось 256 позиций, что соответствовало 8битной кодировки.

Это мы можем определить, зная алфавитный подход к определению количества информации.

Мощность алфавита в нашем случае равна 256, 2^I = 2^8, отсюда следует, что i- информационный вес одного символа равен 8 бит или 1 байту.

Поэтому такие кодировки называют восьми битными.

Для того, чтобы закодировать один символ, нам понадобиться 8 бит, что соответствует 1 байту.

Соответственно, кодирование одного символа в соответствии с таблицей Windows-1251 занимает информационный объем, соответствующий 1 байту.

Таких восьми битных кодировок было создано несколько. Это кодировки Windows – 1251, MS-Dos, КОИ-18, ISO, Mac и другие. То есть в разных операционных системах были разные таблицы кодировок. В наше время становится это неудобным, так как количество кодов значительно увеличивается. Если мы зайдем на какой –ни будь сайт, а наш браузер неправильно определит кодировку или эту кодировку неправильно определит сервер, то мы получим информацию не в том виде, в котором мы хотим ее видеть.

Сейчас, когда появились компьютеры со значительной мощностью пользователи могут использовать таблицу Unicode или универсальную кодировку. И в ней, мы на каждый символ отводим 2 байта, т.е. с ее помощью мы можем закодировать не 256 символов как это было в таблицах Windows – 1251, MS-Dos, КОИ-18, ISO, Mac и других. Мы можем закодировать 2^16 символов: здесь у нас мощность алфавита

N = 2^16=65536

Поскольку этого места хватает для кодировки всех символов различных языков, в том числе китайских иероглифов, то эта таблица и получила название Unicode.

Информационным объемом текстового сообщения называется количество бит (байт, Кбайт и т.д.) необходимых для записи этого сообщения путем заранее оговоренного способа двоичного кодирования.