Принудительная дискретизация
Фонетическое письмо определяет всю нашу культуру и всю нашу науку, вовсе не будучи обычным, рядовым явлением.
Жак Деррида
Выше мы пришли к выводу, что для того, чтобы составить кодовую таблицу, нам нужно наличие отдельных или, как говорят специалисты, — дискретных элементов. Поэтому мы и рассматривали элементы списка, или таблицы, которые отличаются друг от друга сами по себе (дискретны, как говорят, "по жизни"), т. е. каждый чем-то однозначно выделяется.
Пример-метафора
Каждый студент группы имеет студенческий билет и зачетную книжку, из которых можно узнать не только его фамилию, но и другие отличительные сведения (прежде всего уровень успеваемости).
Безусловно, это касается не только студентов, но и любого человека. Каждый из нас "дискретен" по отношению ко всему человечеству. Но когда мы наблюдаем какую-либо огромную массу людей, скажем, на стадионе, нам достаточно трудно выделить отдельных представителей рода человеческого. Люди кажутся пестрым ковром, и чтобы найти человека, выделить его из этой огромной толпы, требуется особое умение или какой-либо оптический инструмент (например, бинокль).
Но представьте себе ситуацию, когда та область, которую нам предстоит кодировать, не имеет ясно выраженных элементов. По крайней мере, мы их перечислить не можем, не можем взять и "разложить по полочкам", не можем составить список от первого до последнего элемента.
Иногда выделение элементов действительно сопряжено со многими трудностями, даже в той области, которая уже исторически с ней справилась, но все равно при обучении всякий раз происходит повторение исторического пути. В качестве удачного примера с точки зрения дискретизации в предыдущем разделе мы рассмотрели пример букв (фонетического письма), однако на самом деле все не так просто.
Пример-метафора
Обратим внимание на то, что буквы фонетического алфавита (фонетического письма) — это знаки не совсем тех звуков, которые мы произносим. Когда мы говорим слово "молоко", мы произносим на самом деле три разных звука (очень нейтральный звук в первом слоге, почти звук "а" без ударения и звук "о" в ударной позиции), а на письме обозначаем одной и той же буквой "о".
В данном случае получается, что звук "а", который мы действительно произносим, на самом деле буквой "а" не записывается. Поэтому существует наука фонология (раздел лингвистики), которая как раз занимается тем, что вводит такое понятие, как фонема. И вот фонема это не просто чистый звук "а", это некий ареал.
Скажем, в слове "молоко" это фонема не "а", хотя мы фактически ее произносим. А на самом деле буква "о", это вариант "а", причем это не просто "а", а нейтральный звук, в который "о" попадает, когда она безударна. То есть вот это "а", которое мы произносим в слове "молоко", — на самом деле вариант буквы "о".
Справка
Фонология (от греческих слов "phone", что означает "звук", и "логия" — "наука") — это раздел языкознания, изучающий структурные и функциональные закономерности звукового строя языка.
Справка
Фонема (от греческого слова "phonema", что означает "звук") — это единица языка, с помощью которой различаются и отождествляются морфемы и тем самым слова, т. к. она определяет совокупность различительных признаков. Например, в русской речи в словах "дам" и "там" представлены фонемы [д] и [т], которые различаются по признаку "глухость" и "звонкость". В русском языке выделены 44 фонемы, которые реализуется в речи в виде множества вариантов, число которых невозможно сосчитать. Напомним, что в алфавите русского языка используется 33 буквы.
Исходя из этого, понятно, что выделение фонетического алфавита, запись текста сопряжены с массой проблем (тем более что язык развивается, не стоит на месте). Кроме того, огромную роль играют индивидуальные особенности произношения, ведь даже дикторов, обладающих наиболее стандартизированным произношением, мы свободно отличаем друг от друга.
Поэтому до сих пор не удается в полной мере заставить компьютерное устройство преобразовывать речь в текст.
Системы распознавания речи, так же, как и системы распознавания оптических образов, до конца не разработаны. Хотя существуют программы для превращения сканированных изображений страниц в текстовые, которые работают неплохо, но для этого требуется масса определенных условий. Существуют также системы распознавания речи, но они еще более несовершенны и имеют очень узкий диапазон.
Таким образом, даже в тех областях, в которых исторически выделены более или менее четкие дискретные элементы, существуют научные и теоретические проблемы. А уж что говорить о тех областях, где очевидная дискретность отсутствует!
Однако необходимость в компьютерной обработке и такой информации существует, поэтому перейдем к условиям, которые требуются для кодирования непрерывного потока аналогового сигнала.
Таким основополагающим условием является принудительная дискретизация, т. е. "искусственное создание" элементов. В этом случае искусственные элементы должны в какой-либо мере отражать характер информации, которая "подвергается принуждению", следовательно, возможны различные принципы дискретизации (линейная, пространственная, временная, а также их разные сочетания).
Для того чтобы наиболее наглядно представить процедуру принудительной дискретизации, рассмотрим абстрактный пример аналогового сигнала, который в конечном счете необходимо конвертировать в последовательность цифровых кодов.
Замечание
В части III эти процедуры будут рассмотрены на примере графических изображений.