Шифрование и частота букв и символов в текстах - Наука и Техника - Каталог статей

Шифрование и частота букв и символов в текстах

— Вот уж где меньше всего могут быть случайности..*

— Грамматические правила и вдруг — вероятность...

— Неужели нет ни одной науки без арифметики?..

Все это послышалось мне, когда я дописал предыдущую

главу до конца, до того места, где обещал рассказать о случайностях в науке о языке.

...Передо мной лежит странное письмо. Это лист бумаги, густо покрытый какими-то загадочными знаками: кружками, треугольниками, квадратами, флажками. Ни на какие буквы эти знаки не похожи. Вот это письмо — на рисунке. Судите сами. Письмо попало ко мне на стол случайно. Однажды я купил несколько старых книг. В одну из них неизвестно кем и когда был вложен конверт с этим письмом.

Кто может оставаться равнодушным, когда встречается с Тайной?

Что здесь может быть написано? Наверняка кто-то решил сообщить нечто важное, какой-то секрет. А чтобы секрет сохранить, зашифровал письмо.

Я начал соображать. Как можно зашифровать то, что написано? Видимо, неизвестный автор письма придумал для каждой буквы алфавита свое обозначение. Например, букву А обозначил треугольником, Б — кружком, В — флажком и так далее. Получился шифр — код. А имея такой код, уже нетрудно переписать с его помощью любое послание.

Re имея кода, никто не сможет догадаться, какие были придуманы знаки для всех букв алфавита. Только волшебник может узнать, что у другого человека на уме.

Оказывается, такой волшебник есть. Этот маг и чародей — вероятность.

Внимательные люди давно заметили, что каждая буква алфавита в среднем повторяется в книгах одинаково часто.

Если взять, например, собрание сочинений Гайдара и подсчитать, какую часть от всех букв составляет, скажем, буква А, то окажется, что доля этой буквы равна 0,06, или 6 процентов.

То же самое будет и для собрания сочинений Маршака. Михалкова и даже для Большой советской энциклопедии в пятидесяти томах.

Но что означает «доля буквы А равна 0,06»? Откуда можно взять эту цифру?

Видимо, нужно сосчитать все буквы в какой-нибудь книге и отдельно пересчитать, сколько раз там появилась буква А. Затем найти интересующую нас долю.

Доля буквы А ₌ число букв А в книге число всех букв

0,06, или 6%.

Знакомая формула, не правда ли?

Мы уже знаем, что почти так же выглядит формула вероятности. Но только там в числителе и знаменателе стояли числа благоприятствующих и всех равновозможных случаев, а здесь — число букв. Смысл один и тот же.

Сходство этих формул наводит нас на мысль: а нельзя ли подсчитать заранее долю буквы А в каких-нибудь нескольких книгах и потом воспользоваться ею как вероятностью появления этой буквы в любой книге, написанной на русском языке. И даже... в письме.

Вот ключ к решению. Этим ключом я и воспользовался. Прежде всего я постарался узнать, чему равны вероятности появления различных букв алфавита. Ученые уже давно рассчитали эти цифры, которые, как мы увидим, нужны людям различных специальностей.

Оказывается, наиболее часто встречается в книгах буква О. Вероятность ее появления равна 0,09. Затем идет Е — 0,07, после этого А и И — по 0,06 и т. д. Но наиболее часто, оказывается, появляется не какая-нибудь буква, а пробел между словами. Вероятность появления пробела 0,18.

Затем я принялся за работу. Моя задача заключалась в том, чтобы подсчитать, как часто каждый из значков появляется в загадочном письме. Работа эта не очень трудная, хотя и требует некоторого времени и внимания.

Наконец в моих руках была частота появления в письме всех знаков шифра, и я выписал их и соответствующие знаки в третьем и четвертом столбце таблицы. При этом я для удобства и наглядности расположил эти частоты в тех же строчках, в которых стояли равные им по величине вероятности появления в тексте букв русского алфавита.

Вот, например, знак рз встретился нам в письме

159 раз, а всего знаков мы насчитали 887. Значит, частота

этого знака равна

159

887

около 0,18 и его место в той

же строке таблицы 2, что и обозначение пробела, вероятность которого тоже 0,18.

Знак V имеет частоту, равную

887

около 0,09,

и мы поместили его в строчку, где буква О, вероятность которой тоже 0,09. И так далее.

Как только мы узнали, что флажок — это знак пробела, в письме сразу проявились отдельные слова.

Посмотрите на письмо: отдельные слова — это все то, что стоит между флажками. Очень даже просто.

Затем справа от знаков шифра в таблице я стал записывать те обозначения и буквы, которым эти знаки соответствуют. Так, рядом со знаком F³ появился пробел, рядом со знаком — буква О. К сожалению, дальше расшифровка пошла труднее, так как с частотой 0,07 не оказалось ни одного знака, а с частотой, близкой к 0,06, — целых три.

Я поступил так. Продолжал как ни в чем не бывало и дальше выписывать справа от знаков все возможные буквы алфавита, которые могут соответствовать шифру. Это те буквы, вероятности которых равны или почти не отличаются от частоты соответствующих знаков (не более, чем на 0,01). Небольшое отличие не должно нас смущать, ведь мы знаем, что вероятность есть средняя величина и в каждом отдельном случае могут быть незначительные отклонения.

Таким образом, например, в строке вероятности 0,06 рядом со знаками _А 0^ ф появились буквы А, И, Е,

Т, Н; в строке вероятности 0,05 рядом со знаками Г). ГП —

буквы Т, Н, А, И, С, Р, В, Л и так далее.

Затем я использовал такой хитрый прием. Выписал все знаки, которые в шифровке оказались однобуквенными словами — они одиноко с^оят между двумя флажками.

Вот зти знаки: О» Д ₉ D , 9* Ш

Дальше я рассудил так. Знаки 0₅ ф , стоящие

в строке вероятности 0,06 рядом с буквами А, И, Е, Т, Н, могут означать любую из них. Как однобуквенное слово

встречается только знак Q . Следовательно, этот знак

может быть либо А, либо И, ибо остальные буквы (Е, Т, Н) в качестве однобуквенных слов не встречаются.

Как же теперь отличить А от И?

Давайте поработаем дальше вместе.

Если внимательно просмотреть письмо, можно заметить, что знак о нигде не удваивается. Между тем, буква И, как известно, довольно часто дает удвоения. Значит, вероятнее всего, что знак 0 — это буква А.

Заведем специальную таблицу и станем вписывать в нее значения всех расшифрованных знаков. Пока нам известны только значения знака пробела и букв О и А.

Оставшиеся знаки этой строки £4 и ф могут

означать буквы Е, Т, Н, которые не бывают однобуквенными словами.

Просмотрев письмо, мы находим, что знак ф встречается в двухбуквенном слове вместе с уже известным нам знаком V — буквой О (третье слово в шестнадцатой

строке письма). Значит, это не может быть буква Е. Ведь таких сочетаний в двухбуквенных словах не бывает. Остаются две возможные буквы: Т и Н, Но буква Н часто удваивается, а наш знак ни разу не дает удвоения. Видимо, вероятнее всего это буква Т.

Остается знак bd , который может означать буквы Е или Н.

Выбор нам поможет сделать второе слово в первой строчке письма. Предпоследний знак в нем, как мы определили, означает букву Т, поэтому последний знак (V] вряд ли

может быть буквой Н. Таких сочетаний в конце слова не бывает. Вероятнее всего, что это буква Е.

Перейдем к строке с вероятностью 0,05. Этой вероятности соответствуют два знака £) и Q] , которые могут

обозначать шесть неизвестных букв: Н, И, С, Р, В, Л (знаки А и Т мы только что узнали).

Однобуквенные слова дает только знак р . Он может обозначать буквы И, С, В. Но из этих трех наиболее вероятно ожидать удвоения в конце слова от буквы И. Такое удвоение знак р дает в первом слове четвертой строки. Значит, это буква И.

Оставшийся знак Q] может обозначать буквы Н, Р, Л

(этот знак в однобуквенных словах не встречается, поэтому С и В отпадают). Удвоения скорее всего следует ожидать от буквы Н. Такое удвоение есть в первом слове третьей строки. Значит, это буква Н.

Спустимся ниже, к вероятности 0,04. Здесь два знака Ф И N соответствуют шести неизвестным буквам: С, Р, В, Л, К, М. Знак ^ дает однобуквенные слова,

поэтому он может обозначать С, В, К. Выбор буквы здесь удобно сделать так.

Найдем одно или несколько слов, в которых знак ^ встречается вместе с уже известными нам буквами. Это, например, последнее слово в десятой строке и предпоследнее — в пятнадцатой. Станем подставлять в эти слова по очереди буквы С, В и К и убедимся, что это может быть только буква С.

Оставшийся знак р><| может быть одной из букв:

Р, Л, М. Подыщем слово, в котором этот знак встречается вместе с уже известными нам буквами. Это второе слово в тридцать первой строке. Подбором находим, что знак

м может обозначать только букву Р. Теперь нам уже нетрудно таким же путем разгадать и все остальные знаки шифра. Результаты этих поисков помещены в таблице.

Букв Ф и Щ в письме нет, поэтому придумаем их шифр сами, чтобы получить алфавит полностью.

Наконец наступает долгожданный момент полной расшифровки письма. Расставим все буквы по местам и прочтем текст, который показан на рисунке. Он, правда, без знаков препинания и переносов, но вполне понятен и даже как будто... знаком. Где-то мы эту таинственную белиберду уже слышали.

Ну конечно. Это же знаменитое письмо Тома Сойера из книги «Приключения Гекльберри Финна» Марка Твена.

Том, правда, отправлял его в незашифрованном виде, но мне кажется, имей он под рукой шифр вроде нашего, все было бы сделано как надо. Так и поступил безымянный хозяин конверта, найденного в старой книге. Совсем в духе того, кто давным-давно сочинил это таинственное послание.

$ Н: $

— Так это была игра... — разочарованно протянул один юный товарищ, которому я рассказал про тайну шифра.

Да, игра, но весьма поучительная. Она наводит на мысль, что без математики, без теории вероятностей нечего и думать о решении многих важных задач.

И действительно, прочтение историком, археологом старинных рукописей, текстов на забытых и ныне никому не известных языках, глубокое изучение современных языков многим обязано математике.

Каждому понятно, как важно на войне раскрыть шифр противника, суметь выведать его секреты. И эта задача по плечу науке о языке в союзе с математикой.

Математика плюс языкознание сделали возможным чудо электронной вычислительной техники — машинный перевод с одного языка на другой.

Для того чтобы машина могла «понять» человеческие слова, нужно прежде всего найти с ней «общий язык». Языком, одинаково доступным как человеку, так и машине, является язык цифр — математика.

Как мы только что видели на примере шифрованного письма, языку свойственны вполне определенные математические закономерности. Их изучением занимается молодая наука, появившаяся на стыке математики и лингвистики,— математическая лингвистика. С ее помощью электронно- вычислительные машины и осуществляют перевод с одного языка на другой.

Даже такой не математический предмет, как литература, и тот иногда раскрывается по-новому в свете теории вероятностей. Попытаемся проделать это в следующем рассказе.

Категория: Наука и Техника | Добавил: fantast (10.12.2018)

Просмотров: 1097 | Рейтинг: 0.0/0