Формула языка “Икс”
“ЗС” №2/1967

В 1963 году в совете по комплексной проблеме “Кибернетика” при Президиуме Академии наук СССР было решено начать изучение ряд дешифрованных исторических систем письма с широким использованием средств вычислительной техники. Для проведения этой работы были организованы филологическая группа под руководство) Ю. В. Кнорозова, в которую входили Г. В, Алексеев, Б. Я. Волчек, А. М. Кондратов, В. М. Наделяев, В. С. Стариков, И. С. Федорова и А. И. Харсекин, и группа по машинной обработке текстов при Всесоюзном институте научной н технической информации (ВИНИТИ) под руководством М. А. Пробста, в которую входили 3. М. Остроухова и Т. Б. Павлова.

Перед вами статья одного из участников этой работы.

Без билингвы

Перед нами — текст, записанный неизвестными знаками. Как понять его? Самый простой путь — найти человека, знающего неизвестные вам письмена. Предельно просто! И, как ни удивительно, именно так удавалось найти ключ даже к древним письменам! В конце XVIII века французский исследователь Анкетиль-Дюперон сообщил, что ему удалось прочитать и перевести тексты священной книги древних персов Авеста”. Он много лет провел среди современных огнепоклонников (для которых и поныне “Авеста” — священная книга) и научился у жрецов, из поколения в поколение передававших свои знания, искусству чтения “Авесты”.

Когда Анкетиль-Дюперон опубликовал свой перевод “Авесты”, он единодушно был признан “плодом фантазии” и считался таковым до тех пор, пока успехи языкознания XIX века… не подтвердили правоту отважного исследователя, с риском для жизни добывшего у жрецов-огнепоклонников тайну их священных текстов.

Еще более поразительный случай, произошел совсем недавно, в середине нашего столетия. Как известно, четыреста лет назад испанцы уничтожили великую цивилизацию инков в Южной Америке, а вместе с ней и все памятники письма. Впрочем, памятников этих уже в ту пору было крайне мало — когда-то процветавшее иероглифическое письмо было запрещено самими инками и заменено на “письмо узелков” — “кипу” или “квипу”. Инки сохранили лишь совсем немного иероглифических текстов, где. была записана их история (ведь с помощью узелков “кипу”, родных братьев наших “узелков на память”, длинного связного текста не записать). Однако после испанского завоевания и эти тексты погибли. Но в пятидесятых годах нашего века боливийский археолог и этнограф Дик Эдгар Ибарре Грассо обнаружил живых знатоков иероглифического письма! И не только в отдаленных горных районах Боливии и Перу, но даже в самой столице Боливии, городе Ла-Пас!

В отдаленных районах государства инков, очевидно, были люди, не послушавшиеся запрета. Вот почему и поныне индейцы, не знающие ни европейской “латиницы”, ни испанского языка, пользуются письмом, корни которого уходят во времена культуры Тиагуанако, предшествовавшей культуре инков!

Найти живого знатока древних письмен и с его помощью прочитать тексты — задача увлекательная и романтическая. Но ведь для большинства древних текстов, например египетских, хеттских, шумерских и многих других, это практически невозможно (египетские иероглифы не умели читать сами жрецы уже 20 веков назад). И все-таки мы знаем, что письмена Египта, Малой Азии, Двуречья были прочтены. Почему? Здесь на помощь дешифровщикам пришла билингва, текст, повторенный на двух языках, только один из которых неизвестен.

С помощью знаменитого Розеттского камня Шампольон дешифровал иероглифику Египта.

Помогают исследователям не только билингвы: возможны и другиеключи” к письменам. В 1929 году французская экспедиция, раскопав холм Рас-Шамра (в Сирии), обнаружила неизвестную письменность, названную угаритской. Ряд надписей был сделан на бронзовых боевых топорах, причем на одних топорах было всего лишь 6 знаков, а на других к тем же 6 знакам добавлялось еще 4 новых. Немецкий филолог Бауэр разумно предположил, что 6 знаков передают имя владельца, а 4 — соответствуют слову “топор”; и это помогло вскоре расшифровать все надписи угаритского письма!

Как быть, если у нас нет билингвы? И вообще никаких других вспомогательных данных? Можно ли тогда дешифровать текст?

“Из ничего нельзя ничего дешифровать, — говорит известный специалист по дешифровке И. Фридрих. — Если не за что ухватиться, если опора пока что не найдена, значит, серьезных результатов достичь невозможно — остается лишь простор для беспочвенных фантазий дилетантов”.

Письмена острова Пасхи, надписи на печатях из Мохенджо-Даро и Хараппы, древнейших городов Индостана, загадочный диск из города Фест иа Крите, письмена этрусков билингвы не имеют. И многочисленные любители, да и. серьезные ученые, тщетно пытались проникнуть в загадку этих письмен, читая их то по-хеттски, то по-тольтекски, то по-гречески, то по-албански, то на санскрите… Но всем этим “дешифровкам” не хватало одного — “точки опоры”. Имеется ли она у текстов без билингвы, у текстов, где отсутствуют какие бы то ни было косвенные данные?

Оказывается, такая “точка опоры” все-таки есть. И это — сами тексты, точнее — их внутренняя структура! Здесь на помощь исследователю приходят точные числа, количественные показатели и электронные вычислительные машины.


Формула системы письма

Первая задача, которая встает перед дешифровщиком древних текстов, — это определение системы письма. Что передает тот или иной знак — букву? слог? корень слова? служебную частицу? слово? или, может быть, целое, сочетание слов и даже предложение? Возможно, что исследуемый текст не является письменным текстом в полном смысле этого слова, то есть текстом, который можно читать, а представляет собой пиктографическую запись, “рисуночное письмо”, и его можно толковать на любом языке мира.

Звуков в языке немного — от 10-12 (в полинезийских) до 70-80 (в некоторых кавказских). Как правило, в алфавитном письме бывает в среднем около 30 различных знаков-букв. Значит, если мы видим текст, где число различных знаков порядка 30, можно с уверенностью считать, что этот текст записан буквенным, алфавитным письмом.

Системы письма, где каждый знак передает слог, насчитывают 50-80 различных знаков. В смешанных, иероглифических системах письма одни знаки передают слоги (или даже отдельные буквы, как в древнеегипетском), другие — корни слов, а третьи, “ключевые” знаки (или детерминативы), никаких единиц языка не передают, а лишь указывают, как должен читаться тот или иной знак или сочетание знаков.

Естественно, что в иероглифике число различных знаков будет гораздо больше, чем в алфавитном или слоговом. Так, в древнеегипетском письме насчитывают около 800 иероглифов, в хеттском — около 500, и т. д.

Среди дошедших до нас древних систем письма нет ни одной, где каждый знак передавал бы целое слово (такая система очень громоздка). Но теоретически можно представить такое “пословное” письмо — и где гарантия, что неизвестный текст не написан как раз таким письмом? Нетрудно подсчитать число знаков, которое должно иметь “пословное” письмо, — оно будет равно числу слов в языке, насчитывать десятки и сотни тысяч знаков.

Бесконечно и число знаков пиктографии, “рисуночного письма”, — каждая новая ситуация требует новых знаков, фиксирующих ее.

Таким образом, каждая система письма имеет свои точные количественные показатели. Нам остается только посчитать число разных знаков — и мы можем тут же определить систему письма. Однако тут имеется одно “но” — и весьма важного свойства.

Дело в том, что дошедшие до нас древние тексты зачастую очень коротки. А поэтому мы не можем знать, вошли ли в эти тексты все знаки письма или нет. Чтобы определить в подобном тексте систему письма, приходится поступать так. Подсчитывают не все разные знаки, а знаки новые, которые появляются вновь на каждые 25, 50, 75, 100 и т. д. знаков текста.

Среди первых 25 знаков немногие будут повторяться — и у алфавитного письма, и у иероглифики, и у слогового. На вторую “двадцатьпятку” у алфавитного письма появится очень мало новых знаков. В третьей “порции” по 25 знаков число алфавитных знаков будет совсем маленьким, начнет исчерпываться и запас слоговых знаков, в то время как число новых знаков иероглифики по-прежнему будет прибывать, хотя и не столь быстро, как вначале (ведь наиболее употребительные иероглифы уже повстречаются нам среди первых 25, 50 и т. д. знаков текста).

Что же касается знаков пиктографии, то число новых будет постоянным — в среднем по 18-20 новых знаков на каждые 25 знаков текста.

Таким образом, мы видим, что каждая система письма отличается не только общим числом всех знаков, но и частотой появления новых знаков в тексте. Значит, можно выяснить (с определенной степенью вероятности), какой именно системой письма написан неизвестный текст.

Для наглядности приведем таблицу, где сопоставляется частота появления новых знаков. Первый столбец — письмена древнего Египта, классический образец иероглифического письма. Второй столбец — письмена долины Инда, до сих пор еще не расшифрованные. Одни ученые считали их иероглифическими, другие — слоговым письмом. Из таблицы явно видно, что числовые показатели графы “Египет” совпадают с показателями, графы “Индия” — видимо, создатели цивилизации Мохенджо-Даро и Хараппы пользовались не слоговым, а иероглифическим письмом.


Числа и кохау ронго-ронго

Какой системой письма пользовались жители острова Пасхи? Тут среди ученых нет единогласия. Были попытки читать значки кохау ронго-ронго как слоговые и даже алфавитные. Советские исследователи Кудрявцев, Ольдерогге, Кнорозов, Бутинов признали письмена острова Пасхи иероглификой. Доктор Бартель из ФРГ полагает, что кохау ронго-ронго является “эмбриописьмом”, в котором нет грамматических показателей, а каждый знак передает целое слово. В недавно вышедшей книге В. Истрина “История письма” высказывается мысль, что островитяне пользовались письмом, в котором одному знаку могла соответствовать даже целая фраза. Известный знаток письмен древнего Востока Игнациус Гельб полагает, что кохау ронго-ронго нельзя назвать “письменностью” даже в примитивном смысле этого слова. Он считает их пиктографической записью.

Очевидно, ответить точно на вопрос, какой же системой письма пользовались жители острова Пасхи (и было ли у них вообще письмо), могут лишь статистические методы исследования, количественные подсчеты. Они были произведены автором этих строк и приводятся в таблице.

Первоначально была определена частота появления новых знаков в двух текстах кохау ронго-ронго: тексте “Тахуа” (в таблице он обозначен буквой “Т”) и тексте “Аруку-Куренга” (буквы “А. К.” в таблице). Кроме того, для сопоставления был взят фольклорный текст острова Пасхи, повествующий о легендарном первом поселенце Хоту Матуа, Хоту-Отце. Этот текст был записан исследователями острова Пасхи латинскими буквами.

В графе таблицы, обозначенной буквами “Ал.”, приводится частота появления в нем новых букв. Но ведь можно подсчитать частоту появления не букв, а целых слогов, и тогда мы получим характеристику слогового письма (на случай, если кохау ронго-ронго записаны им). (Графа таблицы, обозначенная буквами “Сл.”).

Подсчитав частоту появления в том же тексте новых морфем, то есть новых корней слов и грамматических частиц, мы получим характеристику “поморфемного” письма, (графа “Морф.”), а подсчитав частоту появления новых слов, — письма “пословного” (графа “Слов.”)

Сопоставим затем данные по текстам кохау ронго-ронго с данными по тексту Хоту Матуа и древнеегипетскому иероглифическом тексту. Нетрудно убедиться в том, что письмо острова Пасхи никак не может быть алфавитным или слоговым: слишком много новых знаков появляется в письме кохау ронго-ронго. А для того, чтобы оно оказалось письмом “поморфемным” или “пословным”, этих знаков слишком мало. Зато с древнеегипетской иероглификой данные текстов кохау ронго-ронго совпадают очень хорошо. Видимо, жители остров Пасхи пользовались иероглифическим письмом.


Классы знаков и статистика

Система письма определена. Что делать дальше? Следующим шагом в изучении неизвестного текста будет подсчет частоты отдельны знаков.

Если система письма — алфавитная, то самые частые знаки будут передавать самые “популярные” буквы неизвестного языка. Советскими исследователями В. Шеворошкиным и Б. Сухотиным разработан объективный метод, с помощью которого можно произвести разделение знаков неизвестного письма на две группы — группу гласных и группу согласных (подробно о нем читателям нашего журнала рассказал один из авторов этого метода, В. Шеворошкин, в статье “Язык царя Мавсола”, опубликованной в №7 журнала “Знание — сила” за 1965 год).

После разделения знаков на гласные и согласные можно провести и более точное деление. Например, гласная “а” почти в любом языке мира встречается чаще, чем гласная “у” и т. д.


СОПОСТАВЛЕНИЕ ЧАСТОТЫ ПОЯВЛЕНИЯ НОВЫХ ЗНАКОВ
(египетские, протоиндийские и тексты острова Пасхи)

 

 

 

Число знаков

Египет

Индия

о. Пасхи


Иерогл.

Фольклорный текст


Т.

А. К.

Ал.

Сл.

Морф.

Слов.


25

50

75

100

13

12

14

9

20

11

11

7

18

1

11

18

7

7

8

6

1

0

0

0

0

2

0

0

6

2

3

2

8

4

6

9


125

150

175

200

8

5

9

6

5

3

4

4

11

9

14

6

0

0

0

0

0

0

0

0

7

8

1

7

2

8

6

8

6

4

0

3


225

250

275

300

4

4

5

2

6

3

5

3

11

2

0

0

2

2

2

4

4

8

4

9

8

11

5

4

8

6

9

8

4

3

4

2


325

350

375

400

4

3

3

6

2

6

5

6

14

7

3

0

9

2

6

5

8

9

12

9

2

3

4

3

5

3

3

4

0

0

0

0


425

450

475

500

0

4

2

4

7

5

5

2

19

10

5

8

5

6

9

1

7

6

4

1

8

4

4

4

0

0

0

0

0

0

0

0


525

550

575

600

2

1

1

4

7

3

2

5

1

1

2

8

10

6

1

11

3

8

8

7

0

0

0

0

0

0

0

1

4

1

2

8


625

650

675

700

3

2

5

3

1

3

0

6

10

12

8

5

9

9

9

2

0

0

0

0

0

2

2

0

8

5

10

5

6

8

6

7


 

 

 

 

 

 

 

 

 

Но как быть, если письмо слоговое? Возможно ли и здесь разделить знаки на классы?

Работы Майкла Вентриса показали, что да. Ход мысли Вентриса был таков: в слоговом письме должны существовать два типа слогов. Первый тип передает “чистый гласный” (например, слог “а”, слог “е” и т. д.), второй — “гласный плюс согласный” или “согласный плюс гласный” (например, “ка”, “ак”, “ку”, “ук” и т. д.). Знаки первого типа должны встречаться, как правило, в начале слов. Ведь в середине и конце слова гласные входят в состав других знаков, передающих группу “гласный плюс согласный” или “согласный плюс гласный”; значит, знаки, чаще встречающиеся в начале слов, должны относиться к типу “чистый гласный”, а остальные — к типу “гласный плюс согласный” или “согласный плюс гласный”!

Если мы возьмем любой язык мира, то обнаружим в нем два типа морфем: “корневые”, составляющие основу слова, и служебные, грамматические, морфемы (приставки, суффиксы и т. д.). Точно так же и в иероглифическом письме одни знаки передают грамматические показатели, другие — основы, корни слов. Среди самых частых знаков — грамматические показатели, а среди редких — корневые морфемы.


Грамматика “языка икс”

Что делать дальше, если мы наметили “класс грамматических” и “класс корневых” знаков? Очевидно — выявлять грамматику неизвестного языка. Позволяют это сделать методы “позиционной статистики” (термин этот был предложен известным советским ученым Ю. Кнорозовым и получил “право гражданства” после доклада на одной из научных конференций, сделанного пионером советской школы кибернетики — профессором А. Ляпуновым).

Знаки, которые встречаются один, два, три раза в тексте, вряд ли могут передавать грамматические показатели. С уверенностью можно предполагать, что они обозначают неизвестные основы, корни слов. И почти с той же уверенностью можно считать, что среди окружения таких редких знаков должны быть более частые “грамматические” знаки. Позиция этих последних знаков по отношению к “корневым” и будет определять строение слов, морфологию “языка икс”.

Если грамматические знаки стоят перед корневым, то они являются приставками, префиксами или предлогами (сравнив русские слова “преграда”, “препятствие”, “предел”, “препона”, нетрудно выделить префикс “пре”, который имеет большую частоту, и корневые части).

Если грамматические знаки стоят после корневых, то они являются суффиксами и окончаниями (в нашем примере нетрудно выделить повторяющееся окончание “а” в словах “преграда” и “препона”).

Есть еще (но не в русском языке) инфиксы — знаки, попадающие внутрь корня.

Глаголы употребляются с одним видом грамматических частиц, существительные — с другими видами. Зная морфологию “языка икс”, можно выделить, какие из “грамматических знаков” (будь это суффикс, префикс или инфикс) “приклеиваются” к одному типу корневых знаков, а какие — к другому. Получается деление грамматических знаков на “именные” и “глагольные”, хотя мы и не знаем точно, какой же из этих типов “именной”, а какой “глагольный”, — мы знаем только, что есть два типа (тип “а” и тип “б”).

Грамматические знаки вступают в сочетания не только с корневыми знаками, но и. друг с другом (например, в слове “встречающийся” к основе “встреч” присоединено несколько грамматических частиц). И сочетание это происходит не только “вплотную”, в одном слове, но и через определенный интервал, — ведь мы согласуем нашу речь в роде, числе, падеже и т. д.

Зная, как согласуется тот или иной грамматический знак с другим грамматическим знаком, мы можем выявить теперь не только морфологию, но и с и н т а к с и с “языка икс”.

А зная морфологию и синтаксис неизвестного языка, мы имеем право сопоставлять этот “язык икс” с любым из известных нам “живых” или древних языков и посмотреть, совпадает ли их грамматика. Если она сходна, значит, мы можем приступать к непосредственной дешифровке текста, опираясь/на законы языка известного, находить аналогии в неизвестном, отождествлять конкретные грамматические показатели “языка икс” с конкретными же показателями известного языка.


О распространенных заблуждениях

Тут к месту сказать о некоторых распространенных заблуждениях — распространенных не только среди широкой публики, но зачастую даже среди лингвистов.

Первое заблуждение: считают, что если письменность дешифрована. значит — полностью прочтены все тексты неизвестного письма.

Но ведь в таком случае можно с уверенностью сказать, что науке и по сей день не удалось дешифровать… практически ни одного древнего письма! В самом деле, ученые всего мира ведут напряженную работу по переводу древнеегипетских текстов: ведь и сейчас в них (например, в надписях, сделанных на пирамидах) очень много неясного и непереведенного. А ведь со времени великого открытия Шампольона прошло едва ли не полтора столетия!

Содержание ряда мест “Слова о полку Игореве” и поныне представляется нам неясным. Следует ли из этого вывод, что мы не дешифровали старославянской письменности? Разумеется, нет! Вот почему логично выделять два этапа работы по исследованию письменности — работы собственно дешифровщика и работы филолога, лингвиста.

Задача дешифровщика — определить систему письма, морфологию и синтаксис неизвестного языка, отождествить этот “язык икс” с известным языком. На этом и закончено, собственно, дело дешифровщика, а далее следует кропотливая и длительная работа лингвиста. И длиться она может годы и столетия (как у египтологов, получивших после дешифровки Шампольона возможность заняться анализом древнеегипетского языка и переводом текстов).

Заблуждение второе: чем больше текст, тем его трудней дешифровать. На самом же деле, как показывает практика, дело обстоит как раз наоборот. В достаточно длинном тексте можно легко определить систему письма, найти грамматические показатели, выявить морфологию и синтаксис, сопоставить данные, полученные на большом материале и тем самым проверенные, достоверные, — с данными других языков. В тексте малого объема такого оперативного простора, увы, нет.

Классический тому пример — таинственный диск из Феста. Мы не можем достоверно ответить даже на .первый вопрос: какой системой письма он написан. Число разных знаков (45) заставляло большинство исследователей полагать, что диск написан слоговым письмом. Но ведь общее число всех знаков равняется всего-навсего 241! И при таком крохотном объеме, естественно, явно не все знаки неведомой письменности, уникальным памятником которой является Фестский диск, использовались в надписи.

Правда, у нас имеется и другой способ определения системы письма — по частоте появления новых знаков (о котором мы рассказывали выше). Но и здесь он мало поможет — уж слишком мал объем текста, слишком рано прерывается кривая нарастания новых знаков, чтобы можно было делать достоверные выводы. Сопоставляя числа, полученные при подсчете частоты Новых знаков в иероглифическом письме и слоговых системах, с данными Фестского диска, автор статьи пришел к следующему выводу: данные диска находятся посредине между данными по слоговому и иероглифическому письму. Что это? Слоговая система письма, имеющая много знаков (типа критского линейного Б, где число различных символов равно 88)? Или же иероглифика, где использована только незначительная часть знаков (ведь в диске из Феста много повторов и текст явно однообразный)?

Будь у нас больше объем текста, длиннее надпись, мы смогли бы ответить на этот вопрос. А на сей день он, не говоря уже о грамматике языка Фестского диска, остается, увы, нерешенным.

Наконец, третье заблуждение, весьма недавнее по возрасту: “машинное чтение” древних текстов.


Люди и машины-дешифровщики

Специалистам по машинному переводу хорошо известно, что и по сей день проблема автоматического перевода с языка на язык остается нерешенной. А ведь языки-то хорошо изученные: русский, французский, английский! Что же говорить о “машинном чтении” неизвестных текстов с древних языков!

Но машина может и должна применяться в деле дешифровки письмен.

С 1963 года изучением древних письмен с помощью кибернетики занялся вычислительный центр ВИНИТИ — Всесоюзного института научной и технической информации. В свет вышли две публикации ВИНИТИ, выпущенные совместно с Институтом этнографии АН СССР. В первой из публикаций рассказывается о дешифровке письмен киданей, народа, обитавшего на территории Монголии и Северного Китая, чьим правителям одно время подчинялись китайские императоры.

Дешифровка показала, что язык киданей родствен языку монголов “Самую сложную работу — выявление статистических закономерностей, которое бы потребовало нескольких десятков лет работы, если бы это пришлось делать вручную, вычислительная машина сделала по специально составленным программам менее чем за 30 часов”, — говорит директор ВИНИТИ профессор Александр Иванович Михайлов.

Затем ВИНИТИ и Институт этнографии опубликовали “Предварительное сообщение об исследовании протоиндийских письмен” — древнейшей письменности долины Инда. До последнего времени язык создателей культуры Мохенджо-Даро и Хараппы оставался тайной для исследователей.

С помощью вычислительных машин, проделавших всю утомительную статистическую работу, нужную для выявления структуры “языка икс”, была установлена грамматика протоиндийского языка. Затем полученный “язык икс” сопоставлялся с языками — претендентами на “протоиндийский престол”. В результате этого сопоставления (его делали уже не машины, а филологи) оказалось, что язык протоиндийских текстов по всем своим основным характеристикам близок. дравидским языкам, на которых и поныне говорят жители Южной Индии.

Перед исследователями стоят многие интересные задачи: это и дальнейшее исследование киданьских и протоиндийских текстов, и изучение текстов кохау ронго-ронго, и письмен острова Крит, будь это линейное А, иероглифы или таинственный диск из Феста.

Конечно, и в дальнейшем за человеком в дешифровке останется главное: составление необходимых программ для подсчетов, осмысление полученных чисел, выведение формулы “языка икс” и сопоставление ее с формулами известных языков. Быть может, две последние операции также удастся автоматизировать — это одна из важнейших задач программистов.

Если это удастся, ну что ж! Ведь и тогда дешифровка древних текстов не потеряет своей вековой романтики. Только на смену романтике долгих лет утомительного корпения над текстами, романтике внезапных взлетов и озарений (вспомним Шампольона!) придет романтика нашего века — романтика предельно точного расчета, романтика торжества человеческого разума, который может “очеловечить” работу металла и электронов, работу вычислительных машин — прямых наследников деревянных счетов и арифмометров!

Хостинг от uCoz