Исследование: русский язык — это 1,5 мегабайта информации

Исследование: русский язык — это 1,5 мегабайта информации

Сколько нужно усвоить, чтобы хорошо изучить язык, и знают ли младенцы хотя бы какие-то его основы?

Саморазвитие
Фото: YouTube

Как мы овладеваем родным языком? Даются ли нам знания основ языка и грамматики от рождения, как утверждают нативисты? Или, как предполагают эмпирики, язык нужно полностью изучать с нуля?

У этой дискуссии долгая история. Чтобы получить ответ, нужно отбросить теории в сторону и посмотреть, сколько информации необходимо выучить, чтобы говорить на языке, как взрослые, утверждают Фрэнсис Моллика из Рочестерского университета и Стивен Пиантадоси из Университета Калифорнии в Беркли. Например, если количество информации огромно, это может указывать на то, что все это невозможно выучить без сложных врожденных языковых механизмов. В своей новой работе, опубликованной в Royal Society Open Science, Моллика и Пиантадоси предполагают, что некоторые языковые знания могут быть врожденными — но, вероятно, не синтаксические знания (грамматические правила, которые лежат в основе правильного порядка слов), о которых чаще всего говорят нативисты. Они считают, что не стоит слишком фокусироваться на том, учатся ли синтаксису или эти знания врожденные.

Моллика и Пиантадоси разработали примерные верхнюю, нижнюю и усредненную оценки, сколько информации мы должны впитать, чтобы овладеть различными аспектами языка — идентифицировать фонемы (единицы звука), словоформы и лексическую семантику (значение слов и отношения между ними), а также синтаксис, например.

Для этого они использовали сложные подсчеты. (Если вам нравятся уравнения, занимающие всю страницу, вы должны обязательно посмотреть их статью.) Но их фундаментальный подход заключается в том, чтобы вычислить количество «бит», необходимых для определения результата — значения слова, например ,— «из убедительного пространства логически возможных альтернатив».

Используя этот подход, они оценивают, что хранение необходимых знаний о фонемах занимает всего около 750 бит (бит — это двоичная единица информации, используемая в вычислениях; 8 миллионов бит эквивалентны 1 мегабайту). Типичный словарь взрослого, состоящий примерно из 40 тысяч слов, включает в себя около 400 тысяч бит лексических знаний. Для хранения информации о том, что означают все эти слова, требуется где-то в районе 12 млн бит. Исследователи предполагают, что человеку, изучающему язык, нужно еще хранить около 80 тысяч бит информации о частоте слов.

Затем Моллика и Пиантадоси обратились к синтаксису. «Синтаксис традиционно был полем битвы для дебатов о том, сколько информации дается от рождения, а сколько — изучается, — пишут они. — Перед лицом крайне несовместимых и экспериментально недостаточно определенных синтаксических теорий мы стремимся изучить этот вопрос настолько независимо, насколько это возможно». Они считают, что нам нужно хранить только очень небольшое количество данных о синтаксисе — возможно, всего 667 бит. Согласно этим оценкам, врожденное знание синтаксиса не особенно полезно, поскольку приобрести его не слишком сложно.

Синтаксические знания не требуют огромного количества знаний, но общий объем связанной с языком информации, которая должна храниться в мозгу опытного носителя языка, огромен: около 1,5 мегабайт. Если все верно, это означает, что до 18 лет ребенок должен будет запоминать в среднем от 1 до 2 тысяч бит информации каждый день. По самой низкой оценке исследователей, для достижения взрослого уровня владения языком требуется, чтобы ребенок изучал 120 бит в день.

«Чтобы быть наглядными, каждый день в течение 18 лет ребенок должен просыпаться и запоминать, в точности и на всю оставшуюся жизнь, объем информации, эквивалентный информации в этой последовательности:
011010000110100101100100011001000110010101101110011000010110001101100011
011011110111001001100100011010010110111101101110″

Такое феноменальное когнитивное достижение подразумевает, что овладение языком основано на «удивительно сложных механизмах обучения, памяти и умозаключений», говорится в комментарии исследователей.

Все цифры приблизительные, подчеркивают они. Но, несмотря на это, их оценки предполагают, что ни нативистский, ни эмпирический подход не дают реального представления о том, как мы представляем лексическую семантику (значения слов) — что, как указывает их работа, в подавляющем большинстве служит самым главным вызовом в изучении языка.

«Наши результаты показывают, что если какое-либо специфическое знание языка врожденно, оно в первую очередь решает огромную проблему изучения лексической семантики, а не других областей, которые требуют на порядок меньше информации», — заключают Моллика и Пиантадоси.

Источник

Свежие материалы