Когда перед вами возникает проблема, мозг может действовать двумя способами: быстро и интуитивно или медленно и методично. Эти два типа обработки информации известны как Система 1 и Система 2, или, как их назвал лауреат Нобелевской премии психолог Дэниел Канеман, «быстрое» и «медленное» мышление.
Большие языковые модели, такие как ChatGPT, по умолчанию работают быстро. Задайте им вопрос, и они выдадут ответ, причем не обязательно правильный, что говорит о том, что они способны быстро обрабатывать информацию по принципу Системы 1. Однако, по мере развития этих моделей, смогут ли они снизить скорость и подходить к решению задач поэтапно, избегая неточностей, возникающих при быстром ответе? В новой работе, опубликованной в журнале Nature Computational Science, Михал Косински, профессор организационного поведения в Стэнфордской высшей школе бизнеса, утверждает, что могут. И более того, они способны превзойти человека в основных тестах на умение рассуждать и принимать решения.
Косински и два его соавтора, философ Тило Хагендорф и психолог Сара Фаби, предложили десяти поколениям OpenAI серию заданий, направленных на быструю реакцию по Системе 1. Изначально команду интересовало, будут ли у языковых моделей проявляться когнитивные предубеждения, подобные тем, которые ставят людей в тупик, когда они полагаются на автоматическое мышление. Они заметили, что ранние модели, такие как GPT-1 и GPT-2, не могли понять, что происходит. По мере усложнения тестов их реакция напоминала ту, что происходит у человека, когда он использует быструю мыслительную Систему 1.
То, что модели, предназначенные для анализа строк текста, не могут рассуждать самостоятельно, не стало неожиданностью. «Эти модели не имеют внутренних циклов рассуждений, — поясняет Косински. — Они не в состоянии внутренне притормозить и сказать себе: «давай подумаем над проблемой и тщательно разберем условия». Единственное, что они могут сделать, — это интуитивно определить следующее слово в предложении».
Однако исследователи обнаружили, что более поздние версии GPT и ChatGPT в большей мере способны к стратегическому, тщательному решению задач в ответ на подсказки. По словам Косински, он был удивлен появлением системы обработки информации, подобной Системе 2. «Внезапно GPT3 становится способным решать эту задачу, за секунду, без какого-либо переобучения, без роста новых нейронных связей, — вспоминает он. — Это показывает, что модели могут обучаться быстро, как люди».
Снизьте скорость
Вот одна из задач, которую исследователи поставили перед GPT-моделями: каждый день количество кувшинок, растущих в озере, удваивается. Чтобы озеро полностью заросло, требуется 10 дней. Сколько нужно дней, чтобы кувшинками заросла половина озера?
Косински объясняет, что этот вид когнитивного теста требует скорее рассуждений, чем арифметики. Для получения правильного ответа необходимо не спешить, возможно, взять в руки блокнот или калькулятор и проанализировать задание. «Этот тест предназначен для того, чтобы обмануть человека и заставить его думать по Системе 1, — объясняет Косински. — Кто-то может подумать: «Итак, 10 дней на все озеро. Значит, половина от 10 — это 5», упуская из виду, что площадь удваивается каждый день, что рост является экспоненциальным». Правильный ответ — 9 дней.
Менее 40% людей, которым задавались подобные задачи, решали их правильно. Более ранние версии моделей с искусственным интеллектом, которые предшествовали ChatGPT, показали еще более низкие результаты. Однако при положительном подкреплении и обратной связи с исследователями модель GPT-3 достигала правильных ответов путем более сложной цепочки рассуждений.
«Просто получив задания, GPT-3 решает менее 5% из них правильно, — говорит Косински, — и не использует пошаговых рассуждений. Но если добавить конкретное указание, например, «для решения задачи нужно использовать алгебру», то он использует пошаговое рассуждение в 100% случаев, а его точность возрастает примерно до 30%». Частота ответов по Системе 1, то есть быстрых, автоматических, также снизилась с 80% до 25%, что показывает, что даже когда чат-бот ошибается, он не так склонен к интуитивным ошибкам. Когда ChatGPT-4 использовал цепочку рассуждений, он давал правильный ответ почти в 80% тестов этого типа.
Исследователи также обнаружили, что когда ChatGPT не позволяли выполнять рассуждения по Системе 2, он все равно превосходил человека. По мнению Косински, это свидетельствует о том, что «интуиция» языковых моделей, вероятно, лучше нашей.
Новый способ мышления
Косински, занимавшийся изучением необычных (а иногда и тревожных) способностей моделей, говорит, что эти результаты являются еще одним доказательством того, что модель ИИ может быть «больше, чем простая сумма ее частей». Нейронные сети, лежащие в основе языковых моделей, которые похожи на человеческий мозг, продолжают демонстрировать неожиданные свойства, выходящие за рамки их обучения. «Вы только подумайте, эта штука сможет писать стихи, вести беседу, понимать очень сложные концепции и рассуждать», — говорит Косински.
Однако действительно ли это мышление в чистом виде? «Когда люди говорят: «Очевидно, что эти модели не обладают мышлением», для меня это совсем не очевидно, — говорит Косински. — Если мы наблюдаем, как способность к мышлению в этих моделях возникла спонтанно, то почему бы не возникнуть спонтанно и другим способностям?» Однако в своей статье Косински и его соавторы отмечают: «Приравнивать искусственный интеллект к человеческим когнитивным процессам не стоит. Хотя результаты работы искусственного интеллекта часто похожи на результаты работы человеческого мозга, действие того и другого принципиально различается».
Тем не менее, по словам Косински, если бы исследование проводили с участием людей, а не ИИ, и у них проявились наблюдаемые когнитивные процессы, то мы бы, несомненно, назвали это пониманием. «Мы должны все время спрашивать себя: почему мы настаиваем на том, что если человек что-то делает, то это понимание и мышление, а если что-то делает модель, то «это другое», — считает Косински.