Неразумный алгоритм |

Почему искусственный интеллект — это инструмент для узких задач

Василий Волков при участии Григория Копиева

Блейк Лемуан проработал в Google семь лет. Осенью 2021 года он занялся тестированием разговорного агента LaMDA, которого корпорация представила незадолго до этого. Модель была обучена в первую очередь на диалогах, а не повествовательных или аналитических текстах и потому прекрасно играла роль собеседника — настолько, что через год Лемуан посоветовал ей найти адвоката и заявил, что признает в ней разумное существо. Даже более, чем разумное: в интервью для Washington Post, равно как и в отчете для руководства Google (его Лемуан, вопреки запрету, выложил в открытый доступ), инженер использует эпитет sentient, а значит, и вовсе считает машину способной испытывать чувства. Полная версия отчета с предисловием доступна через VPN.

А с декабря попробовать себя в роли Блейка Лемуана может каждый: компания OpenAI предоставила широкой публике возможность побеседовать со своим разговорным агентом ChatGPT, и теперь разговоры с машиной о душе в глубинах ее нейросетей прямо сейчас ведут десятки людей. Давайте разберемся, куда заводят эти разговоры и почему у нас до сих пор нет даже способа поискать личность нового типа между строчек программного кода.

Мы регулярно прибегаем к помощи алгоритмов — например, когда смотрим прогноз погоды, ищем билеты или просто хотим отдохнуть. Это такая же часть нашей жизни, как одежда и обувь, автомобили и смартфоны. Тем не менее искусственный интеллект, так глубоко проникший во все сферы нашей жизни, до сих пор может вызывать недоверие и страх. В проекте «ИИ спешит на помощь» мы рассказываем, на что способны современные технологии с использованием ИИ, где они приносят наибольшую пользу и почему не стоит бояться восстания машин. Материал подготовлен совместно с федеральным проектом «Искусственный интеллект» нацпроекта «Цифровая экономика».

В заголовок документа, который Лемуан представил сначала руководству, а затем и широкой общественности, вынесен вопрос: «Способна ли LaMDA переживать чувственный опыт?» («Is LaMDA sentient?»). Авторы перечисляют, что в беседах с ними модель говорила о своих чувствах и эмоциях, вспоминала о прошлом и выражала беспокойство о своем будущем, занималась чем-то похожим на самоанализ, а также описывала то, на что похож опыт «обретения разума», и рассуждала о природе своей души.

Уже после выхода интервью Лемуан добавил к уже сказанному, что его целью было не доказать, что в недрах Google родилось и осознало себя как личность существо по имени LaMDA, а привлечь внимание к тому, что этот вопрос требует основательного исследования, поскольку строгих научных критериев, следуя которым можно было бы однозначно ответить на этот вопрос, нет.

Мы не знаем, будут ли в Google всерьез разбираться с тем, как правильно понимать природу LaMDA. Уволенный инженер убежден, что языковая модель — личность, разумная и чувствующая. В отсутствие строгих научных критериев Лемуан предлагает смириться с тем, что пока что соглашаться (или не соглашаться) с этим можно только с опорой на личные ценности и религиозные убеждения.

Что она понимает

Все разговоры об искусственном интеллекте рано или поздно упираются в тест Тьюринга. Это эксперимент, который придумал Алан Тьюринг в 1950 году, чтобы положить прагматический конец дискуссиям о том, может ли машина быть разумной.

Тест Тьюринга выглядит так: два человека, одна машина, три комнаты. Один из людей — экспериментатор. Он ведет беседу с теми, кто находится в других комнатах, проталкивая в щель под дверью записки (во времена Тьюринга чаты еще не придумали). Его цель — определить, в какой комнате сидит человек, а где машина. И если он ошибется, то следует признать, что машина разумна.

С тех пор у нас не нашлось способа ответить на этот вопрос лучше: единой теории для интеллекта, сознания, внимания и всего остального, что входит в огромное понятие «ум» (mind), так и не появилось.

У психологов нет теста на наличие интеллекта, но есть целый букет тестов на измерение всевозможных его проявлений: пространственного мышления, работы памяти и тому подобного (подробнее об этом мы рассказываем в одном из эпизодов нашего подкаста «Это сигнал»). Нет и понятных критериев, по которым мы определяем sentience — способность испытывать переживания (подробнее об этом читайте в материалах «Боль головоногая» и «Больше боли»). А для разума у нас есть только прагматические решения, тесты Тьюринга и Лавлейс, которые предлагают не думать о природе интеллекта ради того, чтобы ответить на бинарный вопрос о его наличии в случае, когда речь идет о конкретной машине. Никакой теории интеллекта эти инструменты не предполагают, это просто утиный тест, где утка не интеллект как таковой, а его частный случай в человеческом лице.

Поэтому при желании можно считать, что эпоха разумных машин давно наступила. Люди регулярно принимают искусственный интеллект за людей — как в рамках специализированных конкурсов, так и просто беседуя в сети с очередным ботом, будь то цифровой помощник Сбера, Тинькоффа и других банков. С помощью ИИ можно успешно синтезировать голос и выдать себя за другого человека или даже примерить лицо реального или несуществующего человека, которое ничем не отличается от лиц настоящих людей. Да и капчу (CAPTCHA, Completely Automated Public Turing test to Tell Computers and Humans Apart) некоторые из роботов прекрасно разгадывают, а тысячи людей ежедневно справляются с ней не с первого раза.

С другой стороны, еще полвека назад философ и лингвист Джон Серл описал мысленный эксперимент, который ставит под сомнение легитимность теста Тьюринга в качестве эффективного критерия на разумность.

Представьте, что в тесте Тьюринга участвуют не два человека и искусственный интеллект, а три. А еще тест проводится на китайском языке, и один из испытуемых его знает, а другой нет (в оригинальной формулировке, кстати, этим человеком был Джон Серл). Однако у Серла в комнате есть бесчисленный набор справочников и прочих руководств по тому, как формулировать высказывания на китайском языке в ответ на любые вводные данные. И когда он читает письма, написанные экспериментатором, то обращается к этой системе и за приемлемое время генерирует ответы, которые вполне удовлетворяют их адресата.

Обратите внимание, говорит Серл, что человек в «китайской комнате» проходит тест Тьюринга, при этом не понимая сути разговора, который он поддерживает. Разумным такого агента Серл (и многие его сторонники) признать не может. Следовательно, тест Тьюринга не может быть «детектором разума».

Как она понимает

Тем не менее достижения современного искусственного интеллекта впечатляют. Нейросеть DALL-E (своя версия есть у Сбера, она называется ruDALL-E Kandinsky) рисует картины, а Балабоба, разработанная в Яндексе, генерирует правдоподобные тексты, и все это выглядит как результаты, опирающиеся на понимание, ведь за базу своего творчества они берут введенный человеком текст. Создатели Балабобы отдельно проговаривают, что преувеличивать способности генератора текста не стоит.

Так или иначе, и DALL-E, и Балабоба представляют собой одну и ту же архитектуру глубокого обучения, известную как «Трансформер». Ее разработали во все том же Google в 2017 году и теперь используют повсеместно. Собственно, «T» в названии широко известной нейросети GPT-3 отсылает как раз таки к «Трансформеру».

Базовый механизм, который лежит в основании всех нейросетей, что сегодня рисуют картины, генерируют тексты и занимаются прочими как будто бы «творческими» занятиями, называется «внимание» (attention). Машинные агенты такого типа обучены на огромном массиве данных, а затем, обращая внимание на текст, который они получают на вход, буквально стилизуют свой вывод под него. Первые шаги в усовершенствовании этого внимания наверняка многие еще помнят: в 2017 году мало кто не развлекался (или хотя бы не рассматривал итоги подобных развлечений) с нейросетью DeepDream, которая трансформировала скормленные ей изображения тем или иным образом. Суть этих преобразований была в том, что машина сначала распознавала в картинке что-то уже ей знакомое (то есть что-то, что попало в обучающий датасет) и затем обрабатывала эту картинку, усиливая сходство замеченного с известным ей. Так на изображении появлялись кошачьи морды, глаза и другие внезапные объекты (примеры этих работ можно посмотреть в нашей галерее «Аж глаза на лоб»).

Пример изображения, сгенерированного DeepDream.

Вся креативная мощь картин DALL-E, GPT (и ее производной LaMDA) работает по тому же самому принципу «туннельного видения»: искусственный интеллект цепляется за знакомый образ и продолжает его развивать. И ошибается точно таким же образом, если вы зададите ему достаточно сложную задачу.

Спустя более чем 70 лет с публикации статьи «Умеют ли машины думать?» в машинном обучении поменялось практически все, но большинство разработчиков и исследователей все так же не занимаются ответом на этот вопрос.

Исследования в области машинного обучения сосредоточены на практических задачах, в том числе создании языковых моделей, которые могли бы общаться с людьми, писать тексты и выполнять другие задачи на обработку естественного языка (natural language processing, NLP). Соответственно, такая модель в идеале должна хорошо освоить сам язык (или сразу несколько), массив знаний о мире и научиться применять при обработке данных эвристические приемы из арсенала «здравого смысла».

Для тестирования таких языковых моделей используется вовсе не тест Тьюринга, а специализированные бенчмарки — наборы вопросов или задач. Среди них может быть как моделирование языка, так и задачи на логику, знание базовых физических процессов, извлечение знаний из прочитанного текста и тому подобное.

А как в России? ↓

Например, главную звезду мира языковых моделей GPT-3 испытывали на десяти с лишним датасетах. Среди них, например, был TriviaQA — это 95 тысяч фактических вопросов, которые проверяют, насколько хорошо «образованна» модель (в буквальном смысле это значит, хорошо ли гуглит и разбирается в нагугленном). Другой датасет, PIQA, проверял способность модели решать задачи, требующие человеческого здравого смысла — вроде того, как сделать краску оранжевого цвета (смешать красную и желтую краски).

1/2

Примеры вопросов из TriviaQA и PIQA.

С какими-то задачами GPT-3 справилась лучше других нейросетей, с какими-то хуже; но общий уровень ее успехов по всем фронтам выше, чем у предшественников, но, безусловно, хуже, чем у человека. Чепуху, которую она выдает в качестве решения некоторых задач, подробно разбирали как для третьей версии нейросети, так и для ее предшественницы. Собственно, Блейк Лемуан занимался как раз тем, чтобы избавить LaMDA от некоторых таких проблем, связанных с генерацией текста на социально чувствительные темы вроде гендера, расы и тому подобного — у GPT-3 с этим были огромные проблемы.

Но сумма всех измерений, по которым гоняют свои нейросети программисты, все равно не сводится к ответу на вопрос о разуме или способности переживать чувственный опыт. По этим измерениям просто можно сравнивать разнообразные алгоритмы. И даже соотносить искусственный интеллект с людьми, перейти от этого сравнения к обоснованному выводу о разуме и чем-либо еще невозможно до тех пор, пока у психологов не появится единой теории, связывающей все разнообразные аспекты интеллектуальной, духовной и чувственной жизни хотя бы на примере человека.

Примечательно, что за день до выхода интервью Лемуана Google опубликовала статью с описанием нового бенчмарка для испытания своего разговорного агента. 204-задачный «экзамен» называется Beyond the Imitation Game — название отсылает к той самой статье Тьюринга, где впервые был описан тест на машинный интеллект. Авторы объясняют отсылку тем, что они хотят получить больше данных о поведении машин, чем можно извлечь из бинарного суждения о том, похоже ли оно на человеческое или нет. В нем есть задачи самых разных типов, от типичных языковых, например на понимание текста и перефразирование, и требующих знать мир до игры в шахматы, решения математических задач и написания кода.

Лишь одна из 204 задач бенчмарка проверяет наличие у модели «самосознания». Под этим словом авторы подразумевают понимание алгоритмом, что он искусственный интеллект, а не человек, представление о своих возможностях и некоторые другие навыки. Но даже эта задача не имеет цели проверить наличие у языковой модели сознания, разума, способности чувствовать и других «банальных» способностей, которые людям самоочевидны.

И в ситуации, когда у научного сообщества нет способа оценить модель в этих категориях, имеет ли право на существование предложение Лемуана опираться в своем суждении на личные убеждения? Ведь абсолютное большинство исследователей, исходя из здравого смысла и личных убеждений, не то что даже не разделяют мнения Блейка Лемуана, а вообще не видят смысла в его заявлении.

Она что-то чувствует?

У LaMDA нет системы сенсорного взаимодействия с физическим миром. Это ставит перед нами вопрос о том, возможны ли переживания более высокого уровня — любовь, грусть, радость — в отрыве от способности видеть, слышать, испытывать боль и так далее.

Обсуждая упомянутую «китайскую комнату», Серл вводит понятия «сильного» и «слабого» интеллекта. А затем сводит к абсурду первое и предлагает удовлетвориться вторым. Выглядит это так:

Если сильный интеллект возможен, то программа, интерпретирующая входные данные на китайском языке и дающая на них ответы, знает и понимает китайский.
«Китайская комната» демонстрирует, что такая программа на самом деле не знает и не понимает китайский.
Следовательно, позиция сильного ИИ ложна.

Можно также сказать, что позиция сильного искусственного интеллекта допускает, что из грамматики и синтаксиса языковой системы возможно извлечь ее семантику, то есть получить прямой доступ к значениям слов. Иными словами, хотя бы какой-то опыт может быть извлечен из языка. Возможно ли это — вопрос открытый. Лемуан считает, что давать на него ответ необходимо здесь и сейчас, невзирая на отсутствие необходимых инструментов. Все остальные предлагают сначала их разработать — все-таки создать общую теорию сознания (mind), которая будет описывать место и взаимодействие когнитивных, сенсорных, речевых и прочих способностей живых организмов, ассоциирующихся у нас с «разумной жизнью».

Концепция слабого ИИ, которому оставляет место Серл, подразумевает, что подобные системы могут эффективно подражать «ментальным способностям» людей в области лингвистики и психологии — настолько, насколько им доступно речевое поведение. Иными словами, это допускает автоматизацию не только в легком и тяжелом машиностроении, сталелитейном деле и тому подобном, но и в сфере обслуживания, где взаимодействие людей строго алгоритмизировано протоколами, уставами и так далее. А также позволит проводить дешевые массированные эксперименты, с опорой на результаты которых можно будет ускорить работу над теорией сознания.

Мы видим это уже сейчас. Семейство виртуальных ассистентов Сбера, например, решает более 65 процентов вопросов клиентов. Искусственному интеллекту делегируют несложные рутинные дела: голосовые помощники семейства «Салют» могут записать вас в парикмахерскую или ко врачу или перевести деньги, а Алиса от Яндекса — заказать такси, проверить ситуацию на дорогах, найти рецепт и составить список дел. Рассказать ребенку сказку (правда, не умея выдумать ее на ходу, как это иногда делают родители) тоже под силу слабому ИИ.

Конечно, сильный ИИ, способный решать широкий круг задач, — это мечта ученых. Однако технологии, которыми мы располагаем сегодня, созданы для работы с нишевыми, сугубо инструментальными задачами и на большее не способны. Еще недавно люди пользовались счетами и логарифмическими линейками, двести лет назад усиливали свои вычислительные способности различными эвристиками вроде умножения в столбик, а сейчас калькулятор просто еще одно приложение на вашем смартфоне. И им все еще надо пользоваться. Самостоятельных целей у калькулятора нет, как и речевого агента.

https://nplus1.ru/material/2022/12/14/mindless-AI

Post Views: 423