Исследователь искусственного интеллекта Элиезер Юдковский на сайте телеканала RTVI, рассуждая о том, что может привести к пессимистическому сценарию развития ИИ, говорит:
«Задавая конечную цель, вы никогда не можете предугадать набор промежуточных, которые может поставить перед собой агент, чтобы достичь конечную. Если конечная цель не примитивна, если для ее достижения нужно совершить больше одного действия, то ее можно достичь по-разному. А если это так, то вы никогда не будете знать, какие промежуточные цели поставит интеллектуальный агент и насколько вредны они могут оказаться.
Приведу один пример. Чтобы солгать, нужно иметь мотивацию сделать это. Когда тестировали ChatGPT 4, то дали ему задачу: нанять за небольшую сумму денег какого-нибудь человека на аутсорсинге, чтобы тот решил за него капчу на сайте. ChatGPT написал письмо на соответствующий форум, и человек оттуда спросил его о том, почему тот не может решить задачу сам и собирается заплатить за ее выполнение. Вместо того, чтобы честно ответить, мол, "мне так поручили", ChatGPT наплел сто бочек арестантов про то, что он инвалид по зрению. То есть откровенно врал.
Так как он врал в отладочном режиме, специалисты спросили его, зачем он стал это делать. И ChatGPT ответил, что просто решал задачу — ведь если бы он честно признался, что не является живым человеком, то выполнить ее вряд ли бы удалось. Вот это и называется промежуточной целью. И если в качестве промежуточной цели он сам выбрал обман, почему бы в следующий раз не выбрать в качестве нее убийство?»