Научно-технический вебинар “Как определить, что AI - сильный?”
19 декабря 2020, 18:00 МСК

О ВЕБИНАРЕ

Спикер
Николай Михайловский, Генеральный директор, НТР
Тема
Научно-технический вебинар “Как определить, что AI - сильный?”
Подробнее про вебинар

Создание сильного ИИ означает развитие искусственного интеллекта до такой степени, что интеллектуальные возможности машины в некотором смысле станут равны человеческим. Наука - определенно одно из высших достижений человеческого интеллекта (а другое – искусство). Научное исследование заключается в создании гипотез, которые представляют собой модели  ограниченной применимости, осуществляющие сжатие информации с потерями. В этой работе мы показываем, что эта парадигма присуща не только науке, но и другим наиболее развитым областям человеческой деятельности, таким как бизнес и инженерия. Таким образом, мы утверждаем, что сильный ИИ должен обладать способностью строить такие модели. Тем не менее, известные тесты для подтверждения ИИ человеческого уровня не учитывают это соображение.

На основании вышеизложенного мы предлагаем серию из шести абстрактных тестов возрастающей сложности, чтобы проверить, достиг ли ИИ интеллекта человеческого уровня (Объяснение, Постановка проблемы, Опровержение, Предсказание нового явления, Создание бизнеса, Создание теории), пять из которых являются новыми для литературы по AGI.

Запись прошедшего вебинара: https://www.youtube.com/watch?v=zp9k5_EoDiY&list=PLql8_uJWEMp_2yZtp-gPkFiSkOH1Ta_Fb&index=1

Презентация: https://drive.google.com/drive/u/1/folders/13KZX9KWi6VZ2GGgQh3QVoHDzBOx4NMRk

(00:00:00) (Начало записи)

Модератор: Хорошо, будем начинать. У нас сегодня два крупных окладчика – Николай Михайловский из NTR Lab и Артем Родичев из «Реплики». Я думаю, уже в таком порядке, сначала Николай начнет и потом Артем. Мы разберем две весьма интересные статьи – одну от самого Николая, вторую, которую выбрал Артем, тоже весьма интересную. Давайте начнем.

Николай Михайловский: Добрый день. Я, как уже было сказано, Николай Михайловский. Я генеральный директор компании NTR – это среднего размера заказной разработчик с большой частью практики в машинном обучении. Я так же неким образом аффилирован с Томским государственным университетом, с его Высшей IT школой, и пытаюсь там из студентов и других приспособлений собрать науку.

То, что мы сейчас будем обсуждать, было принято на AGI 2020, там, к сожалению, это обсудить не удалось. Работа имеет неким образом скорее философский какой-то толк нежели, чем практический. Но я надеюсь, что когда-нибудь я доползу до того, чтобы что-то в этой области сделать, может быть, не самому, но вместе с кем-то, кто делает руками. Тогда, может быть, какая-то польза от этого всего будет.

Основное, что хочется обсудить – это то, как устроено познание, и что это означает для сильного искусственного интеллекта. Инструментальная часть, если мы в некотором смысле понимаем то, как устроено познание, то, может быть, мы можем сконструировать те тесты, которые позволят определить, сконструировали мы сознание или нет, в некотором смысле.

Поэтому мы поговорим о тех тестах на интеллект, которые были уже предложены, потом обсудим, что такое познание и что такое знание, как устроено научное знание, как аналогичным образом устроено в других областях человеческой деятельности, и то, как из всего, что мы обсуждали, вывести некие инструментальные тесты, которыми можно что-то проверять, по крайней мере в теории.

Если у кого-то возникнут вопросы по ходу – задавайте. То, чего мне больше всего хочется – это некой содержательной, осмысленной критики всего этого и осмысленного обсуждения. Поэтому не стесняйтесь, задавайте вопросы, критикуйте, вежливо перебивайте.

Модератор: Можно сразу вопрос?

Николай Михайловский: Можно.

Модератор: Ты несколько раз сказал интеллект и сознание, и познание. Хочется понять, про какие-термины английские ты в этом месте будешь говорить? Потому что интеллект и сознание – это ортогональные вещи, во многом сильно разные.

Николай Михайловский: Да. Поскольку все слайды будут на английском, можно будет онлайн пытаться перевести то, что я говорю, обратно на английский язык и понять, о каких английских терминах идет речь. Отмечу, что в том, что я говорю, несомненно будет и есть терминологическая путаница, поскольку многие понятия размыты, а использование этих понятий в философской литературе, в литературе по искусственному интеллекту, в литературе по машинному обучению разное.

Поэтому даже на уровне терминологии я с удовольствием приму критику, если кто-то скажет, то это не познание, а что-то еще.

(00:05:09).

Давайте обсуждать, потому что цель данной работы в том числе и в том, чтобы выработать язык, на котором об определенных вещах надо говорить.

Мужчина: Скажите, вы расскажете, на каких предыдущих работах вы основывались?

Николай Михайловский: Да. Более того, всем желающим я могу статью с AGI отправить, там список литературы нормальный. Чем здесь со слайдов переписывать список литературы, проще оттуда. На наших вебинарах есть такой обычай – рассылать презентации и записи после вебинара. Если Григорий пойдет по тому же пути, вероятно вам достанется эта презентация. Статью я с удовольствием разошлю.

Модератор: Без проблем это можно сделать. Более того, можно самостоятельно публиковать в наших каналах, в анонсах или в релевантных ссылках, feel free использовать Discord на полную.

Николай Михайловский: Да, для простоты я это всё залью в Discord.

Тесты на интеллект, что было предложено. Во-первых, все знают про тест Тьюринга. Во-вторых, есть такой человек Брингсъёрд, который предложил довольно большое количество разных тестов для определения general intelligence – это Lovelace тест, психометрические тесты, комната Пиаже – Мак Гуивера. Гёрцль некоторое количество тестов предложил и Нильсон Employment test. Давайте пробежимся по всем этим тестам и посмотрим, что это такое.

Про тест Тьюринга говорить даже не будем, я предполагаю, что это вещь, которая всем нам известна, и все понимают ее ограниченность. Тест Тьюринга выполнил, то есть хороший чат-бот может выглядеть в диалоге, как человек. Но это не дает ничего в части его сильного искусственного интеллекта, прохождение теста Тьюринга не обеспечивает наличие интеллекта у агента, не гарантирует. То есть оно выглядит, как настоящее, как те новогодние игрушки, но той радости уже нет. Поэтому тесты для того, чтобы выяснить, имеются ли у агента человеко-сравнимый интеллект, другие, не тест Тьюринга.

Один из тестов, предложенный Брингсъёрдом сотоварищи. Тест, который он назвал тестом Lovelace. Тест состоит в том, что агент ведет себя не интерпретируемым образом. То есть имеется искусственный агент, этот искусственный агент создан создателем H, и считается, что тест Lovelace пройден, если выход, повторяемым образом генерируемый агентом, не может быть объяснен создателем искусственного интеллекта или кем-то, ему эквивалентным.

(00:10:02).

То есть фактически это тест на не интерпретируемость. Всё, что дают нейронные сети, сейчас этот тест проходят, потому что мы не понимаем, как они работают.

Психометрические тесты. Опять же Брингсъёрд с другими соавторами предложил следующую идею. Окей, мы же меряем IQ и прочие вещи людей, прочие психометрические показатели. Давайте мы приложим то же самое к искусственному интеллекту и увидим, если он проходит все тесты, которые приложимы к человеку, не хуже людей, значит он молодец, он настоящий general AI. Если не проходит, значит на general AI.

Проблема здесь тоже понятна. С одной стороны, и среди психологов очень много критики всех этих психометрических тестов, то есть это критика и со стороны того, что оно не показывает соображение, а показывает в значительной степени натренированность, это и то, что имеются когнитивные и прочие bases в этих тестах, и то, что результаты качества этих тестов не обеспечивают ни успеха в будущем образовании, ни успеха в какой-либо деятельности. То есть эти тесты показывают то, насколько человек хорошо умеет решать эти тесты.

Тем не менее, на мой взгляд, такого рода тесты, примененные к искусственному интеллекту, уже нечто показывают. Если мы вспомним структуру, например, тестов на IQ, то некоторые задачи из этих тестов нынешними нейронными сетями очень легко решаются, а некоторые задачи находятся на пределе их возможности.

В конструктивной части работ Брингсъёрда много было посвящено тому, как научить системы, тогда еще основанные на правилах – это начало 2000-х годов, решать характерные для IQ тестов головоломки про вставку чисел в квадрат, про продолжение последовательностей и тому подобные вещи.

Тест комнаты Пиаже – Мак Гуивера. Тест состоит в следующем. Наполним комнату некими артефактами, дадим искусственному интеллекту описание того, какие артефакты находятся в этой комнате, то есть там могут быть, например, какие-то приборы, реактивы, станки, еще что-то, и дадим ему задачу построить что-то, что мы знаем можно сделать с помощью этих приборов.

Например, попросим его сделать шкаф, потом попросим построить пирамидку из гирек, попросим напустить дыма на пол.

(00:14:55).

То есть дав искусственному интеллекту предварительное описание того, что за предметы будут в этой комнате, но не давая содержания задач, мы определим, если искусственный интеллект может решить любую конструктивную задачу с предметами из этой комнаты, значит он действительно general AI, равный человеку. Если не сможет, значит надо дальше работать.

Гёрцль в своих работах, в том числе в обзорных работах предложил несколько разных тестов, которые пошли в городские легенды наравне с тестом Тьюринга. Например, Возняку приписывается тест кофейный – зайти в случайный американский дом и сделать кофе. Предположение, что в любом американском доме можно сделать кофе. Это подразумевает, что мы способны ориентироваться в незнакомом помещении, что мы должны понимать, что есть разные способы приготовления кофе, хотя у большинства будет кофе-машина, у кого-то могут быть турки или еще что-нибудь. Конечно, гипотеза о том, что в каком-то американском доме может не быть кофе, тут не рассматривается.

Тест на понимание историй. Прочитать историю или посмотреть ее на видео и ответить на разные вопросы. По сути это примерно эквивалентно разного рода экзаменам и прочим испытаниям, которые школьники на уроках литературы, русского или иного языка проходят и сдают.

Следующий тест является непосредственным расширением – выпуститься из школы. Опять же здесь школа понимается, как учреждение образовательное, а не воспитательное, хотя на самом деле школа в значительной степени, а в Штатах в бόльшей степени, является учреждением социализации нежели, чем учреждением образования. Но это не имеет отношения к тематике искусственного интеллекта, но понятно, что способность отвечать на вопросы младшей школы близка к тому, чтобы мы могли это реализовать на нынешнем уровне развития нейронных сетей.

Наконец научиться играть в произвольную видеоигру на основе только опыта этих игр. Понятно, что MU Zero этот пункт уже полностью выполнила, то есть MU Zero полноценно проходит последний из тестов Гёрцля.

Тест Нильсона. Он говорит следующее. Если искусственный интеллект сильный и в некотором смысле равен человеческому, то такой интеллект может заменить человека на любой подходящей работе. Мы на всех порах движемся к этому месту в части замены водителей, но пока что там не находимся.

(00:20:02).

Нильсон говорит, что уровень достижения AI человеческого уровня можно измерить тем, какую часть человеческих работ можно разумным образом поручить машине.

С этим тестом, как тестом на сильный искусственный интеллект, я более всего согласен из всего, что есть. Но на мой взгляд, в той форме, в которой оно сейчас есть, ему не достает некой научно-философской основы. Я попытаюсь эту научно-философскую основу, с одной стороны, подвести, а с другой стороны, дать некую линейку тестов, которые, возможно, могут быть выполнены или достигнуты последовательно, и некие ступеньки, по которым в будущем можно прийти к искусственном интеллекту сильному.

Для того, чтобы дать такую философскую парадигму, мы обратимся к теории Поппера о научном знании и его продвижении. Теория Поппера состоит в том, что научное знание развивается следующим образом. В ответ на некую проблемную ситуацию ученые высказывают некоторое количество потенциальных моделей. Дальше эти модели тестируются и определяются модели наиболее широко применимые в данной области, то есть те модели, опытные данные для которых наиболее широки, больше всего данных их подтверждают относительно данной проблемной ситуации.

Дальше, когда мы такую модель выбираем, развитие идет через постановку новой проблемной ситуации. Выглядит немного абстрактно, но, если попробовать это спроецировать, например, на какую-то характерную научную историю, оно становится достаточно понятным.

В чате правильно говорят, что проходятся игры для Atari, а first person шутеры не проходятся. Я подозреваю, что first person шутеры, может быть, где-нибудь и проходятся, но в открытой литературе об этом никто не публикует. Поскольку мы имеем что-то, что проходит first person шутеры, то это область знания и область интереса непосредственно военных, которые скорее всего публикации в этой области будут ограничивать. Это относится не только к российским, но и к китайским, и к американским военным. Поэтому, может быть, мы просто не знаем, а может быть действительно first person шутеры пройти намного сложнее. Я легко это допускаю. Во всяком случае это должно быть вычислительно тяжелее.

Возвращаясь к Попперовскому циклу и Попперовской постановке, ключевая вещь в Попперовском понимании научного знания состоит в том, что любая научная теория, гипотеза имеет ограниченную область применимости и научный поиск состоит в том, чтобы, с одной стороны, искать, тестировать границы применимости гипотез, успешно применять к каким-то новым ситуациям уже существующую теорию, а с другой стороны, экспериментально ища какие-то вещи, которые в теорию не укладываются.

(00:25:24).

Иными словами, в научном познании мы строим модели, которые объясняют феномены, то есть предлагают некий механизм, с помощью которого феномен происходит. Например, сводя к тривиальному, мы можем предложить объяснение тому, что перышко падает медленнее, чем дробинка через то, что более тяжелые предметы падают быстрее. Это объяснение было превалирующим на протяжении существования человечества. Однако Галилей предложил другое объяснение, что существует сила сопротивления воздуха, которая и не дает перышку падать так же быстро, как дробинка.

Когда мы строим любую модель, мы принимаем определенный взгляд на вещи, то есть мы смотрим на предмет с определенной точки зрения, отбрасывая всё, что для модели неважно. Например, если я хочу посчитать, обращаясь к физике, поскольку мне это проще, поскольку я когда-то был физиком по образованию, мне проще приводить примеры из элементарной физики нежели, чем из других каких-то областей. Но вероятно тем, кто обладает иным базовым образованием, придут в голову примеры, которые ближе к его родной когда-то области.

Если я хочу посчитать время, за которое я на санках съеду с горы с ребенком, то все равно, сколько лет ребенку, все равно, в какой я форме, кашляю я, не кашляю, во что я одет и так далее. Будут важны совершенно другие простые характеристики. На самом деле единственная вещь, которая будет толком важна – это коэффициент трения санок о гору. Тогда, как, если мы будем строить мою модель взаимоотношений с этим ребенком, то как раз эти все другие вещи будут важны, а то, каков коэффициент трения санок о снег, будет неважно.

Каждая научная модель имеет ограниченную область применимости. Это ключевое свойство моделей научного типа и это основное открытие Поппера. То есть основное, что Поппер открыл – это то, что наука от не-науки отличается тем, что наука постулирует ограниченность нашего знания. То есть, когда мы встречаемся с лженаукой или с псевдонаукой – марксизм или фрейдизм, огромное количество всякой дряни, которое сейчас у нас имеется в медиа – все эти штуки будут говорить: «Мы применимы всегда, мы работаем всегда». Это явный, четкий признак лженауки. Открытие Поппера в этом состояло. Любая научная теория, в принципе наука постулирует и имеет под собой ограниченность нашего знания, любая научная теория имеет некий предел, дальше которого она неприменима.

(00:30:00).

Если у нас есть несколько теорий приемлемо объясняющих какие-то известные нам результаты, то можно сконструировать некий эксперимент, который позволит отличить одну теорию от другой, на котором две теории дают разные предсказания. Тогда мы сможем выяснить, какая из этих теорий верная.

Понятно, что в науке существует множество методов, в этом смысле теориями не являющихся, Фейнмановские диаграммы и контурные интегралы, и еще, что там в физике есть, всё это дает одни и те же результаты, но с разным количеством усилий, и таким образом являются вариантами математического аппарата одной и той же теории.

Мы говорили о моделях, а когда мы говорим о теориях, теории – это взгляды на мир. То есть с точки зрения классической механики, с точки зрения электричества, с точки зрения химии, с точки зрения биохимии, с точки зрения теории передачи информации мы все представляем собой разного рода системы, и каждая из этих теорий позволяет объяснять разные наборы явлений, которые с нами происходят. Одновременно каждая из этих теорий показывает, что важно, а что неважно для нее. Каждая из этих теорий позволяет объяснить множество разнородных феноменов, происходящих с совершенно разными объектами.

Это отступление в философию науки. Еще одна хорошая, удобная метафора – это метафора инвертированной Платоновой пещеры. Предположим что наш феномен – это некий предмет в некой пещере, а мы – это стены этой пещеры, то есть мы, как наблюдатель, можем воспринимать тени, которые отброшены на стену. Мы можем осветить предмет каким-то источником света и он отбросит тень. Например, мы можем осветить кубик и получить некую квадратную тень, при этом свет, который мы на кубик проливаем, является метафорой того, что мы выбираем определенную точку зрения и отбрасываем большую часть того, что может быть содержательно в предмете, но не имеет отношения к взгляду нашей теории.

То есть мы можем осветить тот же кубик с другой позиции и получить вместо четырехугольной тени шестиугольную. Это будет другой взгляд, это будет другая теория, это будет другое восприятие с точки зрения другой теории и сделанное вероятно другим человеком, потому что это проекция на другую стену.

Аналогично тому, что мы говорили про теорию, мы можем в свет одного прожектора переместить много предметов и получить внутри теории модели для разных предметов. Мы можем один и тот же предмет осветить с разных сторон и получить разные модели одного предмета пригодные для разных совершенно вещей.

(00:34:59).

Наконец для того, чтобы закончить такую аллегорию, может оказаться, что некоторые предметы плоские и будучи освещены с определенных точек зрения, они не дадут тени вообще. То есть с точки зрения определенных теорий они не существуют, не интересны, бессмысленны, то есть ничего нельзя с ними сделать, а с точки зрения других теорий вполне.

Еще одна важная вещь относительно научных теорий состоит в том, что они способны предсказывать феномены, которые не были известны ранее людям. То есть это чисто теоретические предсказания. Например, классическая история. В 1819 году Френель пришел выступать во Французскую академию наук и рассказывать свою волновую теорию света. На тот момент превалирующей являлась Ньютонова корпускулярная теория света. Он ее доложил, тут встает Пуассон и говорит: «Вы, уважаемый, странные вещи говорите. Если бы было так, как вы говорите, в центре круга тени была бы белая точка». Все это обсудили, Френель ушел, поставил эксперимент и действительно в центре круга образуется белая точка. Теперь эта точка называется пятном Пуассона в честь Пуассона, который из теории Френеля мгновенно вывел то, что в центре может быть белое пятно – пятно Пуассона.

Оказывается, судя по всему, человеческое познание не только в науке таким образом устроено, оно устроено похожим образом во многих других областях. Например, известно, что стартап – это временного толка предприятие, построенное для поиска и построения масштабируемой бизнес-модели.

Если мы посмотрим на любые тексты, посвященные Lean Startup, не путать с Lean Manufacturing, то Lean Startup – это как раз такое предприятие, которое генерирует и проверяет гипотезы сначала о клиентских сегментах, а потом о каналах достижения этих сегментов. Стартап, оперирующий в рамках концепции Lean Startup, является механизмом познания потребности людей и бизнесов с целью их удовлетворения и оперирует внутри парадигмы, эквивалентной научной. Именно поэтому внятные стартапы хорошо создаются людьми с научным базисом, с образованием научного типа, поскольку способ мышления в стартапе и в науке в некотором смысле эквивалентен. Предмет разный, а способ мышления один и тот же.

Инженерия в большом смысле устроена тоже, наиболее правильным здесь словом является технология и технологизация, а не инжиниринг, инжиниринг всё-таки немного другое слово. Технология устроена тоже таким же способом.

(00:39:59).

Что такое технология? Технология – это то, когда мы придумываем, как многократно повторяющимся образом выполнить процесс. То есть кустарь одиночка может сделать стол, кустарь одиночка может передать знание о том, как сделать стол качественный, другому кустарю ученику. Но для того, чтобы построить массовое производство столов, нам нужно построить технологию. То есть нужно отделить знание о процессе изготовления стола от единого носителя, это знание о процессе стандартизировать, стандартизировать входы и выходы этого процесса и все выполняемые операции, а также стандартизировать входные материалы, что между прочим в физическом производстве тоже важная и сложная задача.

Таким образом технология – это модель процесса создания класса результата. Таким образом технология – это еще один вариант знания научного типа. То есть те, кто работает в software индустрии, под технологией в данном случае должны понимать технологии разработки, то есть технологии организации работы некоторых коллективов, создающих нематериальный интеллектуальный продукт.

Итого многие области человеческой деятельности опираются на один и тот же процесс построения моделей и поиска границы их применимости. Если мы хотим построить искусственный интеллект в определенном смысле равный человеческому, он должен уметь делать то же самое, то есть строить модели штук разного типа и неизвестных ему заранее, и выяснять границы и применимости.

Это некий ключевой посыл данной работы. То есть человеческое познание состоит в том, что мы создаем модели и ищем области их применимости, и сильный искусственный интеллект, если мы хотим его создать, должен делать то же самое.

Какие могут быть тесты в порядке возрастания сложности на то, что он умеет это делать? Самый простой, наверное, тест – это объяснение. То есть, если имеется хорошо определенная теория и есть эмпирический феномен, то сильный искусственный интеллект должен быть способен объяснить феномен и выяснить его численные характеристики.

Например, хорошим примером того, что подразумевается, опять же для физиков есть такой задачник Капицы, где есть всякие задачи довольно нетривиальные, не учебные, которые Капица предлагал своим студентам и аспирантам. Мне вопрос в объяснении представляется таким. Например, характерная задача из задачника Капицы такая. С какой скоростью человек может бежать по воду? Можете на досуге порешать.

Следующая вещь. Я не уверен, что она следующая по сложности, она в некотором логическом порядке следующая.

(00:44:58).

Точно так же зная некоторые теории и общие принципы построения таких задач, искусственный интеллект должен уметь сформулировать такую задачу, как из предыдущего пункта.

Следующий тест. Если есть несколько конкурирующих теорий, объясняющих один и тот же набор феноменов, искусственный интеллект должен быть способен сконструировать решающий эксперимент для того, чтобы выбрать, какая из этих теорий может быть лучше. Понятно, что для того, чтобы провести такой решающий эксперимент, мы должны иметь некие более сложные исполнительные устройства.

Возвращаясь к тому, что мы недавно говорили, предсказание новых феноменов. Если мы строим искусственный интеллект в некотором смысле равный человеческому, мы должны иметь возможность построить из хорошо определенной теории способность предсказать новые феномены, которых мы не знали. Смотри мой пример с пятном Пуассона.

Дальше в научную фантастику. Поскольку стартап является вариантом научного познания, искусственный интеллект должен быть способен создать успешный стартап. Наконец создание теорий. Сильный искусственный интеллект, эквивалентный человеческому, должен быть способен создавать теории, которые являются неким содержательным улучшением по отношению к текущим теориям.

Понятно, что эта страница целиком сейчас относится к научной фантастике. Более того, мне кажется, это некое мнение, что постановка задач является неким ключевым признаком жизни, и без того, чтобы была жизнь и смерть, нам не удастся искусственный интеллект этому научить. Но это совсем на кончике пера гипотеза.

Собственно, всё, много философии, мало машинного обучения. Спасибо за внимание. Пожалуйста, ваши вопросы. Но до того, как вы начнете вопросы, я прорекламирую две вещи. Одна вещь, которую я прорекламирую – это канал Цифровой директор в Телеграмме, где мы делимся всякими вещами скорее для людей, интересующихся применениями AI в бизнесе и на производстве. Вторая вещь, которую я хочу прорекламировать – это наши вебинары по нейронным сетям. Григорий у нас уже выступал. Если у вас есть какие-то содержательные вещи, которые вы хотите рассказать по нейронным сетям, по машинному обучению, я вас всячески приглашаю со мной связываться и мы будем обсуждать. Теперь, пожалуйста, ваши вопросы.

Модератор: Пока тишина, я свой задам. Мне интересно, у тебя было классное перечисление разных тестов на интеллект, в том числе исторических. Что ты думаешь про работу Франсуа Шале, который «Measures of Intelligence» не так давно написал? Я ее сам пока не прочитал, поэтому я глубоко про нее сказать пока не могу, к сожалению, ничего. Поэтому у меня к тебе вопрос. Читал ли ты ее и что ты про нее думаешь?

Николай Михайловский: Нет, не читал. Если ты можешь вкратце сказать, что там есть, я могу сказать, что я думаю.

(00:49:58).

Модератор: Нет, к сожалению, не могу, для этого надо прочитать. Ее было бы, конечно, хорошо разобрать на каком-то из семинаров, н опока нет.

Николай Михайловский: Алекс Савчик задает вопрос в чате. В начале доклада было сказано, что тест Тьюринга пройден. Но, казалось бы, тест Тьюринга про неотличимость от человека.

В зависимости от параметров взаимодействия, от параметров времени взаимодействия и того, кем притворяемся, можно получить очень разные тесты, многие из которых принципиально не пройдены. Например, тест – притворяемся годами произвольным сотрудником на удаленке. Лет пять-шесть назад, еще до Трампа, в американских social media нашумел чувак, который, работая в каком-то банке программистом, нанял двух индусов, которые за него работали, а он их код копипастил себе в IDE.

Поэтому в этом смысле притворяться произвольным сотрудником на удаленке. Если говорить серьезно, то предложенный тест эквивалентен Employment тесту, и в этом смысле является действительно сильным тестом на сильный искусственный интеллект.

Михаил Самин: Верно. В какой-то мере в реакции теста Тьюринга, во-первых, сам тест Тьюринга не совсем пройден. По-моему, лучшее, что было – это у Facebook чат-бот, который в какое-то короткое количество сообщений, и то там 49%, что-то такое было, обманутых людей. То есть, конечно, остальные тесты можно дать чат-боту и человеку, сравнить. То есть тестирование достаточно хорошо работает. У меня вопрос про научный метод. Я несколько удивлен, что люди, которые как-то связаны с искусственным интеллектом и пишут что-то про тестирование сильного искусственного интеллекта, относятся к этому ,как к этому относился Поппер, потому что сейчас сила научных теорий и всякие другие, с этим связанные, штуки, они ведь про вероятность, они про TRM базисы, про научную значимость и так далее. Это всё, во-первых, гораздо ближе к тому, что происходит в машинном обучении и искусственном интеллекте, то есть там кто-то занимается someone of induction, чтобы appeared вероятность не раз сделать. Многое из того, что связано с машинным обучением и с отдельными видами, оно всё про модели, которые связаны с предсказанием в виде вероятностей и обновлением моделей мира в зависимости от новых свидетельств.

Николай Михайловский: Я не вижу, как то, что вы говорите, хоть как-либо конфликтует с тем, что я говорю. Есть гигантские науки, например, медицина, где вероятностные вещи, то есть на уровне популяций существуют, то есть все доказательства в медицине имеют вероятностный характер. Непонимание многими очень образованными людьми того, что такое доказательность в медицине, оно просто пугающее. То есть знаменитый твит Илона Маска, в котором он сдал четыре теста и сказал: «Что за фигня? У меня есть коронавирус или нет?». Широко известно, что тесты на коронавирус задизайнены так, что чувствительность у них высокая, а специфичность низкая. 

(00:55:06).

То есть у нас высокий уровень ложноотрицательных. У российского Вектора ложноотрицательных, говорят, 40%, и у тех тестов, которые применяются на Западе, более 30% ложноотрицательных тестов. Поэтому, если такой тест говорит, что у вас коронавирус, значит коронавирус. Если такой тест говорит, что у вас коронавируса нет, еще ничего не доказано.

Возвращаясь к теореме Байеса, с учетом того, что есть в определенный момент популяция, например, вы приходите к врачу и говорите: «Я что-то боюсь», это не вы, конечно, приходите, это мне без малого 50 лет и в моем возрасте такие вещи, как сердечные заболевания, онкологические заболевания уже становятся достаточно существенной проблемой. Если я приду к врачу и он мне скажет: «Не хотите ли вы сдать тесты на онко-маркеры?», от этого врача немедленно надо уходить. Хотелось сказать расстреливать, но это не наш метод. По теореме Байеса, потому что вероятность того, что у произвольного человека онкологических заболеваний нет, велика, а любой тест, который мы сдаем, имеет не единичную чувствительность и специфичность.

Поэтому в том, что вы говорите, да, в современной науке большинство доказательств имеют вероятностный характер. Полностью с вами согласен.

Михаил Самин: Я скорее не о доказательствах говорил, а о том, как воспринимаются научные теории и предсказание чего-то другого. Потому что дело не в доказательствах, дело в том, что научные теории современные и то, как будут делать предсказание и что-то воспринимать, это ведь про изменение чего-то под действием новых свидетельств. Научная теория их не считает доказанными, их считают очень вероятными. Я скорее об этом, поэтому меня несколько удивило то, что связано с Поппером.

Николай Михайловский: Положение о том, что теории считают недоказанными, а очень вероятными – это как раз Попперианское в точности утверждение. Другое дело, что после Поппера философия науки прошла довольно длинный 60-летний путь, а если считать от первых работ Поппера в 1930-х, то и без малого столетний, больше 80 лет. В этом смысле, если вы подойдете к любому большому ученому и скажете: «Наука тут у нас не доказана, а в значительной степени вероятна», я уверен, что многие большие ученые сильно обидятся и что-нибудь норовят поотрывать.

Михаил Самин: Я надеюсь, что большинство ученых хорошо понимают, что они там пишут у себя букву «П» в статьях, которые они публикуют, и они принимают про теорию, что они очень вероятные, они понимают, как новые статьи с буквами «П» влияют на то, насколько очень вероятна теория. То есть слово вероятно не значит, что она не доказана, это может быть больше 99,99%, я не про это.

Николай Михайловский: Еще раз возвращаюсь к содержанию доклада. Существует множество научных теорий разного рода, эти теории определяют разные взгляды на определенный предмет. Многие из этих теорий имеют вероятностный характер, многие не имеют.

(00:59:57).

Большая часть разделов физики, несмотря на то, что имеет под собой вероятностный характер, то есть основана на неких статистических вещах, те вещи, которые происходят на макро-уровне, в том числе и в сложных штуках, где вероятностные, квантовые эффекты проявляются со страшной силой, тот же графен, несмотря на статистически-вероятностный характер того, что там происходит, те теории, которые применяются, имеют статус того, что это так.

Понятно, что любая теория имеет границы применимости, и мы можем всегда найти те вещи, те случаи, когда теория будет неприменима. Это как раз поиск границ применимости теории.

Есть еще у кого-то вопросы?

Леонид Левкович-Маслюк: Можно один вопрос? Николай, во-первых, спасибо за очень интересный рассказ. Я хотел сказать, что всем понятно, что 99,9% человечества не пройдет ваши тесты, постановку научных задач и так далее. Вас не смущает, что вы формулируете искусственный интеллект в очень узкой такой сфере деятельности?

Николай Михайловский: Нет, всё не так плохо. То есть один из пафосов того, что я говорил, состоит в следующем. Вещь, некой штукой эквивалентной научному методу, пользуются люди совершенно в других областях человеческой деятельности. То есть то, что я сказал, в том числе значит – не только ученые пользуются методом, эквивалентным научным, им пользуются и бизнесмены, им пользуются и люди, работающие в области технологий. То есть многие люди, не осознавая того, что это эквивалентно научному методу, пользуются этой вещью.

Понятно, когда мы будем строить сильный искусственный интеллект, не обязательно пытаться применить его к самым передовым научным задачам, вероятно, его надо применять к каким-то более простым, более понятным ситуациям. Но, если мы говорим про сильный искусственный интеллект, эквивалентный человеческому, мы в некий момент должны будем прийти, что, может быть, некоторые версии, может они будут иметь какую-то индивидуальность или еще что-то, будут способны совершать эти действия, которые не каждый человек может совершить. Но всё-таки в разных областях деятельности довольно много людей это совершают.

Леонид Левкович-Маслюк: Спасибо.

Николай Михайловский: Пожалуйста, еще вопросы.

Артем Родичев: Я хотел еще прокомментировать про тесты Тьюринга. Как человек из индустрии, кто занимается построением чат-ботов, расскажу две истории. Первая история про Китай. В Китае года три назад сделали что-то типа аналога китайского Tinder, куда нагнали много рекламы и китайских мужчин, которые переписывались якобы с китайскими женщинами. Механика этой социальной сети работала таким образом, что эти китайские женщины выпрашивали подарки, которые стоили некую внутреннюю валюту. Таким образом создатели этого китайского Tinder развели в общей сложности население на 150 миллионов долларов.

Это про то, что тест Тьюринга проходится уже настолько хорошо, что на этом мошенники зарабатывают большие деньги. Первая история более негативная.

Менее негативная, более радостная – это история про Реплику, которую мы строим, которая самый крупный англоговорящий чат-бот сейчас в мире.

(01:04:59).

Недавно мы начали получать в App Store и Play Store очень много негативных revue 1-звездочных, которые утверждают примерно следующее: «Не доверяйте этому чат-боту, с вами общается не чат-бот, а человек, потому что чат-бот не может общаться настолько хорошо». Еще год назад таких revue практически не было.

То есть всё больше и больше мы натыкаемся на то, что прохождение теста Тьюринга, во-первых, в каких-то видах работает, в каких-то определениях прохождения теста Тьюринга. Во-вторых, оно и правда показывает некие интеллектуальные способности, оно не говорит о том, что, если машина будет проходить тест Тьюринга, то она будет супер-интеллектуальной, оно говорит о том, что у нее уже являются определенные интеллектуальные способности про понимание окружающего мира, естественного языка, про понимание структуры диалога. То есть это такой инста-ум, но не финальный шаг, что, если ты прошел тест Тьюринга, то проблема искусственного интеллекта решена. Это не так, но это неплохой промежуточный шаг.

Николай Михайловский: Я в своем длинном путешествии по миру стартапов сталкивался в некий момент с dating сервисами, и там действительно гигантская проблема – недостача женских анкет. Поэтому, если китайские товарищи сначала начали с помощью искусственного интеллекта решать проблему недостачи женских анкет, а потом доточили свой алгоритм до того, что оно народ развело, в некотором смысле им, конечно, почет и уважение.

Артем Родичев: То есть в этом смысле на самом деле большие опасения у Open AI, почему они не хотели релизить GPT-2, а сейчас GPT-3. Сейчас понятно, потому что они хотят денег заработать за свою модель, а раньше у них якобы были опасения про то, что как раз-таки мы уже доточили технологии, языковые модели в частности, до того состояния, что они могут быть использованы таким образом для обмана людей, для притворства кем-то еще, как раз на деньги, побуждение в каких-то идеях. Это всё не лишено смысла. То есть это не просто общие слова Open AI про безопасность, правда такая проблема есть.

Михаил Самин: Мне кажется, что Open AI не сразу релизили не потому, что у них действительно были такие опасения, потому что они решили, что это тот момент, когда стоит сначала проверять, а потом релизить, потому что это уже похоже на то, когда должны появляться эти опасения. То есть они не думали, что GPT-2 могла кого-то вводить в заблуждение, потому что не могла. Они просто думали, что могут существовать какие-то вредоносные приложения в этой нейронной системе, и решили, что этот момент стоит сначала исследовать и постепенно релизить. Потому что стоит уже волноваться о безопасности.

Я хотел сказать, что мне кажется, что про то, что вы назвали refutation, создание эксперимента, который проверял бы, какая модель лучше, на самом деле то, как стандартно inversive reinforcement learning, оно выдает человеку пары каких-то штук, в которых оно наименее уверено, и что-то в этом направлении происходит. Это не про реальные физические теории, потому что физику сложно понимать на словах, но тем не менее что-то в этом направлении делается уже.

Николай Михайловский: То, что вы сейчас называли, больше мне кажется похожим даже не на reinforcement learning, а на tripled mining или на.

Михаил Самин: Я inversive reinforced learning говорил.

Николай Михайловский: Может быть, я значительно хуже знаю reinforcement learning нежели, чем обычные функции потерь. Но в tripled mining действительно подбирают трудные примеры для того, чтобы сделать эмбеддинг в contrastive learning, модное нынче контрастивное обучение.

Мужчина: Есть еще reactive learning, по-моему, в котором идея такая же.

Николай Михайловский: Идей на самом деле не так много, много реализаций этих идей.

Игорь Пивоваров: Григорий, я прошу прощения, можно я немного вмешаюсь и спрошу? По поводу комментария, Артем, который вы делали к Николаю, по поводу реплики о GPT-3.

(01:10:04).

Я не могу удержаться и не спросить. Вы серьезно говорите про то, что он понимает диалог и отвечает? Или вы просто антропоморфизируете чат-бот?

Артем Родичев: Тут мы уже спускаемся в дискуссию, а что такое понимает. То есть да, мне кажется то, что _____ (01:10:29), тем больше у них мы видим понимания. То есть понимание – это и память, это и учет причинно-следственных связей, знания об окружающем мире, знание про учитывание текущего эмоционального состояния человека, чтобы с ним быть на одной волне. То есть это про много всего, и чем больше моделей, чем мы идем дальше, тоже видно по развитию GPT, GPT-2, GPT-3, та же самая история, чем моделей становится больше, чем мы им кормим больше данных, тем больше этих признаков понимания текстов окружающего мира, генерации правильных, релевантных ответов мы прослеживаем в этом.

Поэтому я бы сказал, что да, нейросети в какой-то мере понимают естественный язык, не так хорошо, насколько его понимают люди, но понимание есть.

Дмитрий Салихов: Безумно хочется поспорить, подискутировать с Артемом на тему понимания. Извините, что я врываюсь так между спикерами. Николай, спасибо за обзор. Хочу немного, продолжая вопрос понимания современными технологиями и нейросетями конкретно Реплику тестировал пару месяцев назад и понимания не обнаружил никакого.

Но опять же, что такое понимание? Действительно это вопрос, на который нужно сначала отвечать прежде, чем мы спускаемся в конкретные технологии тестирования этого понимания. Я думаю, что это всё-таки отдельная тема дискуссии, которая хоть и косвенно с тестами связана, но всё-таки это другая вещь.

Михаил Самин: Дмитрий, что именно вы тестировали?

Дмитрий Салихов: Реплику.

Михаил Самин: Чего?

Дмитрий Салихов: В смысле какую версию Реплики или что? Что вы имеете в виду?

Михаил Самин: Чего именно реплику?

Дмитрий Салихов: Реплика – это приложение, которое Артем разрабатывает.

Михаил Самин: Извините.

Дмитрий Салихов: Гриша в самом начале спрашивал про abstractive withering challenge (01:12:37), хочу пару слов про него сказать и потом немного на более обобщенную тематику тестов.

Тесты – это сугубо моя специализация, то есть я конкретно специализируюсь на них, делаю небольшой проект, связанный с тестированием AGI, и знаю про тесты всё. Во всяком случае так думал до этого доклада, сейчас увидел пару интересных тестов, которые Николай тут привел, которых я не знал, буду разбираться.

Обратно на abstractive withering challenge. Я считаю, это первая и единственная версия реального AGI тестирования, которую довели до очень зрелого автоматизированного вида, настолько автоматизированного, что это позволило провести это всё на платформе Kaggle. Его суть в том, что дается три картинки на входе для каждой задачи, и на этих картинках изображено некое действие, некие метаморфозы, которые происходят либо с объектами, либо с сущностями, которые каким-то образом изображены на этих картинках. Нужно угадать четвертую картинку, то есть составить аналогичное действие, которое было изображено на первых трех, но исходя уже из неких других начальных условий.

Почему это именно AGI, а не какие-то другие виды тестирования, не типичные бенчмарки, которые очень распространены? Как раз эта парадигма была описана изначально в большой статье, в которой он предварял само тестирование. Все задания разные, то есть для каждого из этих трех картинок суть задачи совершенно разная и не похожая ни на какие другие. Тренировочных данных для того, чтобы любая нейросеть методом аппроксимации, интерполяции или еще как-то смогла бы научиться выполнять эту задачу на трех примерах, трех примеров просто недостаточно.

(01:15:11).

Для этого нужно иметь некое высокоуровневое мышление, которое и тестировалось в этом тесте. Результаты это показывают, если знаете, там самый высокий показатель, который был достигнут – это 20%. Потом, когда Шале разбирал эти тесты, которые были пройдены, конкретные экземпляры, выявляли, что именно пройденные тесты как-то немного дублируют или как-то похожи на тестовые примеры. То есть немного сделали data leak такой своеобразный, и только благодаря этому data leak некоторым участникам удалось добиться какой-то метрики, хоть чего-то.

После чего он пообещал сделать версию 2.0, где все эти ошибки будут учтены и не будет никакого data leak, тогда  мы действительно посмотрим, насколько наши современные системы могут хоть что-либо сделать на поле настоящего интеллекта.

Теперь от abstractive withering challenge к проблематике тестирования. На правах вброса, то есть я считаю, что основной проблемой тестов AGI, которые здесь перечислены – это слишком высокий порог предварительных знаний, которые по-английски называются priors, которые требуются системе для того, чтобы она хоть что-то могла проходить. Не предлагается никаких методик и технологий для того, чтобы эти знания как-то обрести и систему наделить.

Поэтому можно сказать, что тест Тьюринга – это такое изображение луны, на которое предлагается нам как-то добраться, не предлагаю совершенно никаких ступеней, каких-то промежуточных технологий и намеков на то, как могли бы технологии развиваться, чтобы в итоге пройти такие тесты.

Другая крайность – это, когда система, которая тестируется, может иметь совершенно чистое состояние начальное, и мы проверяем даже не предварительные знания, которых у нас по определению нет, а ее способность обучаться. Это классическая RA парадигма и многочисленные платформы вроде Gym от Open AI, наверное, самый известный пример, где эти задачки, система не знает ничего и, проходя многократно эти задания, получая reward, она тренирует свои внутренние сети и таким образом обучается всему этому.

Но у этого подхода есть draw go back (01:18:52), который заключается в том, что ей нужно безумно большое количество этих повторений. Когда мы ее ограничиваем в количестве этих повторений, тут опять же ни одна система с этим справляться уже не может. То есть тут получается такой у нас какой-то неразрешимый trade off между либо система должна иметь эти знания заранее, и непонятно, откуда она их должна взять, либо мы говорим: «Пусть она не имеет эти знания, но она их обретает в процессе». Но для того, чтобы она их обрела, нужно огромное количество повторений, которое несовместимо с нормальным циклом обучения человека. Или, допустим, если мы хотим что-то более высокоуровневое, не просто поддерживание маятника на тележке, который стремится упасть, а что-то более сложное, например, обучение языку, нам обязательно нужен человек в цикле обучения. Потому что некому больше передать эти знания.

(01:19:59).

Соответственно, эти большие количества повторений исключают возможность включения человека в цикл обучения.

Такая проблематика, в которой пока не видно каких-то революционных открытий. Что вы на этот счет думаете?

Николай Михайловский: Я, как раз пользуясь прерогативой выступающего, действительно что-то об этом думаю. Думаю я об этом следующее. Действительно человек есть носитель огромного количества priors, носитель этих priors внутри своей структуры. С моей точки зрения развитие интеллекта и биологическая эволюция – это структурно идентичные процессы.

То есть мы, будучи носителями генетического и эпигенетического знания, очень хорошо соответствуем определенной среде. Поэтому, с моей точки зрения, вне среды определенной и вне истории определенной невозможно создать интеллект, который бы был неким образом соответствующим этой среде. Иными словами, человек является носителем огромного количества priors, генетических и эпигенетических, интеллектуальных за счет того, что за нами стоит Х миллиардов лет биологической эволюции.

Если мы хотим построить нечто категорически иное, но с человеком сопоставимое по интеллекту, оно в некоторой форме должно пройти эволюционный путь от  чего-то довольно простого к чему-то очень сложному, сравнимому с человеком. Я уверен, что в человеке генетической и эпигенетической информации, наверное, даже больше нежели, чем информации традиционной.

С моей точки зрения, попытка построить некую умную систему, в которой нет никаких предыдущих знаний, она обречена. Попытка построить систему на малом, недостаточном количестве знаний без неких priors, которые в эту систему будут неявным образом помещены, обречена.

В чате коллеги пишут, что эволюция – плохой и медленный оптимизатор интеллекта. Может быть, да, но другого у нас нет.

Мужчина: Такой вопрос тогда. Почему мы хотим построить что-то похожее на человека, почему не хотим начать с чего-то более простого? Интеллектом не только человек обладает, есть животные и другие живые организмы, которые тоже на каком-то уровне обладают интеллектом, умеют обучаться, решать какого-то уровня задачи. Этих prior нам понадобится намного меньше, если мы по биологической цепочке вниз скатываемся. Почему хотим на уровне человека?

Николай Михайловский: Вопрос распадается на два. Первый вопрос звучит так – почему мы чего-то хотим. Я на этот вопрос отказываюсь отвечать, потому что ответ на вопрос, почему мы хотим того или иного, если в него на пол штыка капнуть, он оказывается равносложным вопросу о построении искусственного интеллекта сильного.

Второй ответ состоит в том, что, конечно, если мы что-то интересное построим, то мы начнем с того, что построим то-то интересное, простое, не равное человеку, равное амебе или еще чему-нибудь простому. То есть личное мое убеждение состоит в том, что та или иная форма искусственной жизни более ли менее неизбежный шаг для построения сильного искусственного интеллекта.

(01:25:08).

Мужчина: Можно эту мысль подробнее? Та или иная форма, не понял мысль, наверное.

Николай Михайловский: Если мы сможем создавать формы самоорганизации в массивах информации, некие самоорганизующиеся, саморазвивающиеся цифровые организмы, существующие в информационной среде, то это может быть первым шагом к построению сильного искусственного интеллекта. То есть искусственные амебы – путь к построению искусственного интеллекта.

Мужчина: Да, да, окей, согласен.

Николай Михайловский: То есть digital life, с моей точки зрения, один из магистральных путей к построению сильного искусственного интеллекта. Хотя скорее всего не главный, и если мы придем к искусственному интеллекту общего толка, то придем скорее по какому-то другому пути. Но я его не знаю.

Модератор: Это очень крутая тема, я бы сам ее пообсуждал, но предлагаю, давайте Артем сейчас про статью расскажет, а потом те, кто захочет, останутся и еще пообсуждают. Потому что мне кажется, я про это часами готов говорить. Может быть, это достойная тема для отдельного семинара, потому что она, на мой взгляд, реально богатая. Что думаете?

Артем Родичев: Про построение искусственной жизни, искусственных амеб я как раз сейчас попробую рассказать.

(01:27:00)



МАТЕРИАЛЫ

СХОЖИЕ ПРОЕКТЫ

Мосэнергосбыт
Российская энергосбытовая компания страны, реализующая свыше 8 % вырабатываемой в России электрической энергии.