Пост

История ИИ: Часть I

От автора

Данная первая часть обзорной истории искусственного интеллекта (из двух частей) – написанной специально для Гиперкаталога – состоит из четырёх разделов.

  1. “Автодидакт” – история Норберта Винера (основателя кибернетики), охватывающая период с 1894, года рождения, по 1959, получения звания почётного профессора MIT.
  2. “Математика дипломатии” – спекулятивная интерпретация ранних лет кибернетики, охватывающая примерно 1948-1964 года.
  3. “Игра в групповую психотерапию” – история институциональной психологии, охватывающая примерно 1942-1962 годы. Искусственный интеллект зародился в среде кибернетиков, а кибернетика родилась в среде психологов. Эта несколько неожиданная, но интимная связь кибернетики и психологии разбирается в данной части.
  4. “Зима кибернетики” – история развития искусственного интеллекта, охватывающая 1948-1972 годы, спекулятивно объясняющая так называемую “первую зиму искусственного интеллекта” – неожиданное прекращение финансирования перспективных исследований под предлогом столкновения с якобы непреодолимой технической “проблемой XOR”.

Четыре раздела, будучи связанными общей темой, скорее являются короткими самодостаточными зарисовками, чем элементами сквозного повествования, поэтому можно их читать независимо друг от друга (хотя последовательное чтение позволит составить более целостную итоговую картину в соответствии с тем, что пытался представить автор). Между разделами нет плавных переходов, повествование каждый раз начинается как бы сначала, описывая взгляд на известные события под новым углом.

В отличие от подробного изложения истории кибернетики в статьях Антона Русинова “Две кибернетики” и “Идеология и технология” (см. также список всех статей Антона по истории гиперинформации на его бусти), в данном тексте не ставилась задача исчерпывающего изложения событий рассматриваемой эпохи – и даже задача перечисления всех ключевых моментов.

Скорее на примере исторических событий и по ходу разговора о них хотелось ухватить некие малоизвестные – или по крайней мере слабо отрефлексированные – концепции (как социальной, так и технической природы), связанные с областью искусственного интеллекта, которые и по сей день оказывают значительное влияние на индустрию и популярную культуру.

Надеюсь, что постоянные читатели Metaprogramming получат удовольствие от несколько более развёрнутого формата привычного стиля презентации остроумных находок, а подписчики Гиперкаталога обнаружат новые любопытные детали известных им исторических событий.

Автодидакт

В 1894 году в США, в русско-ирландско-еврейско-англо-американской семье приключенцев унитарианского вероисповедания, родился гений Норберт Винер, которому по щучьему велению, по сильных мира сего хотению стало суждено стать основателем кибернетики. История искусственного интеллекта во многом связана с историей кибернетики, поэтому и отсчёт логично начинать с даты рождения её основателя. (Маловажная деталь непонятная русскоязычным читателям: wiener произносится также, как winner, победитель, но означает сосиска.)

Подробнее можно прочитать в статье “Две кибернетики” Антона Русинова, напомним основные биографические вехи.

С детства Норберта учил математике его отец, Лео Винер, эксперт по немецкому и русскому языку, потомственный религиозный мудрец и талантливый педагог (как пишет Норберт, отец выходил из себя только каждый раз, когда получал неправильный ответ на вопрос).

Будучи до 9 лет на домашнем обучении, Норберт затем поступил и через 2 года блестяще закончил сразу старшую школу (в небольшом городке Ayer в штате Массачусетс).

Через 3 года, в возрасте 14 лет, он получает степень бакалавра (математики?) в институте Тафтса.

Дальше картинка в глазах биографов начинает немножко расплываться. Но в целом говорят, что между 1909 и 1912 Винер успел позаниматься зоологией в Гарварде, философией в Корнельском университете, снова философией в Гарварде.

Так или иначе, в 17 лет (то ли в 1911 году, то ли в 1912) Винер защищает магистерскую диссертацию по философии в Гарварде.

Через год, в 1913, также в Гарварде, защищает PhD по философии на тему сравнения использования алгебры отношений Расселом-Вайтхедом и Шрёдером.

Научные руководители, назначенные талантливому автодидакту (буквальный перевод “самоучка” не отражает всей полноты смысла термина, будем и далее использовать данную кальку с английского) для сопровождения магистерской диссертации, по-видимому, впечатлившись талантами молодого человека (и активной позицией его отца, периодически наведывавшегося в университет поговорить с профессорами), берут самоотвод в отношении сопровождения кандидатской диссертации.

Из Тафтса вызывают Карла Шмидта (преподаватель философии, защитивший в Марбургском университете в Германии диссертацию по кантовской этике – никакого отношения к математике не имеющий), который ставит свою одобряющую визу на представленном к защите труде Винера. (Не путать с немецким политическим философом Карлом Шмиттом, жившим несколько позднее.) Ни одной другой научной работы под руководством Шмидта защищено не было.

Отец пытается перевести Винера из философии в математику, выбивая позицию преподавателя под руководством Джорджа Биркгофа, известного американского математика. Биркгоф, уперевшись руками и ногами, очевидно испытывая врождённую автодидактофобию, отказывается.

Вопрос с позицией в Гарварде удалось решить только спустя два года, в 1915. Винер получает позицию преподавателя-доцента, ведёт лекции по философии математики (“логике геометрии”).

Между 1913 и 1915 Винер путешествует по миру, общаясь с Расселом в Кембридже (Британия) и Гилбертом в Гёттингене (Германия).

В 1914 от имени Винера в английском философском обществе делается доклад (текст которого публикуют в 1967), который, как говорится позже, “излагает основные моменты диссертации Винера”. Доклад делает “научный опекун” Винера во время его поездок в Англию, Годфри Харди – видимо в целом пробивной и беззастенчивый Винер на этот раз неожиданно стушевался. Рассел же, несмотря на то, что доклад излагает важный частный результат в его предметной области (математическая логика – конкретно, построение упорядоченной пары на языке теории множеств), демонстрирует подчёркнутое отсутствие интереса к нему.

Таким образом, вся череда событий вокруг доклада как бы доказывает, что произошло просто обнародование результатов редкого молодого гения, а не, например, рутинное изъятие приоритета у очередного немца (Хаусдорф опубликовал сходную математическую конструкцию за год до английского доклада) путём датирования задним числом сделанных Расселом выкладок через записывание их на провинциального автодидакта.

(Кстати, аналогичную историю Годфри Харди проворачивает с так называемой “последней записной книжкой Рамануджана” – профильный специалист!)

Восхитившись масонским аристократическим обществом Великобритании (Винер хвалит “кузенов” за то, что несмотря на различные политические взгляды внутри английского эстеблишмента по ходу идущей первой мировой, они сохраняют меж собой братскую сплочённость), Винер возвращается в США.

Новый социальный уровень молодого таланта позволяет наконец получить позицию в Гарварде в 1915. Однако несмотря на поддержку отца, на величину своих талантов и на успехи в переходе по ступенькам социальной лестницы, Винера через год выгоняют.

Дальше следует череда позиций то здесь, то там, пока Винер в 1919 году не оседает в MIT, где за 13 лет потихоньку с самых низов дорастает до позиции профессора математики. Похоже, за это время он в самом деле подтягивается до уровня крепкого, пусть и не выдающегося, специалиста в математике.

И лишь через 20 лет после официального начала кибернетики (1941) гения, наконец, официально признают в академии: Винер получает в MIT титул почётного профессора в 1959.

Математика дипломатии

В настоящее время ИИ подаётся как набор неких революционных технологий (и в значительной мере ими, конечно, является), которые чуть ли не весь мир угрожают перетрясти (здесь уже допустим некий скепсис).

Посмотрим, с чего всё начиналось.

С зарождения кибернетики перечисление предметных областей, которые главным образом связаны с “искусственным интеллектом”, выглядит примерно так: распознавание паттернов, доказательство теорем, обработка языка, игры. В общем-то и сейчас CV (computer vision), NLP (natural language processing) и прочее по списку являются актуальными направлениями ИИ-разработок.

Примечательно, что в перечне нет ничего, что стремилось бы “перевернуть мир”: педагогики, психологии, биологии, теории государственного устройства (не вообще про обратную связь, децентрализацию, и прочие мифические силы, а конкретно). То есть по задумке искусственный интеллект это в большей мере прикладная дисциплина.

К чему она должна прилагаться?

Да к военному противостоянию.

В знаковой статье 1943 года Винера и Розенблюта “Поведение, целенаправленность и телеология” (публикация статьи послужила, в числе прочих мероприятий, основанию кибернетики) описывается многошаговый способ классификации сложности поведения (активное – пассивное, далее целенаправленное – нецеленаправленное, далее с обратной связью или без и т.д.). Если немножко приглядеться и отбросить терминологические изыски, то окажется, что под “поведением” понимается “движение”. Конкретно – “перемещение”. Ещё конкретнее – “перемещение в однородной среде”, то есть плавание или полёт.

А если предельно конкретно, то за год до публикации статьи состоялся пробный пуск первой крылатой ракеты (немецкой), а год спустя после публикации ракеты уже прилетали в Лондон. Американцы изобретение оценили и отрефлексировали.

Абстрактные кибернетические концепции, которые применимы как будто ко всему на свете, получают гораздо более осмысленное значение в контексте вполне конкретных материй.

В теории игр есть концепция “дилеммы заключённого”. В игру играют два участника, образно говоря два арестованных. Каждый может либо пойти на сделку со следствием, либо отказаться. Если оба отказываются, то оба получают минимальный срок. Если один отказывается, другой соглашается, то отказавшийся получает большой срок, а согласившийся отправляется на свободу. Если оба согласились, оба получают средний срок. Заключённые не могут друг с другом общаться, должны действовать рационально и тому подобные обычные в таких абстрактных задачках формальности имеют место.

Казалось бы совершенно оторванная от реальной жизни задача.

Описана была сотрудниками RAND (известного “сливного бака” американского разведывательного сообщества) в 1950 году, при этом интерпретация про заключённых под следствием появилась уже позже. Сама эта интерпретация, конечно, имеет значение лишь мнемоническое: реальные заключённые в похожей ситуации не будут вести себя так, как следует из теории (а там несколько следствий: при однократном опыте выгодно предавать товарища, при многократном поддерживать, при множестве участников и серии игр в парах наказывать по принципу “глаз за глаз”), поскольку сама жизненная ситуация неизбежно гораздо более сложная, причём эта жизненная сложность оказывает на результат ключевое влияние.

А что ещё произошло в 1950 году? В СССР изготовили по переданным из Англии документам атомную бомбу.

И как-то все условности абстрактной игры оказываются вполне конкретными сценариями. Реальные государства, из-за своего размера, способны лишь к схематичному действию. В пределе эскалации к переговорам путём обмена ударами ядерной дубиной по голове. Но и здесь возможен некоторый манёвр и структура, как доказывает теория игр.

Несложно пофантазировать, да и во множестве художественных фильмов показано, как развитие “логических автоматов” приводит к появлению “скайнетов” по обе стороны Атлантического океана. Автономных систем (“мёртвая рука” – да, да), способных на основе формального анализа поступающих с командных пунктов сигналов дать команду на удар возмездия даже при неспособности или нежелании отдавать приказ оператором-человеком.

Может быть изначально сообщество кибернетиков и было неспособно изготовить такую систему, но во всяком случае угрозу изображало успешно.

Что однозначно считывалось и по другую сторону железного занавеса.

Математика и далее использовалась как инструмент формализации “законов природы” (в каком-то смысле их создания) – а скорее математические законы стоят даже над природой – регулирующих геополитические взаимодействия.

После известного турецко-карибского “ракетного кризиса” начала 60-х последовало смягчение и разоружение. Как обнаружили участники сообщества “Истории гиперинформации”, к одному из документов, определяющих алгоритм взаимных проверок по программе открытого неба, прилагалась выкладка на языке теории категорий, которая служила как бы объективным подкреплением достигнутых дипломатических договорённостей. По этому краткому математическому наброску (совмещающему теоркат и теорвер в интересной манере) в СССР затем проводились математические семинары, собирались кружки – тем самым фактически как бы укореняя созданную схему и, следовательно, стоящие за ней договорённости.

К.А. Крылов интересовался политическим/социальным значением математики, обращал внимание на то, что развитие теории категорий финансируется (в числе прочего) DARPA (научно-исследовательской службой Минобороны США). В связи со сказанным, думаю, мы чуть лучше можем понять контекст такого интереса.

Игра в групповую психотерапию

Казалось бы, какое отношение групповая психотерапия имеет к истории искусственного интеллекта? Даже при самом грубом взгляде вроде как тут что-то гуманитарное, там что-то техническое.

Давайте посмотрим внимательнее.

Впервые в качестве мейнстримного тренда идея “думающей машины” – в понимании, близком к современным нейросетям – появляется в кибернетике. А откуда появляется кибернетика? Конечно, Норберт Винер (философ-математик) с коллегами написали заложившую основы движения литературу. Но для массового движения нужна не только (и не столько) литература.

Нужна тусовка.

По официальной истории кибернетики началось всё с конференций Мейси – череды встреч выдающихся научных деятелей, которые, в обсуждениях друг с другом, и договорились до оснований кибернетики. Вот фото “кибернетического сеанса” с одной из первых конференций.

А конференции Мейси официально предваряла “встреча по замедлению мозга” (“cerebral inhibition meeting”), также организованная фондом Мейси (в 1942). На повестку встречи вынесли обсуждение двух вопросов: гипноза Милтона Эриксона и условных рефлексов Говарда Лидделла (ученика ученика Павлова). (Эриксона позвал на конференцию его коллега по академическому изучению гипноза Лоуренс Кьюби, однако нет достаточных оснований утверждать, что приглашение было принято.)

Содержательно комбинация “программирования разума” и “настройки рефлексов” отражает некий взгляд кибернетиков на архитектуру запланированного искусственного интеллекта. В идеале у него должно быть два изолированных модуля: некий “логический автомат” (работающий по строгим правилам) в роли мозга и система “условных рефлексов” (в большей мере работающая стохастически), отвечающая как бы за периферию. В этом концептуальные исторические корни и современных попыток, например, скрестить язык доказательства теорем типа Lean с большими лингвистическими моделями и т.п.

Однако, не погружаясь в настоящий момент в содержательный анализ кибернетики, обратим внимание на состав участников “встречи по замедлению мозга”. Среди 21 участника (включая двух представителей Фонда Мейси) парочка антропологов-кегебистов, парочка экономистов-управленцев, остальные врачи: психоаналитики, психиатры, неврологи, физиологи.

А где же “технари”? Математики, физики, программисты, радиотехники, ау?!

Они будут позже. Кибернетика родилась без них, на таком вот своеобразном медицинском (точнее, психоаналитическом) консилиуме.

На дальнейшие конференции Мейси (1946-1953) уже позвали, конечно, и “технарей”. В том числе и звёзд первой величины: Джона фон Неймана и Клода Шеннона (выдающихся математиков). Среди приглашённых было также множество междисциплинарных специалистов высокого уровня – людей с двойным образованием, в стиле математика + психология или физика + неврология. Но одновременно оставалось достаточно большое количество и буквально участников-врачей, как на той первой встрече.

Сам Фонд Мейси – созданная в 1930-х структура для государственного освоения старых денег, которые остались без прямых наследников – спонсировал исследования и обучение в области медицины. Выделял средства на исследование военной хирургии, антибиотиков, вопросов продления жизни и т.п. Исполнительный директор фонда, Фрэнк Фрэмонт-Смит, был врачом по первому образованию.

А причём здесь вообще врачи-психиатры, какое они отношение имеют к разработке думающих машин, межконтинентальных ракет, теорий ядерных конфликтов и прочим кибернетическим темам?

Вообще и содержательно отношение имеют – например, первую знаковую книгу по нейронным сетям (“Логическое исчисление идей, относящихся к нервной активности”) написал Воррен Мак-Каллок, врач и психолог по образованию, один из лидеров кибернетического движения. И это не единственный пример. Близкий друг Норберта Винера, Артуро Розенблют, с которым в соавторстве были написаны первые установочные статьи и книги по кибернетике, был кардиологом из Мексики.

Однако, в первую очередь, думаю, дело не в содержательном отношении между медициной и кибернетикой, а в определённом ноу-хау, которым на тот момент врачи уже обладали.

Врачебные ассоциации это достаточно старый и независимый от государства институт. Собираться в группы и обсуждать проблемы практического характера привычный элемент врачебного образования. Участвовать во всевозможных организациях доброй воли является рутиной внерабочей жизни врачей. Врачи-психиатры (тем более, конкретно психоаналитики), кроме того, привычны к порождению – “гипостазированию” – неких умозрительных концепций, с последующим их распространением в активный словарь специалистов и практику, в установочные документы и профессиональную литературу, а далее в популярную культуру.

Иначе говоря, врачи оказались идеальными исполнителями для создания фандома кибернетики по англо-американскому госзаказу под ключ.

“Кибернетика” это название получившегося фандома, а само ноу-хау по порождению фандомов, которое на кибернетике и кибернетиках обкатали, назовём, скажем, “психотеологией”. А для широкой публики оно называется… групповая психотерапия. (Кстати, сам Фрэмонт-Смит в ответ на недоумённый вопрос участников конференций Мейси чем конкретно они должны заниматься отвечал: чем-то вроде групповой психотерапии.)

Параллельно с идущими конференциями Мейси легализуется практика групповой психотерапии. Разворачивается сеть национальных тренировочных лабораторий, NTL, распространяющая идеи групповой психотерапии. Номинальным учредителем становится Курт Левин.

Сами кибернетики отражают тренд, собираясь уже официально в группы “обсуждения обсуждений” – конференции по “групповым процессам” (стартовавшие с 1954 года), где глубоко рефлексируют прошедшие конференции Мейси, приходя к оригинальным и неожиданным находкам навроде “многие из нас болеют болезнью междисциплинария”.

Один из рецензентов изданных в виде книги протоколов этих встреч, Вильям Бин, передаёт своё впечатление от прочитанного примерно так:

[…] Я думаю, никто не будет отрицать, что перекрёстное опыление от близких контактов и стимуляция, получаемая от употребления напитков с коллегами, является весьма стимулирующим опытом в области медицины и научного знания. Однако иногда всё же приходят на ум сомнения, связанные с тем, стоило ли фиксировать в печатном виде разговоры мудрых экспертов, при том что они имеют самый неформальный вид. Автобиографические скетчи различных соавторов чрезвычайно полезны, поскольку позволяют читателю как бы стать незванным нарушителем на вечеринке выходного дня этих активных мыслителей, у которых есть заметные различия в используемых подходах, качествах, и способностях ясно изложить перед нами свои мысли. Наиболее стимулирующей порцией книги мне показалась последняя глава, занимающая почти треть книги, посвященная “исправлению мышления” коммунистического Китая. Она дала мне гораздо более мягкий и изменённый взгляд на промывание мозгов, в отличие от того, что я получил из ежедневной прессы и других размытых источников…

Заканчивает рецензент непереводимым стишком в стиле Льюиса Кэрролла об организаторах и участниках конференции.

В общем-то после такой рецензии, без стеснений заходящей с козырей, можно объявить вышеизложенную логику привлечения врачей к основанию и продвижению кибернетики ошибочной рационализацией, и свести всё к банальной возможности легального доступа к стимулирующим веществам и напиткам, без которого с самого начала (“замедление мозга”) было не обойтись.

Однако не будем уходить в редукционизм, продолжим делать серьёзный вид.

Итак, после окончания Второй мировой разворачивает деятельность разработчик групповой психотерапии (и активный участник кибернетического движения) – Курт Левин.

По мнению некоторых последователей, Курт Левин это чуть ли не основатель современной психологии вообще. На самом деле роль этого автодидакта сводится к механическому переписыванию неких схематичных идей “группового взаимодействия” наукообразным языком: “поля”, “пространство сил”, “динамика” и т.п. Самостоятельно подводить экспериментальную базу для нового учения гений не счёл необходимым, оставив интерпретации (возможные в самых широких и взаимно несовместимых рамках) своим последователям.

За вычетом внедрения терминологии ньютоновской физики в психологию (соответственно, несколько вытесняя из мейнстрима психоаналитический сленг – который, впрочем, как известно, тоже корнями имел аналогию с физикой, с паровыми котлами и т.п.) содержание работ Левина можно резюмировать так:

  1. Люди агрессивны
  2. Агрессия возникает из-за расизма (и прочей дискриминации)
  3. Для того чтобы с этим бороться, будем собирать агрессивных людей в группы
  4. Отдельная тема: надо решать проблему угнетения цыган

Собственно, первые деньги на Т-группы (почему Т? чтобы никто не догадался!) дало правительство одного из штатов США с заказом разработать что-нибудь для борьбы с расизмом. Говорят, что “Т” в “Т-группах” означает “тренировочные”, хотя очевидно прочитывается “толерантность”.

Как бы по умолчанию подразумевается, что задача групповой психотерапии – излечение (т.е. избавление от неврозов и психозов) участников. Однако при легализации собственно терапии – психиатрам и психологам позволили вести групповые занятия/сеансы, открыто предлагая их как способ лечения – на самом деле развитие получает “групповая психотеология”.

Эрик Берн, один из выдающихся психотерапевтов 20-го века (по современным меркам, конечно, разработанный им транзактный анализ это “лоу-тек”, но мейнстримного “хай-тека” в психологии не случилось – и мы начинаем понимать почему так произошло) ключевую черту типовой институционализированной групповой психотерапии выделял следующую: клинические заметки о встрече на следующей неделе можно составить до того, как она случилась.

То есть ничего не происходит. Болтовня, обмен бытовыми отчётами, времяпрепровождение.

Стиль Эрика Берна – по возможности говорить, как вещи устроены на самом деле и работать на совесть. (Читатель может знать его по известной книге “Люди, которые играют в игры”.)

Однажды он попытался начать лечить (взамен предыдущего выбывшего терапевта) людей в подобной группе, постоянные участники которой за 15 лет не имели никакого прогресса в излечении. После выписки нескольких участников как достигнувших стабильного улучшения, получил подзатыльник от начальства и просьбу “заниматься групповой терапией, а не терапией в группе”.

Хорошо сказано!

В отличие от “терапии в группе” – т.е. применения навыков “лечения словом” при работе одновременно с несколькими пациентами/клиентами – “групповая психотерапия” это, оказывается, что-то иное.

А что именно?

После Второй мировой, в первую очередь, способ держать под контролем вернувшихся ветеранов. Чтобы не стреляли в людей на улицах из-за флешбеков, с одной стороны. Но и чтобы не излечивались окончательно. Миллионы здоровых (а значит имеющих свободное время) людей с навыком обращаться с оружием (в составе организованной группы) в стране со свободой его приобретения и ношения – зачем такое счастье?

А более отдалённая цель “групповой терапии” – создание универсального фреймворка “психотеологизирования”. Т.е. технологии порождения устойчивого набора взглядов (в главных основаниях – словаря терминов) на заданную тему, который затем внедряется в работу специалистов, и далее в популярную культуру.

Психологические теории для 20-го века являются тем же, чем для 19-го века являются теории социальные (ну, “классы”, “капитализм”, вот это всё): способом культурного контроля и управления трудящимися.

Движение Левина породило организационные структуры и форматы (все эти “десятидневные тренинги тренеров” и т.п.), которые затем проникли всюду, в частности в бизнес-консультирование, сформировав единый фреймворк работы гуманитарных специалистов по управлению и изменениям. Фреймворк по распространению баззвордов и разыгрыванию простых сценок на заданную тему.

А как же лечение людей? А оно изначально не планировалось.

Но как побочный результат, на волне общего хайпа, что-то всё-таки возникло: вот, тот же транзактный анализ Эрика Берна.

Хотя забавно, что Берн, как психолог, описывавший судьбу человека как “игру по сценарию”, не счёл нужным взглянуть на “игру в психиатрию” (буквальный термин) как процесс, порождённый по заказу государства, а отнюдь не возникший вследствие детского опыта и народных сказок. А может благоразумно решил об этом не писать.

Зима кибернетики

Обычная периодизация развития ИИ включает так называемую “первую зиму искусственного интеллекта”, начавшуюся в 70-х годах. Давайте вкратце пройдёмся по периоду 1948-1972 годов.

На входе, начиная с 1948, имеем: успешное рождение кибернетики, первые публикации, широкое международное признание. Появление термина “искусственный интеллект” (придумал Джон МакКарти, создатель языка программирования LISP). Далее бурный социальный рост движения, череда интересных технических открытий, проникновение в популярную культуру.

На выходе, к 1972: “есть мнение, что ИИ переоценили”. Прекращение финансирования, фактический роспуск движения, всеобщее разочарование прогрессом. Кувырок через голову.

Что произошло? Куда всё делось?

Рассказывают, что наступила “зима ИИ”. То есть объективное погодное явление, ничего не поделать, таков, мол, прихотливый, но естественный и даже ожидаемый ход научного прогресса. Технарям историю пересказывают так: были в общем первые нейросети (главнейшее достижение не только в области ИИ, но и в кибернетике в целом), которые потом упёрлись в “проблему исключающего или” (XOR problem). Проблема принципиальная, потребовалось лет 15, чтобы как-то потихоньку решить.

Вообще-то тот факт, что нейросетям (следовательно, ИИ) даже в 70-е катастрофически не хватало объёма данных и вычислительных мощностей, чтобы серьёзно “выстрелить” в запланированных приложениях (шахматы, машинный перевод, распознавание речи, доказательство теорем), как будто ни у кого и не вызывает сомнений. А причём здесь какая-то проблема XOR? Надо сделать экскурс как в историю, так и в технологию работы первых нейросетей (впрочем, ⚙️ врезки с технической информацией ⚙️ можно пропустить без существенного ущерба для повествования).

В 1943 году – годом позже установочной встречи по замедлению мозга, но фактически до начала кибернетики – Воррен МакКаллох и Волтер Питтс пишут фундаментальную статью по нейросетям, “Логическое исчисление идей, присущих нервной активности”. МакКаллох – нейрофизиолог и психиатр, выходец из семьи американских аристократов, аффилиат фонда Мейси и вообще деловой человек, специалист по математике. Питтс – двадцатилетний автодидакт, который, если бы Винер вовремя не выдал установочную книгу, вполне вероятно что стал главным “продиджи” (молодым гением) кибернетического движения. (Кажется, даже для МакКаллоха статья весьма продвинутая, но каких-либо свидетельств того, что в её написании непосредственно поучаствовал, к примеру, Джон фон Нейман, не имеется.)

⚙️ Нейроны МакКаллоха-Питтса

Нейросеть МакКаллоха-Питтса состоит из соединённых в произвольный граф нейронов. Каждый нейрон на выходе имеет 1 или 0. Единицу, если взвешенная сумма входов больше заданного порога, иначе ноль. Порог и веса связей настраиваются индивидуально для каждого нейрона. Сеть проводит итеративные вычисления – выходные значения всех нейронов одновременно обновляются; затем новые значения выходов поступают на входы (как задано графом сети), и так далее.

Сигнал на выходе нейрона y зависит от входных сигналов xᵢ и весов wᵢ как:

1
y = H(Σ (wᵢ xᵢ) − θ)

где θ – порог, а H – ступенчатая функция (имеет значение 1, если аргумент больше 0, в противном случае 0).

Нам важно отметить, что такая сеть “многослойная” и “нелинейная” (за счёт функции активации). Как её обучать авторы не знали: предполагали, что изменением связей (в следующие годы стало ясно, что это не практично, и “учить” необходимо веса и прочие параметры, оставляя связи статическими).

МакКаллох и Питтс доказывают следующие фундаментальные утверждения.

Во-первых, такая сеть может смоделировать любую логическую функцию (т.е. для любой заданной функции можно придумать сеть, в которой будет существовать нейрон, который после нескольких тактов “раскачки” будет каждый следующий такт иметь на выходе значение, равное этой функции).

Во-вторых, любое число, которое может быть вычислено такой сетью, может быть вычислено машиной Тьюринга с конечной лентой, и наоборот. Фактически дано определение вычислимости – вдобавок к существующим через машину Тьюринга, через лямбда-определимость Чёрча и через частично рекурсивные функции Клини (все четыре эквивалентны).

“Всё что могут вычислить живые организмы – могут вычислить и компьютеры, и наоборот” – заключают авторы статьи. Красиво, кибернетично!

В 1944 начинается “проект голубь” Берреса Фредерика Скиннера. Предполагалось посадить голубя внутрь ракеты, научив его клевать по точке, выведенной на экранчик радара, тем самым наводя ракету на цель. Воспринимали ли военные проект всерьёз? Как запасной вариант, если окажется что развитие электроники не соответствует ожиданиям. А для Скиннера – выдающегося психолога, превратившего абстрактные построения бихейвиоризма в конкретные модели и техники формирования поведения живых существ – это был, конечно, хорошо оплачиваемый военным грантом прикол. В начале 50-х проект закрывают – радиотехника достигла уровня надёжности обученных голубей.

В 1947 в Британии выходит статья Алана Тьюринга – выдающегося математика и одного из основателей компьютерных наук – “Разумная машинерия”. Выдвигается первый критерий разумности машины – если при игре в шахматы человек-шахматист не сможет понять, играет ли он с машиной или человеком (знаменитый “тест Тьюринга” будет описан автором в более привычном виде спустя три года, в 1950). Намечаются области тестирования достигнутого уровня интеллектуальности машин: шахматы, автоматический перевод, криптография, доказательство теорем. (С шахматами, отметим, люди на самых верхах носились вплоть до появления современных сильных шахматных программ, что для нас выглядит совершенно дико – но это совсем другая история.)

Тьюринг проницательно отмечает: впечатление интеллекта некоего объекта это эмоциональная конструкция. Если мы можем объяснить и предсказать поведение объекта, у нас не будет соблазна проективно предполагать существование у него интеллекта.

Но вернёмся к нейросетям. В 1951 году Марвин Минский – математик по образованию и, можно сказать, один из первых хакеров – конструирует первый прототип работающей нейросети. На деньги министерства обороны, вдохновившись теоретическими построениями МакКаллоха-Питтса и практикой оперантного формирования Скиннера (Скиннер лично консультировал Минского по ходу разработки устройства), рекрутировав помощь профессиональных радиотехников, Минский разрабатывает SNARC (Stochastic Neural Analog Reinforcement Calculator – стохастический нейро-аналоговый калькулятор с подкреплением).

⚙️ SNARC Марвина Минского

SNARC состоял из 40 “нейронов Хеба”.

Между нейронами устанавливались связи случайным образом. Каждый нейрон сохранял для каждого входа вероятность выдать импульс на выходе, если импульс пришёл с данного входа.

Если машина давала верный результат, её “поощряли”: после нажатия на кнопку вероятность всех связей, участвовавших в выходном импульсе, немного повышалась.

Если результат был ошибочным, её “наказывали”: нажатие на другую кнопку немного снижало вероятность всех участвовавших в ответе связей.

Опробовали SNARC на моделировании задачи поиска выхода из лабиринта, мол это такая модель мозга маленькой мышки.

Отметим, что данное устройство снова “многослойное” и “нелинейное”. Кроме того, фактически оно впервые реализовало принцип “обратного распространения ошибки”, хоть и иным образом, чем в современных основанных на градиенте методах.

Очередной явный успех кибернетики: коллаборация радиотехников, математиков и психологов привела к появлению машины, формирующей сложное поведение через оперантное воздействие.

Череда успехов не прекращается, в 1957 году Фрэнк Розенблатт – молодой специалист, как бы сказали в наше время, по вычислительной психологии – разрабатывает первую промышленную нейросеть (Mark I Perceptron – “перцептрон, модель первая”).

⚙️ Mark I Perceptron Фрэнка Розенблатта

Это было компактное устройство, занимавшее места не больше, чем встроенный гардероб.

Реализовало классический feedforward слой современных нейросетей. Т.е. осуществляло линейное преобразование входов (четырёхсот фоторезисторов) в один выход, с выучиваемыми параметрами. Итоговая метка класса получалась как знак, сигнум, линейного преобразования:

1
y = sign(wᵀx + b)

где w и b – параметры, x – вектор сигналов фоторезисторов, y – прогнозируемая метка класса (-1 или +1).

Обновление весов при неправильном ответе (метке класса) происходило похожим на современные градиентные методы образом, хоть на тот момент таким образом не рефлексировалось:

1
w(t+1) = w(t) + η (d − y) x

где η – learning rate, y – полученная метка класса, d – истинная метка класса (аналогичная формула для обновления b).

Устройство было способно различать буквы алфавита с большой точностью, отличать круг от квадрата и решать тому подобные элементарные задачи оптического распознавания.

Идеи Розенблатта, в 1960-1961, получают развитие в линейке (созданных уже без его участия) устройств ADALINE (однослойная нейросеть) и MADALINE (многослойная). Разработчики нащупывают принцип обновления весов на основе квадратичной функции потерь: и по сей день широко распространённый метод в ML. Пока не освоен метод обратного распространения ошибки (ключевой принцип для обучения многослойных сетей), посему имеют проблемы с обучением MADALINE.

В 1960 появляется язык программирования LISP, разработанный Джоном МакКарти – настоящим программистом, коммунистом и хакером. Начиная с 1964 МакКарти совершает длительные визиты в СССР, обмениваясь опытом с Андреем Петровичем Ершовым – талантливым русским программистом и известным популяризатором программирования.

Минский и МакКарти работают вместе в Лаборатории Линкольна MIT (снова за более подробным экскурсом в историю рекомендуем обратиться к статье “Две Кибернетики” Антона Русинова). Ученики Минского под его научным руководством в 1961 пишут программу SAINT (Symbolic Automatic INTegrator – символический автоматический интегратор) на LISP. Буквально “вольфрам альфа” на минималках, способная символически – не числено! – решать широкий класс интегралов, используя набор известных правил и автоматически подбирая тактики решения. МакКарти, в общем-то, изначально создаёт LISP именно для решения подобных задач.

А что в это же время было в СССР?

Всё ничуть не менее напряжённо, хоть и гораздо менее публично. К 1970 году Алексей Григорьевич Ивахненко – советский кибернетик, работавший под руководством Виктора Михайловича Глушкова, главного кибернетика СССР – разработал “метод группового учёта аргументов” (МГУА).

⚙️ Метод группового учёта аргументов (МГУА) А. Г. Ивахненко

Выбирается вид опорных функций: многочлены, ряды Фурье или др.

Выбирается функция потери: квадратичная, корреляция и др.

Дальше обучение модели: берётся случайный набор из выбранного семейства функций.

Каждая функция из набора подстраивается (fit) под обучающую выборку через подборку коэффициентов (параметров функции) методом регрессии (минимизируя среднеквадратичное отклонение).

Далее каждая функция из набора проверяется на валидационной выборке (оценка проводится через ранее выбранную функцию потери).

Функции, показавшие лучший результат (например, лучшие две), подставляются в качестве коэффициентов в новый набор случайно выбранных функций из того же семейства – начинается новая итерация обучения.

После достижения сходимости (или предельного числа итераций) производится финальная проверка модели на тестовой выборке.

Здесь – всё. И прекурсор чего-то вроде генетического алгоритма или бустинга, и выучивание коэффициентов на основе функции потерь, и классическое деление на обучающую/валидационную/тестовую выборку, и подбор гиперпараметров, и обучение до сходимости. Метод, как и все предыдущие, нелинейный. И на западе сейчас признаётся как первый прототип глубокого обучения.

Вернёмся к основной канве повествования.

В 1962 году выходит книга Розенблатта “Принципы нейродинамики”, обобщающая сделанные находки и практически становящаяся чем-то вроде первого учебника по ML (машинному обучению).

В 1960-х начинается переход с ламповой электроники на транзисторную. Появляются первые промышленные роботы. А с 1966 по 1972 год в Стэнфорде разрабатывают первого человекоподобного робота, “Shakey” (“Трясунец”). Программное обеспечение написано, конечно, на LISP. Робот может спланировать короткий маршрут и выполнить простое действие – закрыть ящик стола, включить свет и т.п. Для робота разрабатывают получивший широкую известность алгоритм поиска пути A* (“А-звезда”). Получает очередной импульс развития область компьютерного зрения и анализа изображений.

Робот, конечно, был довольно примитивным – долго думал, работал только в лабораторной обстановке. Тем не менее, очередное явное кибернетическое достижение.

Но при этом со второй половины шестидесятых начинается непонятный холодок.

Сообщество получает сигнал, что наверху недовольны результатами: видите ли, в шахматы по-прежнему играют компьютеры плохо, в автоматическом переводе успехи нулевые.

В качестве отчаянного жеста в 1968-1970 разрабатывается чат-бот SHRDLU. Название соответствует духу, последовательность букв просто соответствует порядку символов на клавиатуре распространённых машин по печати – сейчас бы назвали YUIOP. Написано, конечно же, на LISP для распространённого (большого) компьютера PDP-6.

Программа SHRDLU, якобы, симулирует жизнь маленького ботика в геометрическом мире. Может вести очаровательные сложные диалоги из серии “возьми пирамидку, положи на кубик” (отдельный код симулирует простенький физический мир, отдельный логику как бы живущего в нём ИИ). Потом ответь на вопрос “зачем ты взял пирамидку?” – “чтобы положить на кубик” – “зачем?” – “ты попросил меня это сделать”. Даже по современным меркам очень классно! Неудивительно, что на самом деле ничего этого не было, а была лишь парочка заскриптованных диалогов, которые показали стейкхолдерам.

Стейкхолдеров, тем не менее, крайне впечатлило.

Но всё равно началась “зима ИИ”! В 1972 году кибернетику закрыли (из неё родились групповая психотерапия, экология, синергетика, и чёрт знает что ещё – но более не было объединения усилий психологов, математиков и программистов в попытке создать думающую машину). Дёрнули рубильник, свет погас. Кибернетика столь же внезапно исчезла, как и появилась (ну, конечно, некое “ретро” осталось, но без нормальных грантов и престижа).

Что ж, помянем.

Суммируем прогресс к началу семидесятых:

  1. Разработана теория, практика и прототипы устройств, реализующих прекурсоры “глубокого обучения”.
  2. Проработана математика и языки программирования, подходящие для моделирования человеческой логики.
  3. Появились методы символьного дифференцирования, интегрирования, эмпирические методы обратного распространения ошибки и другие первые способы самообучения нейросетей.
  4. Появились первые роботы, включая прототипы человекоподобных механизмов.
  5. Появился ARPANET (предтеча интернета) и готовился к разработке ОГАС (советский вариант интернета).
  6. Некоторые предельные проблемы – шахматы, перевод языков, распознавание речи, доказательство математических теорем – имели незначительный прогресс, играя в большей мере роль маяка для развития области, чем реальных задач.

А зачем свет-то выключили? Гуманитариям достаточно было сказать “есть мнение”, но технарям надо было как-то объяснить, что вообще произошло. Объяснить поручили Минскому, про которого уже вспоминали в этой части рассказа. В 1969 году выходит книга Минского и Пейперта (британского математика-администратора – в числе прочего придумавшего известный учебный язык программирования черепашку-LOGO), “Перцептроны: введение в вычислительную геометрию”. Книга официально вдохновлена творчеством Розенблатта.

⚙️ Книга “Перцептроны” Минского и Пейперта

Думаю, современные ML-специалисты назвали бы содержание книги введением в геометрическое обучение (geometric learning). Геометрическое – не в смысле работы с пространством, а в смысле использования некоторых алгебраических формализмов для описания того что происходит в нейросетях.

Итак, охватим взглядом линейку развития нейросетей МакКаллоха и Питтса – Розенблатта – Минского.

Розенблатт делал акцент на линейных однослойных сетях, посему книга Минского и Пейперта фокусируется на “линейных” проблемах. Надо отметить, что линейные методы позволяют решить очень широкий класс задач и до настоящего момента активно применяются. До появления современных нейросетей задачи классификации успешно решались через так называемый метод опорных векторов (support vector machines), разработанный в 80-х русскими математиками, который является линейным методом и подходит, базово, для решения линейно сепарабельных задач классификации.

⚙️ Линейная сепарабельность

“Сепарабельность” буквально означает “отделимость”.

См. картинку в начале статьи.

В левой части мы можем отделить красные точки от зелёных одной прямой, а в правой не можем.

Одновременно эта картинка – забавный пример того, что один “линейный нейрон” (т.е. нейрон, который работает на основе линейной функции – в задачах классификации буквально пытается построить такую разделяющую прямую) не может смоделировать функцию XOR, “исключающего или” (именно она изображена в правой части рисунка).

Один не может, но три классических нейрона МакКаллоха-Питтса уже могут:

1
2
3
h₁ = H( +1·x₁  −1·x₂  −0.5 )   →  x₁ ∧ ¬x₂
h₂ = H( −1·x₁  +1·x₂  −0.5 )   →  ¬x₁ ∧ x₂
y  = H( +1·h₁  +1·h₂  −0.5 )   →  XOR(x₁, x₂)

Дальше, немного задним числом, эта работа Минского и Пейперта (подводящая теоретическую базу под наиболее распространённый форм-фактор “нейронок” того времени, но в целом не имевшая какого-либо прорывного значения) объявляется как “работа, закрывшая вопрос”. Мол “нейронки ваши даже XOR не могут реализовать, расходимся”.

Следим внимательно за руками, что произошло к началу 1970-х.

Раз, высасывается из пальца некая якобы фундаментальная недоработка существующих нейросетей – якобы невозможность решать линейно неразделимые задачи, что делает их вовсе неприменимыми на практике. При этом и в 2025 году линейные задачи актуальны, и любой математик средней руки десяток способов придумает, как привести линейно неразделимую задачу к линейно разделимому виду.

Два, в качестве показательного примера такой задачи подаётся проблема XOR. В то время как моделирование нейросетями логических функций – это то, с чего начали кибернетики в лице МакКаллоха и Питтса, для практических применений никакого значения эта задача не имеет. То есть пример не показательный, а натянутый.

Три, совершается откровенный подлог в самом утверждении, что существующие на тот момент нейросети неспособны решать линейно неразделимые задачи. Как мы отмечали по ходу всего повествования, буквально каждый создаваемый прототип, включая созданный за 20 лет до описываемого события SNARC самого Минского, был способен такие задачи решать.

Наконец, есть ли сведения, что Минский о какой-то проблеме XOR, остановившей развитие нейросетей примерно на 15 лет, вообще говорил в том ключе, как она подаётся сейчас?

Задним числом он утверждал, что его с Пейпертом книга решила все теоретические проблемы, которые можно было на тот момент решить. Что, конечно, наглая ложь – не решила. Новые академические исследования продолжали появляться в прежнем темпе.

Но вообще, то что описанная в этой книге в качестве некоего частного курьёза “проблема XOR” как воздушный шарик была раздута и взорвалась в лицо кибернетикам является заслугой каких-то иных сил.

Что это за силы? Ну а кто у нас за псиопы отвечает? Военные, конечно.

В 1962 году случается знаменитый турецко-карибский ракетный кризис. В 1963 советский шпион Освальд убивает президента США Кеннеди. Это должен был быть конец, термоядерная война и взаимное уничтожение СССР и США. Но нет, каким-то чудесным образом американская администрация маневрирует и апокалипсис откладывается.

В 1963 году открывается горячая линия Москва-Вашингтон, заключается договор о запрете ядерных испытаний в воздухе, космосе, под водой. В 1967 году – договор о демилитаризации космоса. В 1970 – договор о нераспространении ядерного оружия. В 1972 – договор об ограничении стратегического вооружения и договор об ограничении средств противоракетной обороны.

Можно немного расслабиться!

Столь же внезапно (для вовлечённых в движение интеллектуалов), сколь в США, происходит выключение света кибернетики в СССР в тот же период времени. Глава АН СССР Мстислав Келдыш (математик и администратор) срывает стоп-кран кибернетическим программам. Отменяется (“из-за коррупции и бюрократии” – современные коммунисты так объясняют) проект ОГАСа (советского интернета – в первую очередь электронного учёта и документооборота). Несмотря на сильное сопротивление Глушкова (и др.) закрываются программы разработки оригинальных вычислительных машин. Постулируется переход на стандарт IBM – ЕС ЭВМ (при сохранении автономности производства компонентов).

Итак, вследствие международных договоров по взаимному разоружению СССР отказывается от собственного интернета и стандарта компьютерного “железа” (кстати, Франция свой оригинальный интернет – Минител – поддерживала вплоть до 2012 года).

А США от чего отказывается? Приходится спекулировать, но не совсем уж безосновательно. Данная часть статьи оказалась пересыщена техническими деталями, так что для сохранения читательского интереса её завершение давайте сделаем в стиле “иногда хочется пошутить” :)

США отказались от боевых человекоподобных роботов (пам-пам-пам!).

Через пятнадцать лет после описываемых событий американцы сняли фильм на тему “Америка, которую мы, к счастью, потеряли” – с роботами и управляющим ядерной войной ИИ на лиспе.

Напугали англичан! Это сейчас мы знаем, что до роботов было как до Луны (хе-хе). А тогда скорость развития ИИ была совсем не очевидна.

А это боевые роботы, “дáлеки”, в представлении англичан. Даже проходящему сквозь время как нож через масло “Доктору” регулярно дают прикурить. 1963 год. По-моему реалистичней, чем у романтичных американцев.

Итак, последствия для США: кибернетику – распустить, психологов и программистов в клубы вместе не пускать, новые основания математики не нужны, новые основания психологии не нужны, сфокусировать усилия на разработке шахматных ботов, мир во всём мире, побережём планету.

А это Shakey, тот самый первый робот из 1972. “Далеков вызывали? Ща будут”.

Что ж, небольшая цена за отмену конца света.

Спекуляцией внутри спекуляции (и шуткой внутри шутки) можно обратить внимание читателей вот ещё на какой факт: роботов ведь до сих пор не делают. И речь не о нелепых “терминаторах”, а о банальных междугородних грузовиках; о массовом производстве дронов; об автономных кораблях, самолётах, подводных лодках. Так может быть некоторые непубличные договоры, подписанные в семидесятых, всё ещё сохраняют своё действие?

Авторский пост защищен лицензией CC BY 4.0 .