Говоря о вызовах, встающих перед разработчиками всё более сложных и на многое способных генеративных моделей, чаще всего упоминают о невероятных энергетических аппетитах специализированных серверов, на которых эти модели обычно исполняются. Безусловно, в последнее время активно развиваются модели, готовые к запуску локально на ПК и даже на смартфонах, однако и возможностей у них поменьше, чем у значительно превосходящих их по числу рабочих параметров облачных версий, и энергии даже в таком урезанном виде они всё равно потребляют больше классических (для догенеративной эпохи) компьютерных программ и мобильных приложений. Стремление же снабдить каким-никаким ИИ любой робот-пылесос, газонокосилку или даже умный датчик Интернета вещей ставит разработчиков такого рода устройств перед дилеммой: либо сознательно урезать функциональность исполняемых локально моделей под возможности доступного на таких устройствах фон-неймановского «железа», либо же в принципе отказываться от стремления к автономности — и полагаться для связи с «подлинно умным» облачным ИИ на передовые сети вроде 5G, а в не такой уж далёкой перспективе и 6G.
И хотя второй путь наиболее предсказуем, поскольку базируется на уже хорошо освоенных технологиях, с точки зрения энергозатрат он представляется множеству экспертов тупиковым. По оценке Международного энергетического агентства, если типичный запрос к поисковой веб-машине обходится обеспечивающему её работу дата-центру примерно в 0,3 Вт·ч, то тот же самый запрос, обращённый к ChatGPT, — уже в 2,9 Вт·ч (и то не факт, что в ответ пользователь получит соответствующие истине данные, а не очередную генеративную галлюцинацию). В сутки по всему миру только поисковик Google получает около 9 млрд запросов, и если бы все они обрабатывались умными ботами, то прибавка к глобальному потреблению за год составила бы порядка 10 ТВт·ч — такое количество энергии потребляют в среднем за тот же год 1,5 млн европейцев. Остаётся только воображать, насколько вырастет потребность в электричестве, если к облачным генеративным моделям начнут регулярно обращаться умные устройства, которых и так уже вокруг нас немало, а с каждым годом будет становиться лишь больше. Вдобавок обеспечение надёжной и повсеместно доступной беспроводной связи для подобных межмашинных соединений тоже наверняка влетит операторам в копеечку.
В предыдущих статьях посвящённого нейроморфным системам цикла мы не раз уже указывали на главное отличие вычислительных машин архитектуры фон Неймана от биологической нервной ткани: принципиальное, физическое разнесение хранилищ и обработчиков данных. Информационную шину между процессором и оперативной памятью можно сделать сколь угодно широкой (хотя чем больше каналов, тем дороже будет обходиться такая конструкция и тем ниже окажется её надёжность), но всё равно времени — и особенно энергии — на перемещение информации из ОЗУ на ЦП и обратно расходуется изрядно: на 2-3 десятичных порядка больше, чем на произведение типичной вычислительной операции на самом процессоре. Особенно с учётом того, какие объёмы данных приходится перелопачивать современным генеративным моделям с сотнями миллиардов рабочих параметров. Операции матричного умножения (к которому, по сути, сводится с математической точки зрения работа искусственной нейросети) — не бином Ньютона, но фон-неймановский вычислитель для неё явным образом не оптимален, особенно когда размерность обоих сомножителей слишком уж велика.
А вот биологическая нервная ткань, напротив, хранение и обработку сигналов производит на одних и тех же аппаратных узлах, что и натолкнуло Карвера Мида (Carver Mead) ещё в 1990 г. на введение термина «нейроморфный», т. е. «функционально подобный нервной ткани», в приложении к перспективным в этом плане, но на тот момент ещё не существовавшим вычислительным системам. В те же годы сформировалось и представление о «нейроморфной инженерии» — области междисциплинарных исследований на стыке науки о данных, микроэлектроники, нейробиологии и ещё множества направлений, главной задачей которой становится построение вычислительных систем, на аппаратном уровне если не один к одному эмулирующих работу живой нервной ткани, то по крайней мере использующих в своей конструкции подсказанные природой оптимальные решения. Разбиравшиеся нами в рамках настоящей серии статей импульсные (спайковые) нейронные сети, SNN, — как раз из таких: нацеленные на обработку последовательностей сигналов, они довольно близко воспроизводят функциональность биологических нейронов.
Готовность фон-неймановских систем эмулировать принципиально иные вычислительные архитектуры здорово способствует развитию нейроморфики, — на цифровых моделях неплохо выходит отрабатывать общие принципы организации и работы новых устройств. Однако чтобы по-настоящему реализовать преимущества аппаратных SNN, необходимо создавать соответствующее «железо» — начиная, разумеется, с полупроводниковых систем, благо технологии их производства отработаны к настоящему времени наилучшим образом. Нейроморфные процессоры Loihi (сейчас — уже двух поколений), ODIN, SpiNNaker, Xylo, Akida и многие другие, контуры которых (включая локальную память для хранения предыдущих состояний отдельных нейронов, а также цепи задержки сигнала и корректировки весов в искусственных синапсах) образованы кремниевыми микро- и наноструктурами, уже демонстрируют выдающиеся результаты на тех задачах, для которых наилучшим образом подходят. Правда, по большей части такие вычислители доступны ныне либо как лабораторные прототипы, либо в лучшем случае как мелкосерийные изделия с ограниченной сферой применимости. Причины тому мы приводили в финале предыдущей статьи, и (если отвлечься от чисто практических сложностей аппаратной реализации нейроморфных систем) главных среди них, пожалуй, две: довольно ограниченный набор программного обеспечения — и весьма сложный характер самой этой области знаний, что резко сужает круг потенциально готовых заниматься ею специалистов.
Тем не менее потенциальные выгоды, которые сулит освоение нейроморфных вычислений, заставляют исследователей продолжать упорную работу. Помимо умопомрачительной (особенно на фоне прожорливых серверных GPU) энергоэффективности и — в теории — крайне высокой производительности, обусловленной совмещением вычислительного узла и памяти в едином физическом блоке, без разделения на ЦП и ОЗУ с относительно узкой шиной между ними, эксперты указывают ещё по меньшей мере на две. Первая из этих дополнительных выгод — блестящие перспективы параллельной обработки данных на асинхронных SNN: по сути, нейроморфные системы могут одновременно справляться со столькими потоками преобразования информации, сколько искусственных нейронов они содержат. И вторая — это чрезвычайно высокая адаптивность (в нейрофизиологии используют термин «пластичность») нейроморфных вычислителей к переменчивому характеру решаемых ими задач. Способности к самообучению систем, сам принцип действия которых позаимствован у биологической нервной ткани, потенциально настолько велики, что многие исследователи всерьёз сомневаются, что подлинно умные роботы — адекватно и своевременно реагирующие на изменчивые реалии окружающего мира — смогут появиться до того, как отыщется возможность оснащать их бортовыми нейроморфными аналитическими системами.
Хотя классические полупроводниковые технологии в целом годятся для конструирования аппаратных нейроморфных систем, у них имеется целый ряд серьёзных ограничений. В частности, масштабировать кремниевые нейроморфные вычислители в направлении единиц условных нанометров с такой же лёгкостью, с какой это допускают x86- или RISC-процессоры, не выйдет, — например, по той причине, что искусственный нейрон SNN обязан включать в свой состав хотя бы ограниченное число ячеек памяти. Разместить память на одной кремниевой подложке рядом с процессорным блоком — задача тривиальная; примером тому — кеш SRAM как неотъемлемая составляющая центральных процессоров на протяжении вот уже нескольких десятилетий. Однако, как должно быть памятно читателям нашего цикла статей о вызовах полупроводниковых производств, ячейки памяти с куда бóльшим трудом поддаются миниатюризации, чем логические контуры, — а значит, существенно сократить масштаб производственных норм полупроводниковых нейроморфных чипов от актуальных ныне примерно «28 нм» вряд ли удастся с минимальными затратами. Иными словами, на нынешнем этапе развития полупроводниковая нейроморфика заведомо выигрывает у более экзотичных в плане аппаратной реализации платформ — просто за счёт великолепной отлаженности применяемых для её изготовления производственных процессов. Однако по мере того, как сами эти экзотичные платформы примутся набирать достаточный импульс в процессе своего развития, они имеют все шансы догнать и перегнать кремниевые нейроморфные системы — просто потому, что без резкого сокращения масштаба производственной нормы тем трудно станет соперничать с другими архитектурами как по энергоэффективности, так и по производительности.
Ближе прочих к полупроводниковым реализациям нейроморфных вычислителей стоят, пожалуй, мемристорные — построенные не на классических транзисторах (чьи затворы пропускают или не пропускают заряд — «открываются» или «закрываются» — под действием управляющего напряжения), а на собственно мемристорах (от memory + transistor), электрическую проводимость которых меняет проходящий через них ток. Поведение мемристора определяет свойственное ему явление гистерезиса: мгновенная реакция системы на раздражитель (в данном случае — на проходящий через неё ток) зависит не только от силы самого этого раздражителя, но и — нелинейно — от состояния самой системы на определённом предшествующем интервале времени. Можно сказать, что реакция эта проявляется с некоторым запаздыванием (греческое слово ὑστέρησις как раз и означает «запаздывание»), но лишь до определённого предела, после которого наступает насыщение — и дальнейшего роста величины реакции в ответ на стимул уже не происходит. Этим явление гистерезиса кардинально отличается от инерционности, которая тоже проявляет себя как запаздывание отклика, однако обычно и линейна, и не ограничена по силе реакции (разве что физической прочностью подвергаемой стимулированию системы).
Мемристоры, таким образом, можно использовать как основу для создания нейроморфных искусственных нейронов и синапсов, хотя изначально эти пассивные электрические элементы изучались с точки зрения применимости в системах компьютерной памяти. Дело в том, что изменение проводимости мемристора под воздействием проходящего тока происходит достаточно быстро, и потому в перспективе такие устройства смогут поспорить по скорости работы не только с NAND-, но и с DRAM-памятью. Более того, при снятии напряжения с контактов мемристор остаётся в неизменном состоянии — что позволяет практически мгновенно возобновлять работу системы непосредственно с момента перед её выключением при последующем запуске, не тратя время на сохранение содержимого ячеек ОЗУ в файл подкачки, а затем и на извлечение его оттуда.
По мере роста интереса к нейроморфным вычислениям стало выясняться, что физических процессов с гистерезисом — т. е. таких, что обеспечивают сохранение некой величины после внешнего воздействия долгое время, а затем способны, также индуцированно, вернуться в исходное состояние — не так уж мало. Например, известны такие химические соединения, как халькогениды, среди прочих занимательных свойств которых встречается смена фазового состояния (с поликристаллического на аморфное и обратно), которая может быть спровоцирована, например, нагревом — а тот, в свою очередь, порождается приложением напряжения к подведённому к халькогенидной ячейке теплорассеивающему электроду. На этом принципе основана память с изменением фазового состояния (phase-change memory, PCM). Кстати, нагреть халькогенид нетрудно и лазером, а, помимо проводимости, переход из одного фазового состояния в другое может сопровождаться у определённых веществ и изменением оптических, а не только электрических свойств. Потому, скажем, в основе всем известных — хотя с современной точки зрения уже почти стоящих на одной полке с допотопными фонографами и дагерротипами — (пере)записываемых CD и DVD также лежит механизм фазового перехода в халькогенидных сплавах.
Ячейки PCM отличаются крайне высокой надёжностью — экспериментальные образцы различного состава демонстрировали первые признаки деградации лишь после 108, а то и 1012 циклов перезаписи. Кроме того, физические их размеры вполне могут исчисляться нанометрами, что открывает широчайший простор для миниатюризации создаваемой на их основе компьютерной памяти и нейроморфных систем — особенно если для изготовления соединяющих такие ячейки шин применять тонкие фотолитографические процессы. Задержки при записи/считывании данных в PCM исчисляются десятками наносекунд, тем самым латентность выстраиваемых на их основе нейроморфных вычислителей оказывается вполне приемлемой. Увы, есть у этой крайне привлекательной технологии и существенный минус, а именно накапливающийся со временем сдвиг электрического сопротивления вследствие структурных изменений в ходе регулярно повторяющихся циклов смены фазовых состояний халькогенидов. Такой сдвиг поддаётся учёту и контролю, однако, если уровень сопротивления отдельной PCM-ячейки кодирует некую величину в матрице либо векторе (а работа современных нейросетей по сути, как мы не раз уже говорили, сводится к их перемножению), сдвиг внесёт в расчёты ошибку — которую придётся компенсировать, например, на программном уровне с привлечением классического фон-неймановского компьютера. Что, ясное дело, лишает смысла сам факт перехода на нейроморфную аппаратную платформу.
Если в мемристорах электрическая проводимость меняется под воздействием проходящего через образец тока, а в халькогенидных ячейках управляющее воздействие (переход из одного фазового состояния в другое) оказывает температура, то схожие гистерезисные явления демонстрируют и другие системы — причём в отношении самых различных своих свойств. Так, в сегнетоэлектриках (они же ферроэлектрики) реализуется — под воздействием внешнего электрического поля — фазовый переход между двумя кристаллическими состояниями с различной поляризацией. Соответственно, такие кристаллы можно использовать для записи и хранения данных: одно значение поляризации будет кодировать логическую «1», другое — «0». Компьютерная память, основанная на этом эффекте, — FeRAM, от ferroelectric, — была предложена ещё в 1950-х, вместе с построенными на тех же принципах конденсаторами FeCAP и даже полевыми транзисторами FeFET. При этом — поскольку состояние сегнетоэлектрика после «программирования» внешним полем не меняется, если температура остаётся подходящей, — FeFET сохраняет заданное ему состояние сколь угодно долго, пока по управляющей шине не будет подан новый командный сигнал. Это как раз даёт потенциальную возможность обучать нейросети на сегнетоэлектрической основе, а затем применять их уже натренированными для исполнения прикладных задач (inference).
Важно, что изначальная (спонтанная) поляризация сегнетоэлектрика — не наведённая, а возникающая естественным образом из-за смещения положительных и отрицательных зарядов относительно нейтральных положений внутри кристалла в определённом интервале температур. То есть и такого рода материалы могут выступать в роли как ячеек памяти, так и базовых элементов нейроморфных систем. Одиночный кристалл сегнетоэлектрика представляет собой бинарную систему (с двумя состояниями поляризации), однако, если использовать поликристаллический образец, можно путём приложения специально подобранного внешнего поля менять его физические свойства как целого едва ли не непрерывно и в довольно широких пределах, — получается своего рода аналоговый контур, способный исполнять роль синапса (и хранить значение веса на одном из входов искусственного нейрона, например). Особенно воодушевляет с точки зрения схемотехники грядущих сегнетоэлектрических нейроморфных вычислителей тот факт, что на одной и той же аппаратной основе они позволяют формировать как ячейки памяти, так и логические контуры.
Ещё один вариант применения сегнетоэлектриков подразумевает заключение образца с такими свойствами между парой электродов для реализации вероятностного сегнетоэлектрического туннельного перехода — ferroelectric tunneling junction, FTJ. Воздействуя на разделяющую электроды тонкую (считаные нанометры) поликристаллическую плёнку сегнетоэлектрика, можно создавать условия для квантового туннелирования носителей заряда сквозь неё. Таким образом формируется ячейка FTJ-памяти, запись в которую производят подачей напряжения на подведённые к плёнке электроды (создавая тем самым условия для туннелирования), а считывание — измерением тока, порождаемого туннельным эффектом.
Сегнетоэлектрики как перспективная аппаратная основа — сперва для нового типа памяти, а позже и для нейроморфных вычислений — стали объектом пристального внимания исследователей с 2011 г., когда выдающиеся сегнетоэлектрические свойства были по счастливой случайности обнаружены у тонких плёнок кремнезёма (SiO2), легированных малыми количествами диоксида гафния (HfO2). С точки зрения эволюции вычислительной техники неполные полтора десятка лет, что миновали с этого момента, — ничтожно малый срок: как и другие неполупроводниковые нейроморфные технологии, сегнетоэлектрическая страдает сегодня множеством «детских болезней». И будет, судя по всему, страдать ещё по меньшей мере с десятилетие, — хотя определённая близость к хорошо отработанным технологиям (для осаждения сегнетоэлектрических плёнок применяются, в частности, серийные фотолитографы) даёт надежду на достаточно скорый её прогресс.
Так или иначе, аппаратная нейроморфика за пределами чисто полупроводниковой (где те же синапсы, к примеру, до сих пор приходится эмулировать довольно сложными транзисторными контурами) продолжает пока оставаться делом завтрашнего, если не послезавтрашнего дня. Помимо перечисленных нами технологий рассматриваются и ещё более экзотические — такие как привлечение химического механизма окислительно-восстановительной реакции для изменения валентного состояния и, соответственно, электрических свойств сред с ионами металлов для создания искусственных синапсов (valence change memory, VCM, — подтип резистивной памяти с произвольным доступом; resistive random access memory, RRAM), программируемая электрохимическая металлизация (electrochemical metallization, ECM), сети нейроморфных нанотрубок (neuromorphic nanowire networks) и т. д. Направлений множество, и сложностей с тем, чтобы продвигаться по каждому из них, предостаточно — мы их перечисляли в конце предыдущей статьи из этого цикла.
Однако наверняка уже в ближайшие 3-5 лет среди этого сонма условно-перспективных, но пока не слишком исхоженных троп выделятся максимум две-три, и вот тогда от аппаратной нейроморфики можно будет ожидать более ощутимых результатов. Пока же эмуляция генеративных (и иных) ИИ-моделей в памяти фон-неймановских машин продолжает оставаться пусть и дорого обходящейся, но зато бесспорно достижимой реальностью, тогда как практически все попытки подвести под искусственные нейросети иную «железную» основу не дают экономически оправданного результата. С чем и остаётся поздравить энергетиков всего мира — очевидно, благодаря всё не стихающему спросу на самые разные приложения искусственного интеллекта без работы и без сверхприбылей они ещё долго не останутся.