Глава Nvidia рассказал, как изобретение технологии глубокого обучения началось в 2012 году с архитектуры Fermi и пары GeForce GTX 580
Читать в полной версииТехнология глубокого обучения (от англ. «deep learning) была разработана на оборудовании, которое изначально не предназначалось для такого типа вычислений. Генеральный директор Nvidia Дженсен Хуанг (Jensen Huang) рассказал в подкасте Джо Рогана (Joe Rogan), что исследователи, впервые разработавшие глубокое обучение, сделали это на паре 3-гигабайтных видеокарт GeForce GTX 580 в режиме SLI ещё в 2012 году.
Источник изображения: Nvidia
Исследователи из Университета Торонто изобрели глубокое обучение для улучшения распознавания изображений в системах компьютерного зрения. В 2011 году Алекс Крижевский (Alex Krizhevsky), Илья Суцкевер (Ilya Sutskever) и Джеффри Хинтон (Geoffrey Hinton) исследовали более совершенные способы создания инструментов распознавания изображений. В то время нейронных сетей ещё не существовало. Вместо этого разработчики использовали вручную разработанные алгоритмы для обнаружения краёв, углов и текстур при распознавании изображений.
Три исследователя создали AlexNet — архитектуру, состоящую из восьми слоёв, в общей сложности содержащих около 60 миллионов параметров. Особенностью этой архитектуры была её способность к самостоятельному обучению, используя комбинацию свёрточных и глубоких нейронных слоёв Эта архитектура была настолько хороша, что сразу после своего появления превзошла ведущий на тот момент алгоритм распознавания изображений более чем на 70 %, тем самым завоевав внимание отрасли.
Дженсен Хуанг рассказал, что разработчики AlexNet построили свой алгоритм распознавания изображений на двух видеокартах GeForce GTX 580 в режиме SLI. Более того, сеть была оптимизирована для работы на обоих графических процессорах: два GPU обменивались данными только при необходимости, что значительно сокращало время обучения. Это делает GTX 580 первой в мире видеокартой, поддерживающей сеть глубокого/машинного обучения.
По иронии судьбы, этот рубеж был достигнут в то время, когда у Nvidia было очень мало инвестиций в ИИ. Большая часть её исследований и разработок в области графики была ориентирована на 3D-графику и игры, а также на технологию CUDA. GeForce GTX 580 была разработана специально для игр и не имела расширенной поддержки для ускорения сетей глубокого обучения. Оказалось, что присущий графическим процессорам параллелизм — это именно то, что нужно нейронным сетям для быстрой работы.
Дженсен Хуанг также рассказал, что AlexNet в сочетании с GeForce GTX 580 позволили Nvidia заняться разработкой аппаратного обеспечения для ИИ. Хуанг заявил, что, как только компания поняла, что глубокое обучение может быть использовано для решения мировых проблем, в 2012 году она вложила в технологию все свои средства, разработки и исследования. Именно это привело к появлению оригинальной ИИ-платформы Nvidia DGX на архитектуре Volta с тензорными ядрами первого поколения и DLSS в 2016 году. Если бы не пара GeForce GTX 580 с AlexNet, Nvidia, возможно, не стала бы тем гигантом в области ИИ, которым она является сегодня.