Искусственный интеллект. Краткая история будущего - Тоби Уолш
К счастью для Хинтона, другой исследователь в области искусственного интеллекта Фей-Фей Ли пришла к такому же выводу в 2006 году, усердно над этим работая. Она сконцентрировалась на компьютерном зрении, в частности на распознавании объектов. Можно ли заставить компьютер идентифицировать объекты на изображении? Это яблоко. Это банан. Это велосипед. Это человек. Распознавание объектов – важная работа в самых разных областях применения, от сбора фруктов до беспилотных автомобилей. Вскоре она занялась созданием нейросети ImageNet[65], огромной базы данных тренировочных изображений для алгоритмов компьютерного зрения.
Илл. 17. Фей-Фей Ли на международном саммите «Искусственный интеллект во благо» в Женеве в 2017 году
Фей-Фей Ли выросла в Чэнду, промышленном городе в южной части Китая, и в возрасте 16 лет вместе с семьей иммигрировала в Соединенные Штаты. Родители были небогаты, но она получила стипендию в Принстоне, а затем окончила докторантуру в Калифорнийском технологическом институте в Пасадене, работая на стыке нейробиологии и информатики. Затем она стала директором легендарной Стэнфордской лаборатории искусственного интеллекта и, во время академического отпуска в Стэнфорде, была ведущим научным сотрудником в Google Cloud.
В 2007 году Ли начала разработку ImageNet. В помощь она наняла своих студентов, которым платила десять долларов в час за маркировку изображений для включения их в ее базу данных. Но прогресс был дорогим и медленным. Позже студенты предложили ей попробовать воспользоваться услугами краудсорсинга от Amazon Mechanical Turk[66]. Благодаря этому сервису она смогла нанять больше работников, что стоило значительно меньше, чем если бы она платила принстонским студентам.
К 2009 году количество изображений в ImageNet превысило три миллиона, и сеть стала доступна пользователям по всему миру. С тех пор объем изображений достиг 14 миллионов, и все они были разделены на 21 000 категорий, например «шары», «бананы» или «лодки». Затем, в целях продвижения ImageNet и в целом исследований в области искусственного интеллекта, в 2010 году было организовано ежегодное соревнование «Конкурс визуального распознавания ImageNet», в котором приняли участие лучшие компьютерные алгоритмы. Конкурс прошел с огромным успехом, привлек внимание исследовательского сообщества и ускорил прогресс в области искусственного интеллекта.
На конкурсе ImageNet в 2012 году Джеффри Хинтон вместе с Алексеем Крижевским, Ильей Суцкевером[67] и другими докторантами Хинтона впервые собрали все три компонента для глубокого обучения: метод обратного распространения ошибки в глубоких нейросетях, использование графических процессоров для тяжелых вычислений и огромные массивы обучающих данных. Такой простой рецепт произвел приятное впечатление, более того, их появление выбило оппозицию из колеи. Частота ошибок созданной ими AlexNet, восьмиуровневой сети глубокого обучения, равнялась 15,3%, опережая соперников на более чем 10,8 процентных пункта. Такой отрыв до сих пор считается самым большим за всю историю конкурса.
Интересный факт, что AlexNet не была первой глубокой нейросетью или первой глубокой нейросетью, использующей графический процессор, и даже не первой глубокой нейросетью, использующей графический процессор и ставшей победителем на соревнованиях с большим отрывом. Ян Лекун сейчас занимает пост главного специалиста по искусственному интеллекту в компании Meta и должность профессора в Нью-Йоркском университете, но в 1995 году он и несколько его коллег из Лаборатории Белла (Bell Labs) в Нью-Джерси стали новаторами семислойной нейросети LeNet–5. В конце 1990-х и начале 2000-х годов такие компании, как NCR, использовали ее для распознавания и обработки более 10% банковских чеков в Соединенных Штатах, а почтовая служба США – для помощи в сортировке написанных от руки писем через распознавание штрих-кодов. Многие другие исследователи также использовали графические процессоры для ускорения работы нейросетей, по крайней мере, с 2006 года. Глубокая нейронная сеть на базе графического процессора DanNet Юргена Шмидхубера в 2011 и 2012 годах стала четырехкратным победителем четырех соревнований в области компьютерного зрения, в некоторых случаях с существенным отрывом [3].
Но только AlexNet удалось собрать все три компонента и завоевать внимание исследователей в области искусственного интеллекта по всему миру. Это стало ознаменованием начала революции глубокого обучения, отголоски которого слышны и сегодня в таких системах, как ChatGPT от OpenAI и Gemini от Google.
Осенью 2012 года в Северном полушарии Хинтон, Крижевский и Суцкевер основали стартап для капитализации их чудодейственного рецепта исследования глубоких нейронных сетей под названием DNNresearch (Deep Neural Network Research). Всего лишь несколько месяцев спустя, в декабре 2012 года, на главной конференции в области исследования нейросетей NIPS (Neural Information Processing Systems) в казино Harrah’s & Harvey’s на озере Тахо, Хинтон решил обналичить счет, организовав аукцион по продаже DNNresearch. В нем приняли участие Google, Microsoft, Baidu и DeepMind (который сейчас принадлежит Google). Хинтон остановил аукцион на ставке в 44 миллиона долларов от Google. Без сомнения, он мог бы получить и больше, но, по его мнению, это была справедливая цена за компанию с тремя сотрудниками-основателями, без товаров и полудюжиной патентов.
Как часть приобретенной компании, Хинтон, Крижевский и Суцкевер перешли работать в Google. Три года спустя, в декабре 2015-го, Суцкевер покинет Google, чтобы стать основателем и главным научным сотрудником OpenAI. Компании OpenAI мы кратко коснемся, поскольку она играет важную роль в современной истории искусственного интеллекта. В 2017 году Крижевский также покинет Google ради стартапа в области глубокого обучения, а вот Хинтон останется до самого выхода на пенсию в 2023-м.
ТРАНСФОРМЕРЫ
Для того чтобы получить чат-ботов по типу ChatGPT и достичь многих других современных достижений в области искусственного интеллекта, которые продвигают компании Google, Meta и OpenAI, нам все еще необходимы два важных компонента. Первый – буква «Т» в аббревиатуре GPT, которая означает «трансформер». Это особая архитектура, объединяющая нейроны в нейросети. Ее следует представлять как схему подключения нейронных сетей, которая особенно хорошо работает с последовательными данными. Последовательные данные – это любые данные, например текст, который появляется последовательно, и то, где важен порядок. Такие данные охватывают большой спектр полезных вещей, в который входят не только тексты, но и метеорологические данные, котировки акций, структуры белков, музыка и речь.
AlexNet в 2012 году представляла собой систему компьютерного зрения, разработанную для обработки изображений. Картинки не последовательны и не одномерны, они двумерны. Очень важно учитывать двухмерность при обработке изображений. Например, вы можете передвигать картинку влево или вправо, вниз или вверх, но сама картинка не меняется. Банан остается бананом, даже если вы передвинули его на два пикселя влево или на три пикселя вниз.
Чтобы воспользоваться преимуществом двухмерности изображений, нейронные сети по типу AlexNet используют особую архитектуру, которая называется сверточная нейронная сеть, позволяющую нейросетям работать с передвигаемыми изображениями. В частности, сверточная нейронная сеть