IBM построила в облаке гигантский суперкомпьютер с искусственным интеллектом для обучения своих массивных моделей искусственного интеллекта Инновации

IBM построила в облаке гигантский суперкомпьютер с искусственным интеллектом для обучения своих массивных моделей искусственного интеллекта

Большое внимание уделяется искусственному интеллекту с тех пор, как OpenAI представила свою языковую модель ИИ под названием ChatGPT. Общественный интерес резко возрос после того, как компания получила бесплатную пробную версию ИИ. Реакция была настолько велика, что Microsoft и Google были вынуждены быстро интегрировать ИИ в свои инфраструктуры поисковых систем. Выпуск ChatGPT, скорее всего, станет поворотным моментом в эволюции ИИ.

IBM Research уже давно занимает лидирующие позиции в области искусственного интеллекта.

OpenAI и Google — не единственные компании, проводящие обширные исследования ИИ. IBM имеет одну из крупнейших и наиболее хорошо финансируемых исследовательских программ искусственного интеллекта в мире. Десятилетия работы с искусственным интеллектом позволили компании оставаться в авангарде передовых исследований в области искусственного интеллекта.

В последнее время IBM сосредоточилась на создании моделей ИИ, которые упрощают работу внутренних бизнес-подразделений IBM. Эта работа не только повышает эффективность работы IBM, но и позволяет ее исследователям получить ценный опыт для дальнейшего совершенствования технологии. IBM также проводит инновационные исследования в области искусственного интеллекта в таких жизненно важных областях, как химия, биология, медицина и здравоохранение.

Значительная часть недавних исследований IBM была посвящена базовым моделям и генеративному ИИ. Эти модели обучаются на больших объемах неразмеченных данных и могут использоваться для множества задач с небольшими изменениями. Модели фундамента огромны, обычно с миллиардами параметров. Модели такого масштаба настолько велики, что их можно обучить только с помощью суперкомпьютеров.

К сожалению, классические суперкомпьютеры не были рассчитаны на вычислительную сложность, необходимую для оптимального обучения моделей ИИ. IBM поняла, что создание суперкомпьютера ИИ с архитектурой, предназначенной для создания и обучения массивных моделей ИИ, будет полезно для ее исследовательских усилий и, в конечном итоге, для ее клиентов.

Решение о создании суперкомпьютера с искусственным интеллектом далось легко, однако после долгих внутренних дебатов IBM решила, что он должен быть построен в облаке.

По словам доктора Талии Гершон, директора по исследованиям облачной инфраструктуры, IBM уже много лет занимается разработкой высокопроизводительной облачной инфраструктуры, ориентированной на ИИ.

«В IBM Research мы активно используем базовые модели, — сказал д-р Гершон. «Наше исследование в этой области было замечательным и новаторским. Благодаря производительности, которую обеспечивают эти модели, и способности быстро адаптироваться с минимальными затратами времени для достижения ценности, IBM рассматривает базовые модели как огромную и революционную возможность, которой мы полны решимости воспользоваться».

IBM разработала ряд генеративных моделей ИИ для различных областей, влияющих на жизнь и связанных с бизнесом, таких как противомикробные препараты, химия, материалы и код. Вы можете прочитать больше информации об этом конкретном классе моделей в моей предыдущей статье Forbes.com здесь.

Построение модели

Д-р Гершон объяснил, почему разработка масштабных базовых моделей является сложной и трудоемкой задачей, часто требующей запуска десятков или даже сотен графических процессоров в течение недель или месяцев на этапе обучения.

Далее она объяснила, что для обеспечения эффективного рабочего процесса построения модели особое внимание необходимо уделять каждому этапу процесса, от первоначального сбора и подготовки данных до проверки и, в конечном итоге, до ввода в эксплуатацию. Данные должны быть очищены и подготовлены, а производительность модели должна быть проверена на различных последующих задачах. И, наконец, модель необходимо обслуживать, но из-за ее размера это сложная задача, требующая значительных знаний.

Цели и рекомендации для облачного суперкомпьютера IBM с искусственным интеллектом

Исследовательская группа IBM, ответственная за создание Vela, решила, что создание суперкомпьютера с искусственным интеллектом в облаке обеспечивает наиболее эффективный и действенный способ достижения поставленных целей:

Облако позволяет исследователям и клиентам легко сотрудничать друг с другом. Оно предоставляет доступ к различным общедоступным облачным службам для повышения безопасности и конфиденциальности. Программное обеспечение можно настроить на каждом узле в соответствии с потребностями исследовательских групп. Благодаря облаку исследователи ИИ получили большую гибкость и независимость в доступе к новейшим программным инструментам и библиотекам, необходимым для моделей. Высокая избыточность облака гарантирует, что система продолжит работу в случае отказа компонента.

Для правильной работы инфраструктуре ИИ нужны узлы, состоящие из множества графических процессоров. Узлы можно настроить одним из двух способов: либо как физические машины (обычно называемые «голым железом»), которые максимизируют производительность ИИ, либо как виртуальные машины (ВМ), которые предоставляют командам поддержки гибкость для настройки инфраструктуры и распределения ресурсов между рабочие нагрузки.

Команда разработчиков суперкомпьютеров с искусственным интеллектом использовала продуманную инженерию, чтобы объединить преимущества возможностей узлов (таких как графические процессоры, процессоры, сеть и хранилище) с гибкостью виртуальных машин (ВМ). Это было достигнуто за счет настройки хоста для виртуализации, но обеспечения точного представления всех устройств и подключений внутри виртуальной машины. Это дало Vela возможность работать на том же уровне производительности, что и физическая машина, а также обеспечить гибкость виртуальных машин.

Vela: разработан для работы почти на голом металле

Платформа Vela основана на OpenShift, что позволяет легко перенести ее в любую облачную или гибридную среду. Это огромная многоузловая система с несколькими графическими процессорами, которая использует NVlink для высокоскоростной связи между графическими процессорами. NVSwitch используется для подключения нескольких NVLink для высокоскоростной связи всех GPU в пределах одного узла. NVSwitch также расширяет возможности связи между узлами для создания бесшовного многоузлового кластера графических процессоров с высокой пропускной способностью, эффективно формируя графический процессор размером с центр обработки данных.

Команда дизайнеров решила, что Vela нужны собственные облачные технологии. IBM решила не создавать систему InfiniBand, поэтому был выбран Ethernet из-за повышенной гибкости, масштабируемости, простоты эксплуатации и управления. Не менее важно то, что Ethernet сделал систему совместимой с облачной инфраструктурой IBM.

Хотя IBM отказалась указать точное количество графических процессоров Vela, для эффективного управления ресурсами в системе с более чем тысячей графических процессоров IBM разработала облачную технологию пакетного планирования, которая работает поверх Kubernetes. Эта технология в настоящее время используется в производственном кластере OpenShift для эффективной постановки задач в очередь, определения приоритетов и управления ими.

Подведение итогов

IBM Research выделила много ресурсов для создания и обучения крупных базовых и генеративных моделей ИИ во многих областях и модальностях. IBM Research сотрудничает со многими своими внутренними бизнес-подразделениями, чтобы сосредоточиться на более быстром и эффективном обучении моделей мирового уровня, чтобы операционализировать модели и превратить их в ценность для бизнеса. Поскольку для обучения моделей ИИ требуются значительно иные вычислительные требования, чем для классических суперкомпьютеров, IBM спроектировала и построила собственный суперкомпьютер ИИ и развернула его в облаке в мае 2022 года.

Модели искусственного интеллекта требуют чрезмерного количества вычислительных ресурсов и времени для создания и обучения. Суперкомпьютер IBM с искусственным интеллектом Vela в конечном счете был разработан для создания и обучения огромных моделей с высокой эффективностью и скоростью.

IBM проделала колоссальный объем проектных и инженерных работ, чтобы ограничить накладные расходы Vela на производительность в пределах нескольких процентных пунктов по сравнению с «голым железом». Весь его стек построен на основе OpenShift, что делает его переносимым в любое облако, любую локальную или общедоступную облачную среду, а также дает возможность работать в гибридной облачной среде.

Хотя IBM не заявляла о своем намерении предоставлять облачные суперкомпьютеры с искусственным интеллектом как услугу, Vela — это массивный суперкомпьютер с искусственным интеллектом, обладающий всеми характеристиками и функциями, необходимыми для такого предложения. Архитектура такова, что для IBM было бы просто взять часть инфраструктуры Vela и предложить ее как услугу.

Учитывая все вышесказанное, я не удивлюсь, увидев, что суперкомпьютер ИИ как услуга будет предлагаться где-то в начале 2024 года. Это было бы выгодно как для IBM, так и для всей экосистемы ИИ.

IBM построила в облаке гигантский суперкомпьютер с искусственным интеллектом для обучения своих массивных моделей искусственного интеллекта

Общее

Увлечения и интересы

Технологии и финансы

Я ищу..

IBM построила в облаке гигантский суперкомпьютер с искусственным интеллектом для обучения своих массивных моделей искусственного интеллекта

Общее

Увлечения и интересы

Технологии и финансы