Решение сдавать в аренду крупный вычислительный центр Colossus 1 в штате Теннесси в условиях дефицита мощностей казалось не совсем логичным, но у компании SpaceX были на то веские причины. Собственные инженеры SpaceX столкнулись с техническими трудностями при эксплуатации этого ЦОД, поэтому сдача его в аренду стала лучшим выходом.
Источник изображения: Spacex
Публикация Bloomberg поясняет, что попытки приспособить вычислительные ресурсы Colossus 1 для обучения ИИ-моделей для чат-бота Grok наткнулись на ряд технических сложностей. Первоначально Colossus 1 должен был войти в кластер из трёх ЦОД, который должен был стать основой для соответствующей деятельности, но SpaceX не смогла эффективно интегрировать данную площадку с двумя другими. Они находились на расстоянии более 16 км от Colossus 1, а потому при передаче информации между ними возникли неприемлемо больше задержки.
Требования к быстродействию каналов связи при обучении современных ИИ-моделей не позволяли SpaceX довольствоваться получаемыми с участием Colossus 1 результатами, поэтому этот ЦОД стал тем «слабым звеном», которое лучше было исключить из кластера. Тем более, что желающих арендовать Colossus 1 по выгодной цене оказалось немало — на предложение откликнулась не только Anthropic, но и Google. Кроме того, площадка Colossus 1 комплектовалась разнородными компонентами, включая ускорители Nvidia поколений Hopper и Blackwell одновременно, поэтому с точки зрения эксплуатации она доставляет больше хлопот, чем два других ЦОД компании SpaceX, которые в этом отношении оснащены более однородно. Зато Colossus 1 был возведён за рекордные 122 дня, хотя практической ценности этот рекорд с учётом возникших неприятных последствий не представляет. Илон Маск (Elon Musk) подчеркнул недавно, что в случае острого дефицита вычислительных мощностей SpaceX может отказать в продлении аренды Colossus 1 своим клиентам.