Исследование DeepSeek показывает, что производительность вывода Ascend 910C от Huawei составляет 60% от производительности Nvidia H100

Исследование DeepSeek показывает, что производительность вывода Ascend 910C от Huawei составляет 60% от производительности Nvidia H100:

HiSilicon Ascend 910C от Huawei — это версия процессора Ascend 910 для обучения ИИ, представленного в 2019 году. К настоящему времени производительности Ascend 910 едва хватает для экономически эффективного обучения больших моделей ИИ. Тем не менее, когда дело доходит до вывода, он обеспечивает 60% производительности H100 от Nvidia, по словам исследователей из DeepSeek. Хотя Ascend 910C не является чемпионом по производительности, он может преуспеть в снижении зависимости Китая от графических процессоров Nvidia.

Тестирование DeepSeek показало, что процессор 910C превзошел ожидания по производительности вывода. Кроме того, с ручной оптимизацией ядер CUNN его эффективность может быть дополнительно улучшена. Собственная поддержка DeepSeek для процессоров Ascend и его репозитория PyTorch позволяет выполнять бесшовное преобразование CUDA в CUNN с минимальными усилиями, что упрощает интеграцию оборудования Huawei в рабочие процессы ИИ.

Это говорит о том, что возможности процессора искусственного интеллекта Huawei быстро развиваются, несмотря на санкции правительства США и отсутствие доступа к передовым технологическим процессам TSMC.

Хотя Huawei и SMIC удалось догнать возможности TSMC в эпоху 2019–2020 годов и выпустить чип, который можно считать конкурентоспособным с процессорами Nvidia A100 и H100, Ascend 910C не является лучшим вариантом для обучения искусственного интеллекта. Обучение искусственного интеллекта остается областью, в которой Nvidia сохраняет свое неоспоримое лидерство.

Ючен Цзинь из DeepSeek сказал, что долгосрочная надежность обучения является критическим недостатком китайских процессоров. Эта проблема проистекает из глубокой интеграции аппаратной и программной экосистемы Nvidia, которая разрабатывалась в течение двух десятилетий. Хотя производительность вывода можно оптимизировать, постоянные рабочие нагрузки обучения требуют дальнейшего улучшения аппаратного и программного стека Huawei.

Как и оригинальный Ascend 910, новый Ascend 910C использует упаковку чиплетов, а его основная вычислительная система SoC имеет около 53 миллиардов транзисторов. В то время как оригинальный вычислительный чиплет Ascend 910 был изготовлен TSMC с использованием своей технологии изготовления N7+ (класс 7 нм с EUV), вычислительный чиплет Ascend 910C производится SMIC по своей технологической технологии 2-го поколения 7 нм, известной как N+2.

Заглядывая вперед, некоторые эксперты предсказывают, что по мере того, как модели ИИ сходятся с архитектурами Transformer, важность программной экосистемы Nvidia может снизиться. Опыт DeepSeek в оптимизации аппаратного и программного обеспечения также может значительно снизить зависимость от Nvidia, предлагая компаниям ИИ более экономически эффективную альтернативу, особенно для вывода. Однако, чтобы конкурировать в глобальном масштабе, Китаю необходимо преодолеть проблему стабильности обучения и дополнительно усовершенствовать свою вычислительную инфраструктуру ИИ.

Читайте нашу главную страницу —  Взгляд в будущееИнновацииТехнологииНаукаНовые открытияИзобретения

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *