
Графические процессоры Blackwell от Nvidia являются одними из самых сложных полупроводниковых устройств, когда-либо созданных, что значительно увеличивает сложность их производства, упаковки и тестирования. По данным
Financial Times, ссылающейся на Дуга Лефевера, генерального директора Advantest, тестирование
графических процессоров Blackwell для центров обработки данных занимает в три-четыре раза больше времени,
чем для центров обработки данных Hopper, поскольку каждое устройство перед отправкой должно быть протестировано десятки раз на разных инструментах.
Графический процессор Nvidia Blackwell B100/B200 состоит из двух вычислительных чиплетов, содержащих 104 миллиарда транзисторов, а также восьми чиплетов памяти HBM3E, соединенных между собой с помощью интерфейса, реализованного в технологии упаковки CoWoS-L от TSMC . Это контрастирует с графическим процессором Nvidia Hopper H100 , который содержит один чиплет с 80 миллиардами транзисторов и шесть стеков памяти HBM3.
Обычно с ростом числа транзисторов сложность тестирования растет почти экспоненциально, поскольку чипы требуют больше тестовых шаблонов и более длительного времени тестирования. Протоколы тестирования должны охватывать высокоскоростные соединения, стрессовые условия, тепловые условия (которые в случае B200 являются экстремальными) и несколько режимов работы (Blackwell добавляет поддержку FP4). Поскольку Blackwell использует два очень сложных чиплета с новыми функциями и более высокими тепловыми характеристиками, естественно, что их тестирование занимает более чем в два раза больше времени.
И это еще не все. Методы упаковки CoWoS-L 2.5D от TSMC вводят дополнительные этапы тестирования (иногда и несколько этапов тестирования), чтобы гарантировать правильность работы каждого компонента в пакете и надежность межсоединений.
С Blackwell необходимо тестировать вычислительные чиплеты и чиплеты памяти по отдельности (хотя производители DRAM тестируют стеки HBM3), а затем тестировать GPU несколько раз, поскольку эти чиплеты добавляются в их интерпозер RDL. Мы не знаем точное количество раз, которое графические процессоры и модули Blackwell B100 и B200 от Nvidia тестируются во время упаковки и сборки. Тем не менее, эти графические процессоры проходят значительно больше итераций тестирования, чем графические процессоры Hopper H100.
В целом, длительное время тестирования Blackwell отражает растущую сложность графических процессоров искусственного интеллекта и высокопроизводительных вычислений, а также необходимость всесторонней проверки для обеспечения производительности и надежности в различных средах центров обработки данных при работе совместно с другими компонентами, такими как центральные процессоры, цифровые процессоры и сетевые интерфейсные карты.
Прочитайте что такое взгляд в будущее