Cortex-A78 переносит машинное обучение на смартфоны

Arm анонсировала свои новейшие решения для смартфонов, которые включают в себя Cortex-A78, Mali-G78 и Ethos-N78, а также Cortex-X — оптимизированное специальное ядро процессора, дополняющее Cortex-A78. Ethos-N78 дополняет Cortex-A78 аналогично новейшей поддержке машинного обучения (ML) для микроконтроллеров, которая объединяет Cortex-M55 с Ethos-U55.

Cortex-A78 обеспечивает 30% улучшение по сравнению с Cortex-A77, оставаясь в пределах 1-Вт мощности на ядро. Cortex-A78 может работать на частоте 3 ГГц против 2,6 ГГц для Cortex-A77. Восьмиядерный Cortex-A78 / Cortex-A55 также на 15% меньше, чем прошлогодняя комбинация Cortex-A77 / Cortex-A55. Cortex-A78 включает в себя усовершенствования ML, но обычно он работает в паре с Ethos-N78 для более требовательной поддержки машинного обучения.

Дизайн Ethos-N78 является масштабируемым, обеспечивая от 1 до 10 TOPS. Он превосходит Ethos-N77, удваивая производительность и повышая эффективность полосы пропускания DRAM до 40%. Эффективность производительности может улучшиться более чем на 25% для некоторых моделей машинного обучения.

Улучшения производительности Mali-G78 направлены на улучшение сложных игровых сцен, которые предоставляют такие функции, как дым, движущаяся трава и деревья, для создания более реалистичной виртуальной среды. Результат изменений конструкции означает улучшение производительности на 17%. Платформа поддерживает до 24 графических процессоров, которые на 30% лучше, когда речь идет об энергопотреблении. Частично это связано с технологией асинхронного проектирования.

Mali-G78 также может взять на себя обязанности по ML. Он имеет 15% улучшений по сравнению с Mali-C77. Ethos-N78 по-прежнему будет использоваться для тяжелых вычислений, но комбинация CPU / GPU все еще может справляться со многими задачами машинного обучения. Можно даже распределить работу в конфигурации CPU / GPU / NPU. Есть также Mali-G68, который имеет до шести ядер. Он нацелен на устройства низкого уровня, которые могут получить меньшую площадь монтажа на печатную плату и снижение энергопотребления на 30%.

Arm предоставляет Performance Advisor, который выявляет узкие места производительности в SoC, а не только в одном компоненте. Это часть Arm Mobile Studio, которая бесплатна для лицензиатов. Сгенерированные отчеты также содержат предложения по улучшению.

Комбинация Cortex-A78  Cortex-A55 занимает на 15% меньше места и обеспечивает на 20% большую производительность. Однако замена ядра Cortex-A78 на новый Cortex-X1 увеличит пиковую производительность до 30%

Cortex-X представляет собой интересный вариант из традиционного выпуска Arm от IP. Он предназначен для повышения производительности на 30% (рисунок выше). Это часть программы Cortex-X Custom (CXC). Лицензиаты Arm, такие как Apple, смогли выйти за границы возможного, достигнув уровней, которые были невозможны для поставщиков, использующих стандартный Arm IP. Cortex-X1 — это шаг к тому, чтобы позволить производителям соответствовать этим улучшениям.

Две области производительности, которые выделяются с Cortex-X1, это целочисленная производительность и машинное обучение (рисунок ниже). Целочисленные улучшения являются постепенными, но изменение производительности машинного обучения является значительным. Это также может быть основным фактором в конструкции системы, которая может не включать Ethos-N78.

Cortex-X1 повышает целочисленную производительность и удваивает производительность машинного обучения

Cortex-X1 удваивает объем кэша L1, L2 и L3. Это также удваивает число 128-битных ядер Neon до четырех. Cortex-X1 вписывается в кластер Arm DynamIQ, так что возможно иметь больше ядер. Тем не менее, одно ядро, скорее всего, будет нормой. Cortex-A78 — уже «могущественное» ядро; это вопрос балансировки серийной работы с ограничениями производительности и мощности.

В целом, новая комбинация ядер обеспечивает постепенные улучшения. Программа Cortex-X будет наблюдать за тем, как производители могут воспользоваться преимуществами настроек и смогут ли разработчики использовать эти усовершенствования.

И небольшой видео обзор данной технологии:

Добавить комментарий