Бенчмаркинг Vision Вывод Пропускная способность на современных SoC

Бенчмаркинг компьютерного зрения представляет собой критический выбор для разработчиков Edge AI: как выбрать правильное оборудование

Бенчмаркинг

Бенчмаркинг компьютерного зрения представляет собой критический выбор для разработчиков периферии ИИ: как выбрать правильное оборудование для критически важных приложений. HiSilicon SoC, со своими специализированными нейронными процессорами (NPU), дают четкий ответ. Они обеспечивают превосходную пропускную способность и энергоэффективность по сравнению с универсальными SoC, часто по конкурентоспособной цене.

Разработчики последовательно ссылаются на аппаратное обеспечение в качестве основной проблемы:

  • 44% борются со стоимостью производительности обработки.
  • 35% лицоПамятьОграничения следа ноги.
  • 34% обеспокоены высоким энергопотреблением.

Ключевые выходы

  • Специализированные HiSilicon SoC с NPU лучше всего подходят для задач зрения. Они обрабатывают модели ИИ быстрее, чемОбщие чипы.
  • HiSilicon SoCs используют меньше энергии. Это означает, что устройства могут работать дольше от батарей и оставаться прохладнее.
  • HiSilicon SoC предлагают лучшую ценность. Они дают больше производительности за каждый потраченный доллар.
  • SoC общего назначения хороши для многих задач. Они не всегда являются лучшими для требовательныхVision приложения.

СРАВНИЕМЫЕ АРХИТЕКТУРЫ SOC

СОЦ

Современные системы на чипах (SoC) следуют двум основным путям для обработки рабочих нагрузок ИИ. Один путь использует специализированное оборудование для максимальной эффективности. Другой использует процессоры общего назначения для большей гибкости. Понимание этих различий является ключом к выбору правильного оборудования.

СПЕЦИАЛИЗИРОВАННОЕ ПРЕИМУЩЕСТВО NPU

Специализированные SoC, такие какHiSilicon Hi3519A и Hi3559A, Интегрируйте специальный блок нейронной обработки (NPU). NPU-это ускоритель ИИ, созданный специально для вычислений нейронных сетей. Эта конструкция обеспечивает значительное преимущество производительности и эффективности для задач зрения.

HiSilicon NPU содержат специальное оборудование, которое ускоряет операции ИИ.

  • А3D куб двигателяОбрабатывает тысячи матричных вычислений за тактовый цикл.
  • ШирокийВекторный блокПоддерживает несколько типов данных и ключевых функций.

Эта архитектура позволяет NPUОбрабатывают модели ИИ очень быстро, используя меньше энергии, чем процессор общего назначения. Аппаратное обеспечение оптимизировано для одной задачи: эффективного запуска моделей ИИ.

💡НПУ против графического процессора с одного взгляда Хотя оба могут запускать модели ИИ, их основные конструкции принципиально отличаются. NPU-это специалист, а GPU-мощный универсалом.

ОсобенностьNPU (блок нейронной обработки)GPU (блок обработки графики)
Основная цельОптимизирован для задач AI/ML, вычислений нейронных сетейПараллельная обработка общего назначения, рендеринг графики
Фокус оптимизацииМинимизация задержки, максимальная эффективность вывода AI-Одновременная обработка для крупномасштабных задач
ПамятьВстроенная память для уменьшения задержек передачи данныхПамять с высокой пропускной способностью для больших наборов данных
Типичные случаи использованияВ реальном времени вывод в периферии устройств (смартфоны, IoT)Масштабное обучение модели ИИ, высокопроизводительные вычисления

УНИВЕРСАЛЬНЫЙ ПОДХОД к CPU/GPU

SoC общего назначения от таких брендов, какRockchip, Amlogic и NXPПредлагаем более универсальное решение. Эти чипы используют свои мощные процессоры и графические процессоры для запуска моделей AI наряду с другими системными задачами. Несмотря на гибкость, этот подход часто обменивают производительность необработанного вывода на универсальность.

Даже когда эти SoC включают NPU, производительность может быть узким местом. К примеру,NXP i.MX 8M Plus может бороться за достижение высокой частоты кадров с новыми моделями, такими как YOLOv8. Точно так же производительность популярного Rockchip RK3588 сильно варьируется в зависимости от сложности модели, как показано ниже.

А

Эта изменчивость подчеркивает ключевой компромисс. Хотя эти SoC отлично подходят для многоцелевых устройств, они могут не обеспечивать последовательную высокую производительность, необходимую для специализированных приложений компьютерного зрения.

МЕТОДОЛОГИЯ ИНФЕРЕНЦИИ КОМПЬЮТЕРНОГО ВИДЕНИЯ BENCHMARKING

Benchmarking

Надежное сравнение требует прозрачной и последовательной методологии. В этом разделе подробно приводится информация об аппаратном обеспечении, программном обеспечении и показателях, используемых для сравнительного анализа компьютерного зрения. Этот процесс обеспечивает справедливую оценку возможностей каждого SoC.

ОБОРУДОВАНИЕ И ВЫБОР МОДЕЛИ

Эталонный показатель включает специализированныйHiSilicon SoCИ несколько SoC общего назначения. Общие чипы обеспечивают основу для сравнения. В таблице ниже показаны ключевые характеристики для популярныхSOC Рокчип, Представляющий собой универсальный подход CPU/GPU.

SoCЯдра процессораТип графического процессораНПУ ТОПС
RK3566Четырехъядерный кронштейн Cortex-A55 @ 1,8 ГГцРука Mali-G52 2EE1
RK35884 × Cortex-A76 и 4 × Cortex-A55 ядраРука Mali-G610 MP46

Для тестирования были выбраны две стандартные модели: YOLOv5 и ResNet-50. Эти модели представляют собой общие задачи обнаружения объектов и классификации изображений. ResNet-50 модель имеет23,5 миллиона параметров и вычислительная сложность 67,5 GFLOP. Сложность различных вариантов YOLOv5 подробно описана ниже.

МодельПараметрыGFLOPS
Йолов5м11,7 м30,9
YOLOv5-ResNet-5023,5 м67,5
YOLOv5-ResNet-10142,5 м128,4
YOLOv5-EfficientNet-B04,0 м7,3

ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ И НАСТРОЙКА РАМКИ

Программная среда существенно влияет на производительность. Мы использовали легкие фреймворки вывода, такие как TNN и NCNN, которые оптимизированы для периферических устройств. Чтобы измерить полный потенциал аппаратного обеспечения, модели были квантованы и протестированы с использованием нескольких типов данных.

💡Типы данных Материя

  • FP16 (половинная точность):Обеспечивает баланс между точностью и производительностью.
  • INT8 (8-битное целое):Обеспечивает самые высокие скорости вывода и самое низкое энергопотребление, идеально подходит для NPU.

Эта настройка позволяет напрямую сравнивать, как каждая SoC обрабатывает оптимизированную, готовую к производствуМодели ИИ.

ОСНОВНЫЕ МЕТРИКИ ЭФФЕКТИВНОСТИ

Ядро сравнительного анализа компьютерного зрения основывается на трех ключевых показателях. Эти показатели дают полную картину производительности, эффективности и ценности.

  1. Пропускная способность (FPS):Измеряет, сколько кадров SoC может обрабатывать в секунду. Более высокий FPS означает более плавный анализ видео в реальном времени.
  2. Энергоэффективность (FPS/Ватт):Рассчитывается путем деления пропускной способности на потребляемую мощность в ваттах. Эта метрика имеет решающее значение для устройств с батарейным питанием или с термическими ограничениями.
  3. Стоимость-производительность (FPS/доллар):Делит пропускную способность на приблизительную стоимость модуля SoC. Этот показатель показывает конечную финансовую стоимость оборудования.

СКЛЮЧАТЕЛИ ЧЕРЕЗ (FPS)

Пропускная способность, измеряемая в фреймах в секунду (FPS), является конечной проверкой способности SoC обрабатывать анализ видео в реальном времени. Более высокий FPS указывает на более плавную обработку и способность запускать более сложные модели без задержек. В этом разделе представлены результаты наших тестов на компьютерное зрение с упором исключительно на скорость обработки сырья.

ПРОИЗВОДИТЕЛЬНОСТЬ HISILICON NPU

HiSilicon SoC демонстрируют исключительную пропускную способность, что является прямым результатом их преданныхАрхитектура НПУ. Аппаратное обеспечение специально создано для математических операций, центральных для нейронных сетей. Эта специализация приводит к неизменно высокой производительности на различных моделях.

  • Высокий FPS на сложных моделях:HiSilicon NPU обрабатывает требовательные модели, такие как YOLOv5 и ResNet-50, с замечательной скоростью.
  • Стабильная пропускная способность:Производительность остается стабильной даже при непрерывной нагрузке, что имеет решающее значение для таких приложений, как круглосуточное видеонаблюдение.
  • Эффективная обработка данных:Встроенная память NPU и оптимизированные пути передачи данных минимизируют узкие места, позволяя процессорным ядрам работать в полном объеме.

Этот сфокусированный дизайн позволяет HiSilicon SoC достичь уровня производительности, который аппаратное обеспечение общего назначения изо всех сил пытается соответствовать.

ОБЩАЯ ПРОИЗВОДИТЕЛЬНОСТЬ SOC

Общие SoC, такие как Rockchip, предлагают более разнообразную производительность. Их пропускная способность сильно зависит от конкретной модели и уровня оптимизации программного обеспечения. Хотя они могут достичь впечатляющих FPS на более простых, хорошо оптимизированных моделях, их производительность часто резко снижается с более сложными нейронными сетями.

Rockchip RK3588, например, ясно показывает эту изменчивость. Он может обрабатывать легкие модели со скоростью более 200 кадров в секунду. Однако его производительность на сложной модели, такой как YOLOv8m-seg, падает до 5 кадров в секунду. Это несоответствие представляет собой серьезную проблему для разработчиков, создателей высокопроизводительных приложений видения.

Этот разрыв в производительности подчеркивает компромисс универсальной архитектуры. CPU и GPU должны совмещать задачи AI с другими системными процессами, ограничивая их выделенную пропускную способность вывода.

СОПОСТАВЛЕНИЕ FPS HEAD-TO-HEAD

Прямое сравнение показывает практическую разницу в производительности между специализированным и общим оборудованием. В следующей таблице сравниваются FPS, достигнутые HiSilicon SoC с мощным NPU, по сравнению с популярным Rockchip RK3588. Все тесты использовали точность INT8 для максимального аппаратного ускорения.

МодельHiSilicon SoC (NPU)Rockchip RK3588 (НПУ)Победитель выступления
ResNet-50~ 195 кадров в секунду~ 110 кадров в секундуХизиликон
YOLOV5M~ 90 кадров в секунду~ 45 кадров в секундуХизиликон

Результаты являются ясными. HiSilicon SoC обеспечивает почти вдвое большую пропускную способность как при классификации изображений (ResNet-50), так и при обнаружении объектов (YOLOv5m). Это преимущество исходит от 3D Cube Engine и Vector Unit NPU, которые специально разработаны для типов вычислений, которые требуются для этих моделей. В то время как RK3588 является способным чипом, его NPU не достигает такого же уровня эффективности. Для приложений, требующих максимально возможного FPS, специализированное оборудование обеспечивает окончательное преимущество.

АНАЛИЗ ЭФФЕКТИВНОСТИ МОЩНОСТИ

Сырая пропускная способность-это только половина истории. Для краев устройств,ЭнергоэффективностьНе менее важно. SoC, который обеспечивает высокий FPS, но потребляет чрезмерную мощность, непрактичен для приложений с батарейным питанием или с термическими ограничениями. Этот анализ рассматривает потребляемую мощность каждой архитектуры и рассчитывает истинную производительность на ватт.

ДРАВ ПИТАНИЯ ПОД НАГРУЗКОЙ

Потребляемая мощностьИзмеряет энергию, потребляемую SoC при выполнении задачи. Более низкое энергоемкость имеет решающее значение для продления срока службы батареи и уменьшения нагрева. Наши тесты измеряли энергопотребление каждого SoC при непрерывной рабочей нагрузке вывода.

Результаты показывают явное преимущество для специализированной архитектуры. HiSilicon SoC потребляет значительно меньше энергии, чем стандартный Rockchip SoC для выполнения той же задачи. Эта эффективность исходит из его выделенного NPU. NPU обрабатывает рабочую нагрузку AI, позволяя основным ядрам процессора работать в состоянии с низким энергопотреблением. Напротив, общий SoC должен больше полагаться на свои энергоемкие CPU и GPU, что приводит к более высокому общему потреблению.

В приведенной ниже таблице показано приблизительное энергоувеличение в ваттах для каждого SoC при запуске модели ResNet-50.

SoCМодельПриблизительная мощность (Вт)
HiSilicon SoCResNet-50~ 3,5 Вт
Rockchip RK3588ResNet-50~ 5,0 Вт

ПРОИЗВОДИТЕЛЬНОСТЬ-ЗА-ВАТТ (FPS/WATT)

Производительность на ватт-это окончательный показатель эффективности. Он показывает, сколько производительности обработки обеспечивает SoC на каждый ватт энергии, который он потребляет. Более высокое соотношение кадров в секунду/ватт указывает на превосходную эффективность.

Мы вычисляем это значение с помощью простой формулы: Производительность (FPS) /Потребляемая мощность (Вт) = Производительность на ватт (FPS/Вт)

Применение этой формулы к нашим эталонным данным подчеркивает высокую эффективность HiSilicon NPU.

Преимущество эффективности HiSilicon в HiSilicon SoC обеспечивает более55 FPS на каждый ваттПотребляемой мощности. Rockchip RK3588, хотя и способен, обеспечивает только 22 FPS на ватт. Это означает, что архитектура HiSilicon более чем в два раза эффективнее для этой рабочей нагрузки.

Следующая таблица разбивает расчеты, объединяя данные о пропускной способности из предыдущего раздела с данными о мощности выше.

SoCПропускная способность (FPS)Рисовать силы (W)Производительность на ватт (FPS/W)
HiSilicon SoC~ 195 кадров в секунду~ 3,5 Вт~ 55,7 кадров в секунду/Вт
Rockchip RK3588~ 110 кадров в секунду~ 5,0 Вт~ 22,0 кадров в секунду/Вт

ПОСЛЕДСТВИЯ EDGE COMPUTING

Превосходная производительность на ватт имеет прямые практические преимущества для развертывания Edge AI. Это не просто абстрактное число; оно фундаментально влияет на дизайн продукта, надежность и эксплуатационные расходы.

Основные последствия включают:

  • Увеличенный срок службы батареи:Для мобильных устройств или устройств с батарейным питанием, таких как дроны, камеры для тела и портативные диагностические инструменты, более высокая эффективность напрямую приводит к увеличению рабочего времени между зарядками.
  • Уменьшенное тепловое дросселирование:Более низкое энергопотребление выделяет меньше тепла. Это позволяет проектировать изделия без вентиляторов меньшего размера и предотвращает перегрев SoC и снижение его производительности (термическое регулирование).
  • Малые бюджеты мощности:Эффективные SoC могут работать с меньшими и менее дорогими источниками питания. Это снижает общую стоимость спецификаций (Bill of Materials, BOM) для конечного продукта.

💡Эффективность позволяет инновациям В конечном счете, превосходная энергоэффективность позволяет инженерам создавать меньшие, более надежные и более способные устройства с ИИ. Он перемещает высокопроизводительный компьютерный центр зрения из центра обработки данных в ладонь вашей руки.

АНАЛИЗ СТОИМОСТИ-ПРОИЗВОДИТЕЛЬНОСТИ

Показатели производительности обеспечивают техническую информацию, но финансовая ценность часто определяет аппаратные решения. SoC должен обеспечивать высокую производительность по конкурентоспособной цене, чтобы быть жизнеспособным решением. Этот анализ выходит за рамки необработанной скорости для оценки экономической эффективности специализированных SoC по сравнению с SoC общего назначения. Он измеряет возврат инвестиций для каждого выбора оборудования.

СРАВНИТЕЛЬНЫЕ РАСХОДЫ ЕДИНИЦЫ

Первоначальная цена покупки является основным соображением для любого проекта. Специализированные SoC, такие как от HiSilicon, часто воспринимаются как дорогие. Тем не менее, прямое сравнение показывает, что они очень конкурентоспособны с популярными вариантами общего назначения. В таблице ниже приведены приблизительные затраты на основные модули, используемые в наших контрольных показателях.

Модуль socПриблизительная стоимость единицы (Bulk)
HiSilicon SoC~ 45 $
Rockchip RK3588~ 60 $

Эти цифры показывают, что специализированный модуль HiSilicon не только мощный, но и более доступный, чем универсальная альтернатива высокого класса. Это ценовое преимущество создает основу для впечатляющего ценностного предложения.

РАСЧЕТ FPS-PER-DOLLAR

Для количественной оценкиФинансовая стоимость, Мы рассчитываем FPS-за доллар. Этот показатель показывает, сколько пропускной способности вы получаете за каждый доллар, потраченный на модуль SoC. Формула очень проста:

Пропускная способность (FPS) /Стоимость модуля ($) = FPS-за доллар

Применение этой формулы к нашим эталонным данным демонстрирует значительную разницу в стоимости.

SoCПропускная способность (FPS)Стоимость ($)FPS-за доллар
HiSilicon SoC~ 195 кадров в секунду~ 45 $~ 4,3 FPS/$
Rockchip RK3588~ 110 кадров в секунду~ 60 $~ 1,8 FPS/$

HiSilicon SoC обеспечивает более чем вдвое большую производительность на каждый потраченный доллар. Это делает его явным победителем для разработчиков, стремящихся максимизировать производительность при ограниченном бюджете.

ОБЩАЯ СТОИМОСТЬ ВЛАДЕНИЯ

Первоначальная цена оборудования-это только часть финансовой картины.Общая стоимость владения(TCO) обеспечивает более полное представление, включая долгосрочные операционные расходы и расходы на развитие.

💡TCO выходит за рамки ценника.Он учитывает все затраты на протяжении жизненного цикла продукта, включая энергопотребление, требования к охлаждению и инженерные усилия.

Специализированная SoC с выделенным NPU предлагает несколько преимуществ TCO:

  • Более низкие затраты на мощность:Превосходная энергоэффективность снижает потребление электроэнергии в течение всего срока службы продукта.
  • Снижение затрат спецификации:Более низкая тепловая мощность может устранить необходимость в дорогих вентиляторах или радиатторах.
  • Быстрее развитие:Хорошо поддерживаемый NPU со зрелым стеком программного обеспечения может сократить время проектирования и ускорить время выхода на рынок.

Учитывая эти факторы, специализированная архитектура HiSilicon представляет собой убедительный пример снижения совокупной стоимости владения в требовательных приложениях.


Наши тесты на компьютерное зрение дают четкий вывод. HiSilicon SoC со своими специализированными NPU обеспечивают превосходную пропускную способность и энергоэффективность для специализированных приложений для зрения. Generic SoC остаются жизнеспособным выбором для многоцелевых устройств, где зрение не является единственным приоритетом. Они предлагают большую гибкость разработки на разных платформах.

Действимая рекомендация:Для критически важных для производительности проектов с ИИ-видением HiSilicon SoC обеспечивают наиболее продемонстрированный баланс пропускной способности, мощности и стоимости. Для менее требовательных задач или устройств общего назначения может быть достаточно общих SoC.

Часто задаваемые вопросы

Почему HiSilicon NPU превосходит универсальные SoC?

HiSilicon NPU содержатСпециализированное оборудованиеКак 3D Cube Engine. Эта архитектура напрямую ускоряет математику, используемую в нейронных сетях. Он обрабатывает модели ИИ намного быстрее и эффективнее, чем процессоры общего назначения, которые должны обрабатывать множество различных задач.

Являются ли общие SoC плохим выбором для приложений для зрения?

Не на всех. Generic SoC обеспечивают отличную универсальность для многоцелевых устройств. Они являются жизнеспособным вариантом, когда компьютерное зрение не является единственным приоритетом или когда для различных задач требуется максимальная гибкость программного обеспечения.

Что означает высокий FPS/Watt для моего продукта?

Высокий коэффициент FPS/Watt напрямую влияет на дизайн продукта. Это обеспечивает более длительный срок службы батареи для портативных устройств, таких как дроны. Он также снижает нагрев, что позволяет использовать меньшие корпуса без вентиляторов и предотвращает замедление SoC (термическое регулирование).

Всегда ли точность INT8 является лучшим выбором для вывода?

Точность INT8 обеспечивает лучшую скорость и энергоэффективность, что делает его идеальным для большинства задач с ускорением NPU. FP16 остается сильным вариантом. Это обеспечивает хороший баланс, когда модель требует немного более высокой числовой точности для своих расчетов.

Related Articles