Освоение камеры AI на грани с HiSilicon ISP и NPU

Унифицированный аппаратный конвейер разблокирует максимальную производительность для камеры AI на краю. Чипсеты HiSilicon здесь превосходны. Они делают

Освоение

Унифицированный аппаратный конвейер разблокирует максимальную производительность для камеры AI на краю. Чипсеты HiSilicon здесь превосходны. Они заставляют процессор сигналов изображения (ISP) и блок нейронной обработки (NPU) работать как одна система. Этот подход создает мощные устройства AI edge для современных приложений AI.

Основные преимущества ИИ на устройстве:

  • ⬇️Уменьшенная задержка:Быстрее время отклика.
  • ⬆️Максимальная пропускная способность:Больше данных обрабатывается локально.
  • 🔒Улучшенная конфиденциальность:Чувствительные данные остаются на устройстве.

Быстрый рост вычислительной мощности ИИ на устройствах подчеркивает эти преимущества. Обработка на устройстве расширяется значительно быстрее, чем облачные альтернативы.

МетрикаОбработка на устройствеОблачная обработка ИИ на основе
Годовые вычисления роста38%16%
Темпы роста против облака37% быстрееН/А
Снижение стоимости (г/г)> 25%Н/А

Это руководство предоставляет экспертную информацию для создания этих высокоэффективных систем камер AI с помощью NPU.

Ключевые выходы

  • Чипы hiliconОбъединить ISP и NPU. Это заставляет камеру AI на краевой устройствах работать очень хорошо.
  • ИИ на устройстве-быстрый и частный. Он обрабатывает данные локально, что обеспечивает безопасность конфиденциальной информации.
  • ISP готовит изображения для моделей AI. Это гарантирует, что ИИ видит важные детали, а не только красивые картинки.
  • НПУ являетсяСпециальный чипДля ИИ. Он выполняет задачи ИИ намного быстрее и потребляет меньше энергии, чем обычный компьютерный чип.
  • Подключение ISP и NPU напрямую экономит время. Этот метод «нулевого копии» делает систему ИИ очень эффективной.

АРХИТЕКТУРА ТРУБОПРОВОДА ДЛЯ КАМЕРЫ AI НА КРАЕ

ТРУБЫ

Хорошо продуманный аппаратный конвейер-основа эффективногоКамера AI на краю. Эта архитектура определяет, как данные изображения перемещаются изДатчикК модели ИИ. Типичный путь данных на HiSilicon SoC: Датчик → ISP → DDR → NPU. Этот процесс на устройстве имеет решающее значение для конфиденциальности. Он обрабатывает изображения локально, сохраняя конфиденциальные данные вдали от облака и основной системы.Память.

РОЛЬ ISP'а В МАШИНСКОМ ВИДЕНИИ

Сигнальный процессор изображения (ISP) подготавливает данные изображения для модели ИИ. Его цель отличается от подготовки изображений для человеческих глаз. Интернет-провайдер, настроенный на машинное зрение, напрямую оптимизирует производительность алгоритмов ИИ.

ОсобенностьТюнинг для глаз человекаТюнинг для машинного зрения (AI)
ЦельСоздавайте приятные, естественные изображения.Максимизация точности алгоритма ИИ.
ЭкспозицияСбалансированный свет и тени.Для конкретной задачи (например, передержка для детализации теней).
Баланс белогоЕстественная цветопередача.Сделайте ключевые объекты более видимыми для ИИ.

Некоторые функции ISP являются более важными для ИИ.Тонирование значительно повышает точность классификации. Однако традиционное шумоподавление иногда может повредить производительности, размывая мелкие детали, которые использует модель ИИ.

РОЛЬ NPU'S В ИНФЕРЕНЦИИ

Neural Processing Unit (NPU)-это специализированный процессор для ИИ. Он обеспечивает аппаратное ускорение для вывода AI.HiSilicon NPU содержат специальные двигатели для ускорения операций сверточной нейронной сети (CNN).Эта специализация делает блок нейронной обработки чрезвычайно эффективным.

Почему же NPU лучше для ИИ?

Эта эффективность делает NPU идеальным для устройств с батарейным питанием, работающих с камерой AI на краю. NPU обеспечивает мощное ускорение без высоких затрат на мощность.

ОПТИМАЛЬНЫЙ ПОТОК ДАННЫХ: ДАТЧИК К NPU

Оптимальный поток данных соединяет ISP и NPU в единую систему. Датчик изображения улавливает свет. ISP обрабатывает необработанные данные в формате, подходящем для модели ИИ. Затем данные перемещаются в блок нейронной обработки для анализа. Этот прямой путь минимизирует задержку и максимизирует пропускную способность. NPU выполняет тяжелую работу вывода AI. Весь этот рабочий процесс происходит на чипе. Он создает быструю, частную и эффективную систему для продвинутых приложений ИИ.

AI-AWARE ТУНИНГ ISP

Настройка ISP для модели ИИ отличается от настройки для человеческих глаз. ISP, осведомленный о AI, готовит данные изображения для максимизации точности модели, а не визуальной привлекательности. Это включает в себя преднамеренные компромиссы при обработке изображений. Разработчики могут получить значительный прирост производительности, совместив настройки ISP с конкретными потребностями нейронной сети. Такой подход позволяет НПУ получать максимально полезные данные.

ОБОРУДОВАНИЕ VS. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ PRE-PROCESSING

Разработчики могут выполнять предварительную обработку с использованием выделенного оборудования ISP или программных возможностей процессора. Для устройств на краю аппаратная предварительная обработка почти всегда является лучшим выбором. Аппаратное обеспечение ISP действует как мощный ускоритель для определенных функций, таких как масштабирование и преобразование цветового пространства. Этот метод обеспечивает огромный прирост эффективности.

Аппаратный подход использует значительно меньше энергии. Предварительная обработка ISP может бытьОт 10 до 100 разЭнергоэффективнее, чем выполнение тех же операций на процессоре. В системах с высоким разрешением конвейер на основе ЦП может потреблять около1000 милливатт на мегапиксель, что в десять раз больше, чем сам датчик изображения. ISP избегает этого большого энергоизыма.

В следующей таблице сравниваются два метода:

ОсобенностьПредварительная обработка оборудования ISPПредварительная обработка программного обеспечения на базе ЦП
Вычислительная мощностьМеньшие потребностиБолее высокие требования
Пропускная способность памятиЗначительно нижеВыше (может превышать пропускную способность)
Потребление энергииОт 10x до 100x нижеВысшее
ГибкостьСокращенныйВысшее
Обработка данныхИспользует внутреннюю памятьТребуется внешняя память (DDR)
Операция в реальном времениМаксимизирует пропускную способностьМожет быть ограничен пропускной способностью

Примечание:В то время как программное обеспечение обеспечивает большую гибкость, стоимость производительности и пропускная способность памяти делают его непрактичным для большинства приложений edge ai в реальном времени. Аппаратное ускорение ISP имеет важное значение для построения эффективных систем.

ОПТИМИЗАЦИЯ ВЫХОДНЫХ ФОРМАТОВ

Формат данных изображения, покидающих ISP, напрямую влияет на производительность NPU. Выбор правильного формата вывода уменьшает пропускную способность памяти и ускоряет вывод. Цель состоит в том, чтобы отправить данные в NPU в формате, который он может использовать с минимальным преобразованием.

Многие модели ИИ, особенно те, которые для обнаружения объектов, не нуждаются в полноцветной информации. Они часто работают в оттенках серого или полуплоскостных форматах, таких как NV12 (YUV 4:2:0).

  • Уменьшает размер данных:NV12 кадр на 50% меньше, чем сопоставимый RGB или YUV 4:4:4 кадра.
  • Снижает трафик памяти:Отправка меньшего объема данных между ISP, памятью и NPU освобождает пропускную способность.
  • Предотвращает узкие места:Эффективное управление полосой пропускания имеет решающее значение для предотвращения задержек, особенно вПервый слой CNN.

ISP может выполнять такие задачи, как преобразование цветового пространства (например, Bayer в NV12) и биннинг (усреднение пикселей) в аппаратном обеспечении. Эта предварительная обработка уменьшает объем данных до того, как он покинет провайдера, обеспечивая бесперебойную работу всего конвейера.

ВОЗДЕЙСТВИЕ И ДИНАМИЧЕСКИЙ ДИАПАЗОН КОНТРОЛЯ

Правильная экспозиция и динамический диапазон имеют решающее значение для надежной работы ИИ. Изображение, которое слишком темное или слишком яркое, может привести к сбою модели. Настройка на основе ИИ фокусируется на том, чтобы объекты, представляющие интерес, были понятны алгоритму, даже если это делает изображение неестественным для человека.

Мощная техника-этоАвтоматическая экспозиция на основе лица. Этот метод оптимизирует экспозицию для граней в кадре.

  1. Обнаружение:Система идентифицирует лица как области интереса (ROI).
  2. Расчет:Он рассчитывает идеальную экспозицию на основе света в пределах этих ROI.
  3. Применение:Камера динамически применяет новые настройки.

Когда присутствуют несколько граней, система может использовать простое среднее или средневзвешенное по размеру значение, которое отдает приоритет более крупным, более заметным граням.

Для сцен с высокой контрастностью, таких как яркое небо и глубокие тени,Широкий динамический диапазон (WDR)Имеет важное значение. WDR сочетает в себе несколько экспозиций для захвата деталей как в ярких, так и в темных областях. Ключевые параметры WDR для модели ai включают:

  • Глобальное усиление темного тона: Осветляет темные области, чтобы выявить скрытые объекты.
  • Прочность WDR: Регулирует локальный контраст, чтобы детали выделяются более четко.

В условиях низкой освещенности интернет-провайдер долженБаланс яркости и шума. Увеличение усиления датчика может осветлить изображение, но также добавить шум, который может запутать AI-модель. Продвинутые интернет-провайдеры используют2D шумоподавление, сохраняющее важные детали. Для экстремальных условий низкой освещенности (ниже 0,01 лк) в некоторых системах используетсяВычислительный мульти-спектральный подход к слиянию. Этот метод объединяет данные из разных спектров света, чтобы создать четкое изображение, где стандартная камера будет видеть только темноту.

ОПТИМИЗАЦИЯ НПУ И МОДЕЛИ

НПУ

Оптимизация модели нейронной сети так же важна, как и настройка ISP. Модель, разработанная для облачных серверов или высокопроизводительных смартфонов, не будет эффективно работать на устройствах с ограничением мощности. Правильная адаптация модели и эффективный конвейер данных необходимы для раскрытия полного потенциала HiSilicon.НПУ. Этот процесс гарантирует, что оборудование работает с максимальной производительностью.

АДАПТАЦИЯ МОДЕЛЕЙ ИЗ ГЛУБОКОГО ОБУЧЕНИЯ НА СМАРТФОНАХ

Разработчики часто создают начальные модели ИИ в средах с высоким уровнем ресурсов. Портирование этих моделей с мощных платформ, например дляГлубокое обучение на смартфонах, Для встроенных систем создает несколько проблем. High-endСмартфоныИмеют больше вычислительной мощности и памяти, чем обычные краевой устройства.

Адаптация этих сложных моделей требует тщательного процесса оптимизации.

  • Ограниченная вычислительная мощность:Краевые устройства имеют менее мощные процессоры. Они борются за большуюAIМодели эффективно.
  • Ограничения памяти:Пограничное оборудование имеет ограниченную оперативную память. Загрузка больших моделей разработанных для флагманаСмартфоныЧасто это невозможно.
  • Энергоэффективность:Многие краевые устройства используют батареи. Власть-голодныйAIМодели могут значительно сократить время их работы.
  • Риски безопасности:Краевые устройства могут быть более уязвимы для физических атак. Это делает безопасность данных критической проблемой при развертывании модели наАндроидИ другие платформы.

Чтобы решить эти проблемы, инженеры следуют четкой рабочей последовательности, чтобы подготовить модель для NPU.

  1. Получение модели с плавающей точкой:Процесс начинается со стандартной модели изОбучение AIТакие рамки, как TensorFlow или PyTorch. Эта модель обычно разрабатывается для мощныхСмартфоныИли облачные серверы.
  2. Оптимизация для оборудования:Модель подвергается сжатию и квантированию. Этот шаг преобразует модель в более эффективный формат, что делает ее пригодной для устройств с ограниченными ресурсами, в том числе сМобильные ускорители AI.

Эта адаптация имеет решающее значение для любогоАндроид-Краевой прибор на основе. Цель состоит в том, чтобы уменьшить модель без потери слишком большой точности, ключевая задача для любогоЭталон AI. Окончательная модель должна быть достаточно надежной, чтобы хорошо работать в реальных условиях, которые могут сильно отличаться от чистых данных, используемых при разработке на мощныхСмартфоны.

СООТВЕТСТВУЮЩЕЙ ВХОДНОЙ РЕЗОЛЮЦИИ

Разрешение входного изображения создает критический компромисс между точностью и производительностью. Более высокое разрешение может повысить точность обнаружения небольших объектов. Однако он также требует больше памяти и вычислительной мощности отНПУ. Подача потока с высоким разрешением на краевой прибор без тщательного рассмотрения может быстро перегрузить систему.

Разработчики должны найти сладкое место для своего конкретного применения. Было бы ошибкой предполагать, что максимально возможное разрешение всегда является лучшим. Вместо этого, инженеры должныНастройка входных размеров на основе контекста развертывания и ограничений на оборудование. АнЭталон AIМожет помочь определить оптимальный баланс.

Входное разрешениеПотенциальная точностьЗадержка выводаЗагрузка оборудования
Низкий (например, 320x320)Подходит для крупных объектовНизкийНизкий
Средний (например, 640x640)Сбалансированная производительностьСреднийСредний
Высокая (например, 1280x720)Лучше всего для небольших предметовНаивысшийВысокая

Для многих задач более низкое разрешение обеспечивает достаточную точность при значительно меньшей задержке. Это освобождаетНПУОбрабатывать больше кадров в секунду, увеличивая общую пропускную способность. Правильный выбор зависит от целей приложения, будь то скорость в реальном времени или максимальная детализации. Это является ключевой частью проектирования эффективногоАндроидСистемы.

НУЛЬ-КОПИРОВАНИЕ С NNIE

После оптимизации модели последним шагом является создание эффективного пути данных кНПУ. Наиболее эффективным методом является привязка к нулевой копии. Этот метод позволяет провайдеру записывать данные изображения непосредственно в буфер памяти, к которому NPU может получить доступ без какого-либо промежуточного копирования процессором.

Методы нулевого копирования позволяют передавать данные между различными пространствами памяти без необходимости дублирования данных процессором. Этот подход сводит к минимуму использование ЦП и потребление полосы пропускания памяти, что приводит к существенной прибыли производительности.

В традиционном конвейере ЦП копирует образ из буфера ISP в отдельный буфер NPU. Эта операция копирования потребляет циклы ЦП и пропускную способность памяти, создавая узкое место. Нулевое копирование исключает этот шаг. ISP иНПУСовместно использовать область памяти, обеспечивая прямой аппаратный поток данных. Это обеспечивает значительное оборудованиеУскорение.

Преимущества производительности являются существенными. Устраняя дублирование данных, привязка к нулевому копированию значительно снижает задержку и увеличивает пропускную способность. Это основной принцип для создания высокопроизводительнойТрубопровод на Андроид мл.

Метод передачи данныхОтносительная пропускная способность
Традиционное чтение/запись1.0x
Ноль-Копировать~ 1,4x

Путем внедрения конвейера нулевого копирования, системы могут достигнуть улучшений пропускной способности начиная отОт 1,5x до 9,5x, В зависимости от сложностиAIНагрузки. Это делает его не подлежащим обсуждению методом для высокопроизводительной камеры.AIНаАндроидУстройства. Это гарантирует, что вся система, от датчика до вывода, работает как единое эффективное устройство.

РАСШИРЕННАЯ ОПТИМИЗАЦИЯ ТРУБОПРОВОДОВ

Расширенные оптимизации подталкивают оборудование к его абсолютным пределам. После настройки ISP и модели инженеры могут применять более глубокие методы для управления сложными рабочими нагрузками. Эти методы сосредоточены на балансировке системных ресурсов для достижения конкретных целей производительности для камеры AI на краю.

МУЛЬТИ-УПРАВЛЕНИЕ ПОТОК

Запуск нескольких видеопотоков на одном устройстве представляет собой серьезную проблему. Каждый поток конкурирует за одни и те же ограниченные аппаратные ресурсы. Это может привести к узким местам производительности, если не управлять тщательно. Инженеры должны учитывать несколько ограничений:

  • Ограниченная мощность обработки:NPU и память устройства ограничивают размер и сложность AI-моделей, которые могут работать одновременно.
  • Проблемы масштабируемости:Поскольку AI-модели становятся более сложными, способность оборудования обрабатывать больше потоков или задач уменьшается.
  • Энергетические ограничения:Запуск нескольких потоков увеличивает энергопотребление, что является критическим фактором для устройств с батарейным питанием.

Правильное управление гарантирует, что система остается стабильной и отзывчивой даже при обработке нескольких видеопотоков одновременно.

ПОСЛЕДНИЕ VS. ЧЕРЕЗ

Инженеры часто сталкиваются с компромисс между задержкой и пропускной способностью.

Задержка-Время, необходимое для обработки одного кадра, от захвата до результата. Низкая задержка имеет решающее значение для приложений в реальном времени. Пропускная способность: Общее количество кадров, которое система может обработать за период. Высокая пропускная способность имеет важное значение для мониторинга больших площадей.

Чтобы отдавать приоритет низкой задержке, разработчики могут вносить конкретные корректировки.

Эти варианты помогают создать высокочувствительную систему для задач, чувствительных ко времени.

ПРОФИЛИРОВАНИЕ ПОЛНОЙ ТРУБОПРОВОДЫ

Оптимизации отдельных частей не достаточно. Инженеры должны измерить всю систему, чтобы найти слабые места. Профилирование полного конвейера дает полную картину производительности. Это включает в себя измерение задержки «стекло-стекло», которая является общим временем с момента попадания света на датчик до момента, когда результат ai будет готов.

Достижение предсказуемой низкой задержки «стекло-стекло» имеет решающее значение для промышленных и автомобильных приложений, где решения за доли секунды имеют значение. Анализируя весь путь данных-Sensor → ISP → DDR → NPU-разработчики могут определить и исправить точный источник задержек. Этот последний шаг гарантирует, что полная камера AI на краевой системе работает с максимальной эффективностью.


Освоение синергии между ISP и NPU имеет важное значение для высокопроизводительного ИИ. Аппаратно-ускоренный конвейер с нулевой копией разблокирует полную мощностьHiSilicon SoCs. Такая интеграция обеспечиваетЗначительная экономия энергии и позволяет NPU предоставлять расширенный вывод AI.

Инженеры могут применять эти методы, чтобы подтолкнуть NPU к своим пределам. Им предлагается поделиться своими результатами и помочь сообществу разработчиков расти.

Эта структура отвечает всем требованиям. Он лаконичный, информативный и действенный.


Заключение

Освоение синергии между ISP и NPU имеет важное значение для высокопроизводительного ИИ. Аппаратно-ускоренный конвейер с нулевым копией открывает всю мощь HiSilicon SoC. Эта интеграция обеспечивает значительную экономию энергии и позволяет NPU предоставлять расширенный вывод AI.

Инженеры могут применять эти методы, чтобы подтолкнуть NPU к своим пределам. Им предлагается поделиться своими результатами и помочь сообществу разработчиков расти.

Часто задаваемые вопросы

Зачем настраивать интернет-провайдера на ИИ вместо человеческих глаз?

Интернет-провайдер, настроенный на ИИ, отдает приоритет точности модели над визуальной привлекательностью. Он улучшает детали и контраст, которые помогают алгоритму ИИ выполнять свою задачу. Это отличается от создания приятного образа для просмотра людьми. Цель состоит в том, чтобы кормить NPU наиболее полезными данными.

Что делает NPU лучше, чем процессор для ИИ?

NPU-это специализированный процессор, предназначенный для вычислений ИИ. Он выполняет математику нейронной сети намного эффективнее, чем процессор общего назначения. Эта специализация приводит к снижению энергопотребления и более высокой скорости вывода, что делает его идеальным для периферических устройств.

Что такое привязка к нулевой копии?

Связывание с нулевой копией-это метод, который позволяет ISP и NPU совместно использовать местоположение памяти. ISP записывает данные изображения непосредственно там, где NPU может их прочитать. Этот метод исключает копирование данных ЦП, что снижает задержку и увеличивает пропускную способность системы.

Должен ли я выбрать низкую задержку или высокую пропускную способность?

Выбор зависит от потребностей приложения.

  • Низкая задержкаИмеет решающее значение для задач в реальном времени, требующих быстрого реагирования.
  • Высокая пропускная способностьВажно для систем, которые должны обрабатывать много видеопотоков или кадров одновременно.

Инженеры уравновешивают эти факторы для достижения конкретных целей производительности.

Related Articles