Maîtriser l'IA de la caméra sur le bord avec HiSilicon ISP et NPU

Un pipeline matériel unifié débloque des performances de pointe pour l'IA de la caméra à la périphérie. HiSilicon chipsets exceller ici. Ils font fonctionner le processeur de signal d'image (ISP) et l'unité de traitement neuronal (NPU) comme un seul système. Cette approche crée des dispositifs AI edge puissants pour les applications IA modernes.

Principaux avantages de l'IA sur appareil:

⬇️Latence réduite:Temps de réponse plus rapide.

⬆️Débit maximisé:Plus de données traitées localement.

🔒Intimité renforcée:Les données sensibles restent sur l'appareil.

La croissance rapide de la puissance de calcul de l'IA sur les appareils met en évidence ces avantages. Le traitement sur appareil se développe beaucoup plus rapidement que les alternatives au cloud.

Métrique	Traitement sur l'appareil	Traitement IA basé sur le cloud
Croissance annuelle du calcul	38%	16%
Taux de croissance par rapport au nuage	37% plus rapide	N/A
Diminution des coûts (YoY)	> 25%	N/A

Ce guide fournit des informations d'experts pour la construction de ces systèmes de caméra IA à haute efficacité avec le NPU.

Les clés à emporter

Puces de HiSiliconCombiner l'ISP et NPU. Cela fait que l'IA de la caméra sur les appareils Edge fonctionne très bien.
L'IA sur appareil est rapide et privée. Il traite les données localement, ce qui protège les informations sensibles.
Le FAI prépare des images pour les modèles d'IA. Il s'assure que l'IA voit des détails importants, pas seulement de jolies images.
Le NPU est unPuce spécialePour AI. Il exécute des tâches d'IA beaucoup plus rapidement et consomme moins d'énergie qu'une puce d'ordinateur ordinaire.
La connexion directe du FAI et du NPU permet de gagner du temps. Cette méthode «zéro copie» rend le système d'IA très efficace.

ARCHITECTURE DE PIPELINE POUR CAMÉRA AI SUR LE BORD

Un pipeline matériel bien conçu est la base d'une efficacitéCaméra AI sur le bord. Cette architecture définit comment les données d'image se déplacent de laCapteurAu modèle de l'IA. Le chemin de données typique sur un HiSilicon SoC est: Capteur → ISP → DDR → NPU. Ce processus sur l'appareil est crucial pour la confidentialité. Il traite les images localement, en gardant les données sensibles loin du cloud et du système principal.Mémoire.

LE RÔLE DU FAI DANS LA VISION MACHINE

Le processeur de signal d'image (ISP) prépare les données d'image pour un modèle d'IA. Son objectif est différent de la préparation d'images pour les yeux humains. Un FAI à l'écoute pour la vision machine optimise directement les performances des algorithmes d'IA.

Caractéristique	Tuning pour les yeux humains	Réglage pour la vision par ordinateur (AI)
Objectif	Créez des images agréables et naturelles.	Maximisez la précision de l'algorithme AI.
Exposition	Lumière et ombres équilibrées.	Spécifique à la tâche (par exemple, surexposer pour le détail de l'ombre).
Balance des blancs	Rendu naturel des couleurs.	Rendre les objets clés plus visibles pour l'IA.

Certaines fonctions de FAI sont plus importantes pour l'IA.Le mappage des tons améliore considérablement la précision de classification. Cependant, la réduction du bruit traditionnelle peut parfois nuire aux performances en floutant les détails fins qu'un modèle d'IA utilise.

LE RÔLE DU NPU DANS L'INFÉRENCE

Le Neural Processing Unit (NPU) est un processeur spécialisé pour l'IA. Il fournit une accélération matérielle pour l'inférence de l'IA.HiSilicon NPU contiennent des moteurs dédiés pour accélérer les opérations de réseau de neurones convolutifs (CNN).Cette spécialisation rend l'unité de traitement neuronal extrêmement efficace.

Pourquoi un NPU est-il meilleur pour l'IA?

Il est conçu spécifiquement pour les mathématiques du réseau neuronal.

Il utilise beaucoup moins de puissance qu'un CPU ou un GPU pour les tâches d'IA.

Il met des fonctionnalités supplémentaires pour optimiser l'efficacité énergétique.

Cette efficacité rend le NPU idéal pour les appareils alimentés par batterie exécutant la caméra AI sur le bord. Le NPU offre une accélération puissante sans coûts d'énergie élevés.

FLUX DE DONNÉES OPTIMAL: CAPTEUR À NPU

Le flux de données optimal relie l'ISP et NPU en un seul système. Le capteur d'image capte la lumière. Le FAI traite les données brutes dans un format adapté au modèle d'IA. Les données se déplacent ensuite vers l'unité de traitement neuronal pour analyse. Ce chemin direct minimise la latence et maximise le débit. Le NPU effectue la levée lourde de l'inférence de l'IA. Tout ce flux de travail se passe sur la puce. Il crée un système rapide, privé et efficace pour les applications d'IA avancées.

AI-AWARE ISP TUNING

Le réglage du FAI pour un modèle d'IA est différent du réglage pour les yeux humains. Un FAI conscient de l'IA prépare les données d'image pour maximiser la précision du modèle, pas l'attrait visuel. Cela implique de faire des compromis délibérés dans le traitement d'image. Les développeurs peuvent débloquer des gains de performance significatifs en alignant les paramètres des FAI avec les besoins spécifiques du réseau de neurones. Cette approche garantit que le NPU reçoit les données les plus utiles possibles.

MATÉRIEL VS. LOGICIEL PRE-PROCESSING

Les développeurs peuvent effectuer le prétraitement en utilisant le matériel dédié du FAI ou les capacités logicielles du CPU. Pour les périphériques de pointe, le prétraitement du matériel est presque toujours le choix supérieur. Le matériel ISP agit comme un puissant accélérateur pour des fonctions spécifiques comme la mise à l'échelle et la conversion d'espace de couleur. Cette méthode offre d'énormes gains d'efficacité.

Une approche basée sur le matériel utilise beaucoup moins d'énergie. Le pré-traitement ISP peut être10 à 100 foisPlus économe en énergie que d'exécuter les mêmes opérations sur un CPU. Dans les systèmes haute résolution, un pipeline basé sur CPU peut consommer environ1000 milliwatts par mégapixel, soit dix fois plus que le capteur d'image lui-même. L'ISP évite ce tirage de puissance lourd.

Le tableau suivant compare les deux méthodes:

Caractéristique	Prétraitement du matériel ISP	Pré-traitement logiciel basé sur CPU
Puissance de calcul	Exigence inférieure	Exigence plus élevée
Bande passante mémoire	Significativement inférieur	Supérieur (peut dépasser la bande passante)
Consommation d'énergie	10x à 100x inférieur	Supérieur
Flexibilité	Réduit	Supérieur
Manipulation des données	Utilise la mémoire interne	Nécessite une mémoire externe (DDR)
Opération en temps réel	Maximise le débit	Peut être limité par la bande passante

Remarque:Alors que le logiciel offre plus de flexibilité, le coût de performance en puissance et en bande passante mémoire le rend peu pratique pour la plupart des applications edge ai en temps réel. L'accélération matérielle du FAI est essentielle pour construire des systèmes efficaces.

OPTIMISATION DES FORMATS DE SORTIE

Le format des données d'image quittant l'ISP a un impact direct sur les performances de NPU. Le choix du bon format de sortie réduit la bande passante mémoire et accélère l'inférence. L'objectif est d'envoyer des données au NPU dans un format qu'il peut utiliser avec une conversion minimale.

De nombreux modèles d'IA, en particulier ceux pour la détection d'objets, n'ont pas besoin d'informations en couleur. Ils fonctionnent souvent sur des formats en échelle de gris ou semi-planaires comme NV12 (YUV 4:2:0).

Réduit la taille des données:Un cadre NV12 est 50% plus petit qu'un cadre comparable RVB ou YUV 4:4:4.
Abaisse le trafic mémoire:Envoyer moins de données entre le FAI, la mémoire et le NPU libère de la bande passante.
Empêche les goulots d'étranglement:Une gestion efficace de la bande passante est essentielle pour prévenir les retards, en particulier dans lePremière couche d'un CNN.

Le FAI peut effectuer des tâches telles que la conversion d'espace colorimétrique (par exemple, Bayer à NV12) et le binning (moyenne de pixels) dans le matériel. Ce prétraitement réduit le volume de données avant qu'il ne quitte le FAI, garantissant ainsi le bon fonctionnement de l'ensemble du pipeline.

COMMANDE DE L'EXPOSITION ET DE LA GAMME DYNAMIQUE

Une exposition et une plage dynamique appropriées sont essentielles pour des performances d'IA fiables. Une image trop sombre ou trop claire peut entraîner l'échec d'un modèle. Le réglage conscient de l'IA vise à rendre les objets d'intérêt clairs pour l'algorithme, même si cela rend l'image non naturelle pour une personne.

Une technique puissante estExposition automatique basée sur le visage. Cette méthode optimise l'exposition pour les visages dans le cadre.

Détection:Le système identifie des visages en tant que régions d'intérêt (ROI).
Calcul:Il calcule l'exposition idéale en fonction de la lumière dans ces ROI.
Application:La caméra applique dynamiquement les nouveaux paramètres.

Lorsque plusieurs visages sont présents, le système peut utiliser une moyenne simple ou une moyenne pondérée par la taille qui donne la priorité aux visages plus grands et plus proéminents.

Pour les scènes à contraste élevé, comme un ciel lumineux et des ombres profondes,Large plage dynamique (WDR)Est essentiel. WDR combine plusieurs expositions pour capturer des détails dans les zones claires et sombres. Les paramètres WDR clés pour un modèle AI incluent:

Le ton foncé global augmentent: Éclaircit les régions sombres pour révéler des objets cachés.
Force de WDRAjuste le contraste local pour que les détails ressortent plus clairement.

Dans les environnements à faible luminosité, le FAI doitÉquilibre luminosité et bruit. L'augmentation du gain du capteur peut éclairer une image, mais ajoute également du bruit qui peut confondre un modèle d'ai. Utilisation avancée des FAIRéduction du bruit 2D qui préserve les détails importants. Pour des conditions extrêmes de faible luminosité (inférieures à 0,01 lx), certains systèmes utilisent unApproche de fusion multispectrale computationnelle. Cette méthode combine les données de différents spectres de lumière pour créer une image claire où une caméra standard ne verrait que l'obscurité.

NPU ET OPTIMISATION DE MODÈLES

Optimiser le modèle de réseau neuronal est tout aussi important que de régler le FAI. Un modèle conçu pour les serveurs cloud ou les smartphones haut de gamme ne fonctionnera pas efficacement sur un périphérique de pointe à puissance limitée. Une adaptation appropriée du modèle et un pipeline de données efficace sont essentiels pour libérer tout le potentiel de la HiSilicon.NPU. Ce processus garantit que le matériel fonctionne à des performances maximales.

ADAPTATION DE MODÈLES DE DEEP LEARNING SUR SMARTPHONES

Les développeurs créent souvent des modèles d'IA initiaux dans des environnements à ressources élevées. Portant ces modèles à partir de plates-formes puissantes, comme celles pourDeep Learning sur smartphones, Aux systèmes embarqués introduit plusieurs défis. Haut de gammeSmartphonesOnt plus de puissance de traitement et de mémoire que les périphériques de bord typiques.

L'adaptation de ces modèles complexes nécessite un processus d'optimisation minutieux.

Puissance de calcul limitée:Les périphériques Edge ont des processeurs moins puissants. Ils luttent pour courir grandAiModèles efficacement.
Contraintes mémoire:Le matériel Edge a une RAM limitée. Chargement de grands modèles développés pour phareSmartphonesEst souvent impossible.
Efficacité énergétique:De nombreux appareils de bord utilisent des piles. Affamé de pouvoirAiModèles peuvent considérablement raccourcir leur temps de fonctionnement.
Risques de sécurité:Les périphériques de périphérie peuvent être plus vulnérables aux attaques physiques. Cela fait de la sécurité des données une préoccupation critique lors du déploiement du modèle surAndroidEt autres plateformes.

Pour résoudre ces problèmes, les ingénieurs suivent un flux de travail clair pour préparer un modèle pour le NPU.

Obtenir un modèle à virgule flottante:Le processus commence par un modèle standard d'unFormation aiComme TensorFlow ou PyTorch. Ce modèle est généralement développé pour les puissantsSmartphonesOu des serveurs cloud.
Optimiser pour le matériel:Le modèle subit une compression et une quantification. Cette étape convertit le modèle dans un format plus efficace, ce qui le rend approprié pour les appareils avec des ressources limitées, y compris ceux avecAccélérateurs mobiles ai.

Cette adaptation est cruciale pour touteAndroid-Dispositif de bord basé. L'objectif est de réduire le modèle sans perdre trop de précision, une tâche clé pour toutBenchmark ai. Le modèle final doit être suffisamment robuste pour être performant dans des conditions réelles, ce qui peut être très différent des données propres utilisées lors du développement sur puissant.Smartphones.

RÉSOLUTION D'ENTRÉE CORRESPONDANT

La résolution de l'image d'entrée crée un compromis critique entre précision et performance. Une résolution plus élevée peut améliorer la précision de détection pour les petits objets. Cependant, il exige également plus de mémoire et de puissance de traitement duNPU. L'alimentation d'un flux à haute résolution à un dispositif de périphérie sans examen attentif peut rapidement surcharger le système.

Les développeurs doivent trouver le sweet spot pour leur application spécifique. C'est une erreur de supposer que la résolution la plus élevée possible est toujours la meilleure. Les ingénieurs devraientRégler les dimensions d'entrée en fonction du contexte de déploiement et des limites matérielles. UneBenchmark aiPeut aider à déterminer l'équilibre optimal.

Résolution d'entrée	Précision potentielle	Latence d'inférence	Charge de matériel
Faible (p. ex. 320x320)	Bon pour les gros objets	Le plus bas	Faible
Moyen (p. ex., 640x640)	Des performances équilibrées	Moyen	Moyen
Élevé (p. ex. 1280x720)	Le meilleur pour les petits objets	Le plus élevé	Élevé

Pour de nombreuses tâches, une résolution inférieure fournit une précision suffisante avec une latence nettement inférieure. Cela libère leNPUPour traiter plus de trames par seconde, augmentant ainsi le débit global. Le bon choix dépend des objectifs de l'application, qu'il s'agisse de vitesse en temps réel ou de détail maximal. C'est un élément clé de la conception d'un système efficaceAndroidSystème.

LIAISON ZERO-COPIE AVEC NNIE

Après avoir optimisé le modèle, la dernière étape consiste à créer un chemin de données efficace vers leNPU. La méthode la plus efficace est la liaison zéro copie. Cette technique permet à l'ISP d'écrire des données d'image directement dans un tampon de mémoire auquel la NPU peut accéder sans copie intermédiaire par la CPU.

Les techniques de copie zéro permettent le transfert de données entre différents espaces mémoire sans que le CPU ne duplique les données. Cette approche minimise l'utilisation du processeur et la consommation de bande passante mémoire, ce qui entraîne des gains de performance majeurs.

Dans un pipeline traditionnel, la CPU copie l'image depuis un tampon ISP vers un tampon NPU séparé. Cette opération de copie consomme des cycles CPU et de la bande passante de la mémoire, créant un goulot d'étranglement. La copie zéro élimine cette étape. L'ISP etNPUPartager une région de mémoire, ce qui permet un flux de données direct, piloté par le matériel. Cela fournit un matériel importantAccélération.

Les avantages de performance sont substantiels. En éliminant la duplication des données, la liaison zéro-copie réduit considérablement la latence et augmente le débit. Ceci est un principe de base pour la construction d'une haute performanceAndroid ml pipeline.

Méthode de transfert de données	Débit relatif
Lecture/écriture traditionnelle	1.0x
Zéro-Copie	~ 1.4x

En mettant en œuvre un pipeline zéro copie, les systèmes peuvent obtenir des améliorations de débit allant de1.5x à 9.5xEn fonction de la complexité de laAiCharge de travail. Cela en fait une technique non négociable pour un appareil photo haute performanceAiSurAndroidAppareils. Il garantit que l'ensemble du système, du capteur à l'inférence, fonctionne comme une seule unité efficace.

OPTIMISATIONS AVANCÉES DES PIPELINES

Les optimisations avancées poussent le matériel à ses limites absolues. Après avoir paramétré le FAI et le modèle, les ingénieurs peuvent appliquer des techniques plus approfondies pour gérer des charges de travail complexes. Ces méthodes se concentrent sur l'équilibrage des ressources du système pour atteindre des objectifs de performance spécifiques pour la caméra ai sur le bord.

GESTION MULTI-FLUX

L'exécution de plusieurs flux vidéo sur un seul appareil périphérique présente un défi de taille. Chaque flux est en concurrence pour les mêmes ressources matérielles limitées. Cela peut entraîner des goulots d'étranglement en matière de performances s'il n'est pas géré avec soin. Les ingénieurs doivent tenir compte de plusieurs contraintes:

Puissance de traitement limitée:Le NPU et la mémoire de l'appareil limitent la taille et la complexité des modèles d'IA qui peuvent fonctionner en même temps.
Problèmes de scalabilité:À mesure que les modèles d'ia deviennent plus complexes, la capacité du matériel à gérer davantage de flux ou de tâches diminue.
Contraintes énergétiques:L'exécution de plusieurs flux augmente la consommation d'énergie, ce qui est un facteur critique pour les appareils alimentés par batterie.

Une bonne gestion garantit que le système reste stable et réactif même lors du traitement de plusieurs flux vidéo à la fois.

LATENCE VS. RAPIDITÉ

Les ingénieurs sont souvent confrontés à un compromis entre latence et débit.

LatenceEst le temps nécessaire pour traiter une seule image, de la capture au résultat. La faible latence est cruciale pour les applications en temps réel. DébitEst le nombre total de trames que le système peut traiter sur une période. Un débit élevé est important pour la surveillance de grandes zones.

Pour donner la priorité à une faible latence, les développeurs peuvent effectuer des ajustements spécifiques.

Choisissez des modèles légers:L'utilisation de modèles efficaces comme MobileNet réduit le tempsNPU dépense sur l'inférence.
Appliquer la quantification:La conversion du modèle vers un format de précision inférieure (comme INT8) réduit sa taille et accélère les calculs.
Optimiser la planification: Définir des délais d'attente de lots plus courts et utiliser la planification basée sur la prioritéS'assure que les demandes urgentes sont traitées immédiatement.

Ces choix aident à créer un système hautement réactif pour les tâches sensibles au temps.

PROFIL DU PLEIN PIPELINE

L'optimisation des pièces individuelles ne suffit pas. Les ingénieurs doivent mesurer l'ensemble du système pour trouver les points faibles. Le profilage du pipeline complet fournit une image complète de la performance. Cela implique de mesurer la latence "verre à verre", qui est le temps total entre le moment où la lumière frappe le capteur et le moment où le résultat AI est prêt.

Atteindre une faible latence verre-verre prévisible est essentiel pour les applications industrielles et automobiles où les décisions en une fraction de seconde comptent. En analysant l'ensemble du chemin de données-Capteur → ISP → DDR → NPU-les développeurs peuvent identifier et corriger la source exacte des retards. Cette dernière étape garantit que la caméra complète ai sur le système de bord fonctionne à une efficacité maximale.

Maîtriser la synergie entre l'ISP et le NPU est essentiel pour l'IA de pointe haute performance. Un pipeline zéro copie, accéléré par le matériel, déverrouille toute la puissance deSoCs de HiSilicon. Cette intégration fournitÉconomies d'énergie significatives et permet à la NPU de fournir une inférence AI améliorée.

Les ingénieurs peuvent appliquer ces pratiques pour pousser la NPU à ses limites. Ils sont encouragés à partager leurs résultats et à aider la communauté des développeurs à se développer.

Cette structure répond à toutes les exigences. C'est concis, informatif et exploitable.

Conclusion

Maîtriser la synergie entre l'ISP et le NPU est essentiel pour l'IA de pointe haute performance. Un pipeline à copie zéro, accéléré par le matériel, déverrouille toute la puissance des SoC HiSilicon. Cette intégration permet des économies d'énergie significatives et permet au NPU de fournir une inférence IA améliorée.

Les ingénieurs peuvent appliquer ces pratiques pour pousser la NPU à ses limites. Ils sont encouragés à partager leurs résultats et à aider la communauté des développeurs à se développer.

Written by Wyatt Yan from ic-online.com

ic-online.com is a fast-growing global electronic components distributor and a trusted ERAI member, delivering authentic parts and secure supply chain solutions to customers worldwide.

We provide millions of in-stock ICs and semiconductors with same-day shipping, while offering complete one-stop BOM sourcing and turnkey PCBA services, including PCB fabrication, SMT assembly, and full production support.

From prototype to mass production, we help engineers and buyers reduce costs, shorten lead times, and simplify procurement.

One BOM. One Partner. One Complete PCBA Solution.

Visit ic-online.com and submit your RFQ today.

FAQ

Pourquoi accorder le FAI pour l'IA au lieu des yeux humains?

Un FAI à l'écoute de l'IA donne la priorité à la précision du modèle par rapport à l'attrait visuel. Il améliore les détails et le contraste qui aident un algorithme d'IA à accomplir sa tâche. Ceci est différent de la création d'une image agréable pour les gens à voir. Le but est d'alimenter le NPU avec les données les plus utiles.

Qu'est-ce qui rend un NPU meilleur qu'un CPU pour l'IA?

Un NPU est un processeur spécialisé conçu pour les calculs d'IA. Il effectue les mathématiques du réseau neuronal beaucoup plus efficacement qu'un CPU à usage général. Cette spécialisation se traduit par une consommation d'énergie plus faible et des vitesses d'inférence plus rapides, ce qui la rend idéale pour les périphériques de périphérie.

Qu'est-ce que Zero-Copy Binding?

Zero-copy binding est une technique qui permet au FAI et à la NPU de partager un emplacement mémoire. Le FAI écrit les données d'image directement là où le NPU peut les lire. Cette méthode élimine la copie de données CPU, ce qui réduit la latence et augmente le débit du système.

Dois-je choisir une latence faible ou un débit élevé?

Le choix dépend des besoins de l'application.

Faible latenceEst critique pour les tâches en temps réel nécessitant des réponses rapides.
Haut débitEst important pour les systèmes qui doivent traiter plusieurs flux vidéo ou trames à la fois.

Les ingénieurs équilibrent ces facteurs pour atteindre des objectifs de performance spécifiques.