Xử lý ai theo thời gian thực tại sao độ trễ là chìa khóa cho HiSilicon

Đối với HiSilicon ai socs, độ trễ thấp là hệ mét hiệu suất quan trọng nhất. Phần cứng này tập trung vào hiệu suất trễ thấp cho phép xử lý dữ liệu theo thời gian thực. Tăng trưởng của thị trường ai đến mức dự kiến143 tỷ USD vào năm 2034Làm nổi bật nhu cầu về hiệu suất phần cứng này. Trong các hệ thống có vấn đề về độ trễ,Độ trễ trên 100 mili giây làm giảm hiệu suất an toàn. Kiến trúc phần cứng chuyên dụng của HiSilicon ưu tiên hiệu suất trễ từ đầu đến cuối này. Thiết kế phần cứng này đảm bảo hiệu suất ai trong thế giới thực vượt trội.Áo thô không phản ánh hiệu suất phần cứng thực sự. Phần cứng này tập trung vào hiệu suất trễ là chìa khóa cho hiệu suất phần cứng ai, vì bản thân phần cứng Là cốt lõi của hiệu suất phần cứng ai.

Mang theo chìa khóa

Độ trễ thấp là rất quan trọng đối với chip ai của HiSilicon. Nó có nghĩa làChipĐưa ra quyết định nhanh chóng, đây là chìa khóa cho các tác vụ thời gian thực.
Thiết kế đặc biệt của HiSilicon, được gọi là da Vinci npu, giúp các mẫu ai hoạt động nhanh chóng. Nó sử dụng một khối lập phương 3D độc đáo để thực hiện toán học nhanh chóng.
Các bộ phận đặc biệt trongChip, Giống như Bộ xử lý tín hiệu hình ảnh, giúp phần ai chính. Họ Làm cho toàn bộ hệ thống nhanh hơn bằng cách làm các công việc cụ thể.
Xử lý Ai nhanh giúp xe tự lái, Thành phố thông minh và thiết bị thông minh. Sản phẩm giúp chúng an toàn hơn và hoạt động tốt hơn trong cuộc sống thực.

Tại sao độ trễ lại quan trọng ở Edge ai

Trong ứng dụng Edge ai, mỗi phần nghìn giây đều được tính. Hệ thống phải xử lý luồng dữ liệu trong thời gian thực, nơi rơi phía sau có thể dẫn đến các sự kiện bị bỏ lỡ hoặc hành động không chính xác. Đây là lý do tại sao độ trễ quan trọng. Thuật toán kiểm soát phụ thuộc vào các quyết định suy luận ngay lập tức để duy trì sự ổn định và an toàn. Sự chậm trễ có thể ảnh hưởng đến hiệu suất của toàn bộ hệ thống.Hiệu suất phần cứng thực sự không chỉ là về năng lượng xử lý; nó là về tốc độ của đầu ra có thể hành động cuối cùng.

Xác định độ trễ xử lý ai

Các chuyên gia chính thức xác định độ trễ suy luận của ai như thời gian một mô hình ai cần để nhận được đầu vào và trả lại dự đoán. Phép đo này thường được biểu hiện bằng mili giây (MS).Tuy nhiên, độ trễ từ đầu đến cuối cung cấp một bức tranh hoàn chỉnh hơn về hiệu suất hệ thống. Nó bao gồm toàn bộ hành trình từ việc thu thập dữ liệu đến hành động cuối cùng.

Độ trễ tổng thể này bao gồm một số giai đoạn riêng biệt:

Tiêu thụ dữ liệu và xử lý trước: Phần cứng đầu tiên chuẩn bị dữ liệu nhập liệu. Bước này bao gồm định dạng và xác nhận dữ liệu trước khi nó đến được mô hình ai.
Suy Luận mô hình: Đây là thời gian tính toán cốt lõi. Phần cứng chạy các mô hình ai để tạo ra dự đoán dựa trên dữ liệu đầu vào. Hiệu suất suy luận ở đây rất quan trọng.
Hậu xử lý và đầu ra: Phần cứng định dạng đầu ra của mô hình. Nó chuẩn bị kết quả cho thành phần Hệ ThốNg TiếP theo, chẳng hạn như bộ điều khiển cánh tay robot hoặc màn hình hiển thị.

Lưu ý:Đối với ai tương tác, các số liệu khác cũng làm nổi bật hiệu suất phần cứng.Lần tới mã thông báo đầu tiên (tTFT)Đo lường mức độ nhanh chóng mà người dùng nhận được phản hồi đầu tiên, điều này rất quan trọng đối với trải nghiệm người dùng mượt mà.

Hạn chế của CPU đa năng

CPU đa năng không được chế tạo cho nhu cầu của ai hiện đại.CPU sử dụng một số lượng nhỏ lõi mạnh mẽ, thường là từ 4 đến 64. Kiến trúc này vượt trội ở các nhiệm vụ phức tạp, tuần tự. Tuy nhiên, các mô hình ai yêu cầu tính toán song song Ồ ạt, chạy hàng ngàn thao tác đơn giản cùng một lúc. Không phù hợp này tạo ra một nút cổ chai hiệu suất đáng kể.Thiết kế của CPU giới hạn hiệu suất suy luận của nó cho khối lượng công việc song song.

Ngay cả trong các hệ thống có GPU mạnh mẽ, CPU có thể hạn chế hiệu suất tổng thể, đặc biệt là trong các ứng dụng nhạy cảm với độ trễ.CPU Đấu Tranh để cung cấp dữ liệu cho máy gia tốc đủ nhanh, điều này làm tổn thương hiệu suất suy luận của hệ thống. Đây là lý do tại saoPhần cứng chuyên dụngCần thiết cho hiệu suất ai tối ưu.

Các điểm chuẩn cho thấy rõ Khoảng cách hiệu suất giữa CPU và phần cứng chuyên dụng nhưĐơn vị xử lý thần kinh(GPU). Đối với các mẫu ai thông thường như yolov3, npus mang lại hiệu suất suy luận tốt hơn nhiều.

Loại hệ thống	Giảm độ trễ tương đối
Hệ thống chỉ CPU	Đường Cơ Sở
Hệ thống hỗ trợ npu	Nhanh hơn ~ 1.6X

Dữ liệu này cho thấy phần cứng chuyên dụng giúp giảm đáng kể thời gian cần thiết để chạy các mô hình ai. Ưu điểm kiến trúc của npus trực tiếp chuyển thành độ trễ thấp hơn và hiệu suất suy luận vượt trội. Biểu đồ dưới đây minh họa thêm cách các nền tảng phần cứng chuyên dụng khác nhau đạt được độ trễ khác nhau cho các mẫu ai phổ biến.

Cuối cùng, dựa vào CPU để thực hiện nhiệm vụ ai thỏa hiệp phản hồi hệ thống. Phần cứng đơn giản không được thiết kế cho công việc. Đạt được độ trễ thấp đòi hỏi phải có mục đích phần cứng-Được chế tạo cho các mẫu ai, đảm bảo hiệu suất suy luận hàng đầu và độ tin cậy.

Kiến trúc hisilicon's cho độ trễ thấp

HiSilicon đạt được hiệu suất trễ thấp dẫn đầu trong ngành thông qua kiến trúc phần cứng toàn diện. Thiết kế này vượt xa một bộ xử lý mạnh mẽ duy nhất. Nó tích hợp lõi tính toán chuyên dụng, tốc độ caoBộ nhớHệ thống, và máy Gia tốc phần cứng chuyên dụng. Sự kết hợp này đảm bảo rằng dữ liệu di chuyển và được xử lý với hiệu quả tối đa, điều này rất cần thiết cho các ứng dụng ai theo thời gian thực. Hiệu suất hệ thống tổng thể phụ thuộc vào sự tích hợp chặt chẽ này.

Lõi Da Vinci npu

Bộ xử lý thần kinh Da Vinci (npu) là trung tâm của phần cứng ai của HiSilicon. Npu này là một máy gia tốc ai mạnh mẽ được thiết kế dành riêng cho các hoạt động Toán Học cung cấp năng lượngMẫu ai hiện đại. Kiến trúc của nó không đồng nhất; Nó kết hợp các loại Đơn vị tính toán khác nhau để tối ưu hóa hiệu suất. Cái nàyThiết kế không đồng nhấtLà một lý do chính cho hiệu suất suy luận tuyệt vời của nó.

Lõi chứa ba thành phần chính hoạt động cùng nhau:

Đơn vị dao mổ: Những Điều này xử lý logic chung và luồng điều khiển cho các mẫu ai.
Đơn vị Vector: Đây là những sản phẩm tuyệt vời để chạy nhiều thao tác đơn giản cùng một lúc, một nhu cầu phổ biến đối với một số lớp trong các mẫu ai.
Khối lập phương 3D: Đây là thành phần quan trọng nhất để tăng tốc ai. Các đơn vị này được xây dựng để thực hiện phép nhân ma trận ở tốc độ đáng kinh ngạc.

Kiến trúc tùy chỉnh của Huawei giới thiệu một mô hình tăng tốc khối lập phương 3D cho máy tính ma trận. Điều này cho phép xử lý dữ liệu nhanh hơn và tiết kiệm năng lượng hơn so với CPU và GPU truyền thống. Phần cứng được cấu trúc xung quanh một khối lập phương 16x16x16, lý tưởng cho toán học được sử dụng trong các mô hình ai.

Cấu trúc này cho phép lõi Da Vinci xử lý các mô hình ai phức tạp với độ trễ tối thiểu. Các đơn vị khối lập phương xử lý việc nâng nặng Toán ma trận, trong khi các đơn vị Vector và vô số quản lý các nhiệm vụ xung quanh. Bộ phận lao động bên trong máy gia tốc ai đảm bảo rằng không một phần nào của phần cứng tạo ra nút cổ chai. Kết quả là hiệu suất suy luận vượt trội và độ trễ thấp hơn cho yêu cầu tải công việc ai. Những máy gia tốc ai này là nền tảng cho hiệu suất tổng thể của hệ thống.

Bộ nhớ và kết nối trên chip

Npu nhanh cần dữ liệu nhanh. Nếu máy gia tốc ai phải chờ dữ liệu, lợi thế hiệu suất của nó bị mất. Thiết kế phần cứng của HiSilicon giải quyết thử thách này với hệ thống phân cấp bộ nhớ trên chip tinh vi và các kết nối tốc độ cao. Các thành phần này tạo ra một siêu cao tốc dữ liệu, giảm thiểu độ trễ liên quan đến thông tin di chuyển xung quanh chip. Luồng dữ liệu hiệu quả này rất quan trọng đối với hiệu suất suy luận của phần cứng.

Các ổ cắm HiSilicon sử dụng các kết nối tiên tiến để liên kết npu, CPU và bộ nhớ. Điều này đảm bảo tất cả các thành phần có thể giao tiếp với độ trễ tối thiểu. Việc lựa chọn công nghệ bộ nhớ cũng đóng một vai trò quan trọng trong hoạt động của hệ thống.

Mô hình chip	Kết nối	Công nghệ bộ nhớ
Kirin 960	CCI-550 cánh tay	LPDDR4-1600 (kênh đôi 64 bit)
Kirin 970	CCI-550 cánh tay	LPDDR4

Ngoài bộ nhớ chính, hệ thống sử dụng nhiều lớp bộ nhớ trên chip (Bộ nhớ Cache). Bản thân Da Vinci npu chứa bộ nhớ cục bộ của riêng mình. Điều này cho phép bộ gia tốc Ai Giữ dữ liệu thường xuyên được sử dụng cho các mô hình ai ngay bên cạnh các đơn vị tính toán, giảm đáng kể độ trễ truy cập dữ liệu. Kiến trúc này cũng cải thiện hiệu quả năng lượng.Lưu lượng dữ liệu trên chip hiệu quả, thường được quản lý bởi một mạng trên chip (noc), giảm mức tiêu thụ điện năng bằng cách gửi dữ liệu trong các gói linh hoạt. Cách tiếp cận này làm giảm số lượng dây vật lý và cải thiện hiệu suất.Các kỹ thuật khác nâng cao hơn nữa hiệu quả này:

Dụng cụ tách hạt mịn: Phương pháp này sử dụng đồng hồ đo để điều chỉnh lưu lượng dữ liệu giữa các đơn vị phần cứng.
Đệm: Bộ đệm rõ ràng (fifos) đảm bảo dữ liệu có sẵn chính xác khi máy gia tốc ai cần, ngăn chặn các gian hàng và lãng phí năng lượng.

Tăng tốc phần cứng chuyên dụng

Npu là cầu thủ ngôi sao, nhưng nó không phải là máy gia tốc phần cứng duy nhất trong đội. HiSilicon socs tích hợp một bộ máy Gia tốc phần cứng chuyên dụng để xử lý các tác vụ cụ thể. Các máy gia tốc này giảm tải hoạt động từ CPU và npu, giảm độ trễ từ đầu đến cuối của toàn bộ đường ống ai. Cách tiếp cận này rất quan trọng đối với các nhiệm vụ phức tạp như phân tích video thời gian thực và cho phép suy luận trên thiết bị hiệu quả.

Trong các ứng dụng tầm nhìn máy tính,Bộ xử lý tín hiệu hình ảnh (ISP)Là một máy gia tốc phần cứng quan trọng. ISP hoạt động trực tiếp với npu để mang lại hiệu suất suy luận tốt hơn.

ISP xử lý các tác vụ xử lý hình ảnh ban đầu như hợp nhất dải động cao (HDR) và giảm nhiễu tiên tiến.
Nó chuẩn bị và tối ưu hóa dữ liệu video dành riêng cho các mẫu ai chạy trên npu.
Việc xử lý trước bằng máy gia tốc phần cứng chuyên dụng này có nghĩa là npu nhận được dữ liệu sạch, sẵn sàng phân tích, giúp tăng tốc kết quả ai cuối cùng.

Tương tự như vậy, bộ mã hóa và bộ giải mã video dựa trên phần cứng là Bộ tăng tốc ai thiết yếu để phân tích các luồng video độ phân giải cao. Các máy gia tốc này quản lý toàn bộ đường ống xử lý video trên một chip duy nhất.

Họ giải mã các luồng video đến mà không làm nặng CPU.
Họ cho phép npu phân tích video cục bộ.
Chúng chỉ truyền dữ liệu sự kiện quan trọng, giúp giảm đáng kể băng thông mạng và chi phí lưu trữ.

Nhóm máy Gia tốc phần cứng chuyên dụng này đảm bảo rằng mọi giai đoạn của tác vụ ai, từ việc thu thập dữ liệu đến Sản lượng cuối cùng, được tối ưu hóa cho tốc độ. Cách tiếp cận toàn diện về thiết kế phần cứng này mang lại cho HiSilicon lợi thế của nó trong hiệu suất độ trễ thấp cho ai thời gian thực. Sức mạnh tổng hợp giữa các máy gia tốc này mang lại một mức độ hiệu suất mà một Bộ xử lý duy nhất không thể khớp.

Các ứng dụng độ trễ thấp trong thế giới thực

Phần cứng có độ trễ thấp mở ra một thế hệ hệ Hệ thống thông minh mới. Hiệu suất của các hệ thống này phụ thuộc vào việc xử lý dữ liệu ngay lập tức. Kiến trúc phần cứng của HiSilicon cung cấp tốc độ cần thiết cho các ứng dụng ai quan trọng trong thế giới thực. Hiệu suất vượt trội của các mô hình Ai cho phép Ra Quyết Định ngay lập tức trong phần nghìn giây.

Hệ thống tự trị

Trong các hệ thống tự trị, độ trễ thấp là một yêu cầu không thể thương lượng về an toàn và chính xác. Phần cứng phải xử lýCảm biếnDữ liệu và thực hiện các mô hình ai với độ trễ tối thiểu để đảm bảo hiệu suất đáng tin cậy.

Xe tự trị: Đối với xe tự lái, phát hiện người đi bộ và áp dụng phanh cần cóĐộ trễ từ 50 đến 100 mili giây. Bất kỳ sự chậm trễ nào vượt quá mức đảm bảo an toàn này. Phần cứng của xe phải cung cấp hiệu suất này một cách nhất quán.
Robot công nghiệp: Trên mộtLắp rápLine, robot cần phản hồi nhanh để thực hiện các nhiệm vụ chính xác.Chu kỳ thực hiện Sub-100msCho phép các mẫu aiKiểm soát chất lượng tốt hơn và tăng cường an toàn cho người lao động. Hiệu suất phần cứng độ trễ thấp này trực tiếp cải thiện thông lượng sản xuất.

Cơ sở hạ tầng thông minh

Các thành phố và nhà máy thông minh sử dụng phân tích ai trên máy ảnh để nâng cao hiệu quả và an ninh. Điều này đòi hỏi phần cứng cạnh mạnh mẽ có khả năng xử lý các luồng video trong thời gian thực. Hiệu suất của các mô hình ai là chìa khóa thành công của họ.

Phát hiện mối đe dọa thời gian thực:Ở các thành phố thông minh, Camera ai giám sát không gian công cộng. Phần cứng phân tích nguồn cấp Video choXác định vi phạm giao thông, vật bị bỏ rơi hoặc các mối đe dọa tiềm ẩn khác, cho phép phản ứng ngay lập tức. Hiệu suất ai này giúp thực thi pháp luật và tối ưu hóa các dịch vụ khẩn cấp.

Trong các nhà máy thông minh,Hệ thống ai Vision Cung cấp kiểm soát chất lượng ngay lập tức. Phần cứng chạy các mô hình kiểm tra phân tích sản phẩm trên dây chuyền lắp ráp,Xác định các lỗi như vết trầy xước hoặc sai lệch. Phản hồi tức thì này cải thiện chất lượng sản phẩm mà không làm chậm quá trình sản xuất. Hiệu suất của mô hình ai rất quan trọng ở đây.

Thiết bị thông minh và phương tiện truyền thông

Xử lý ai có độ trễ thấp giúp nâng cao trải nghiệm người dùng trong các thiết bị điện tử và chăm sóc sức khỏe tiêu dùng. Phần cứng cho phép các tính năng tinh vi chạy trực tiếp trên thiết bị.

Sử dụng TV thông minhMô hình ai để nâng cấp video 8K thời gian thực. Bộ xử lý ai của phần cứng phân tích từng khung nội dung để nâng cao chi tiết và giảm tiếng ồn, Mang đến một bức ảnh tuyệt vời. Hiệu suất cao này xảy ra ngay lập tức. Dùng cho viễn thông và quần áo mặc,Phần cứng trên thiết bịPhân tích dữ liệu sinh trắc học.Các mô hình phát hiện sự kiện khẩn cấp Yêu cầu độ trễ dưới 50 msĐể cảnh báo người dùng hoặc nhân viên y tế. Hiệu suất Ai Nhanh chóng này có thể tiết kiệm cuộc sống.

Đối với Edge ai thời gian thực, các vấn đề độ trễ từ đầu đến cuối.Chỉ riêng Thông lượng tính toán thô không xác định hiệu suất phần cứng thực sự. Kiến trúc phần cứng của HiSilicon, với Da Vinci npu và các máy Gia tốc phần cứng chuyên dụng, mang lại hiệu suất độ trễ thấp quan trọng này. Hiệu suất của các máy gia tốc phần cứng là chìa khóa. Máy Gia tốc phần cứng mang lại hiệu suất tuyệt vời.

Lưu ý dành cho nhà phát triển:Bạn phải chuẩn bị phần cứng cho độ trễ. Điều này đảm bảo hiệu suất và độ tin cậy của phần cứng trong thế giới thực. Độ trễ quan trọng đối với hiệu suất phần cứng này. Máy gia tốc phần cứng và phần cứng cung cấp hiệu suất này. Hiệu suất của máy gia tốc phần cứng rất quan trọng. Hiệu suất phần cứng phụ thuộc vào các Bộ tăng tốc phần cứng này.

Câu hỏi thường gặp

Tại sao độ trễ Quan trọng hơn ngọn cho Edge Ai?

Tops đo công suất xử lý thô. Độ trễ đo tổng thời gian cho một quyết định. Đối với các ứng dụng thời gian thực như lái xe tự động, một quyết định nhanh là quan trọng hơn đối với an toàn và hiệu suất hơn là Thông lượng tính toán cao.

Độ trễ thấp đảm bảo hệ thống có thể phản ứng ngay lập tức với thông tin mới.

Da Vinci npu là gì?

Da Vinci npu là máy gia tốc ai chuyên dụng của HiSilicon. Nó sử dụng kiến trúc khối lập phương 3D độc đáo cho Toán ma trận. Thiết kế này tăng tốc đáng kể tính toán mô hình ai. Nó trực tiếp làm giảm độ trễ suy luận và cải thiện hiệu suất hệ thống tổng thể cho các tác vụ thời gian thực.

Bộ tăng tốc phần cứng cải thiện hiệu suất Ai như thế nào?

Bộ tăng tốc phần cứng, như bộ xử lý tín hiệu hình ảnh (ISP), xử lý các công việc cụ thể. Họ giảm tải các tác vụ từ Bộ xử lý chính. Xử lý song song này làm giảm nút chai. Toàn bộ đường ống dẫn ai chạy nhanh hơn, giảm độ trễ từ đầu đến cuối và cho phép suy luận trên thiết bị hiệu quả.

Ứng dụng nào yêu cầu độ trễ cực thấp?

Các ứng dụng cần hành động ngay lập tức Yêu cầu độ trễ thấp. Các hệ thống này phụ thuộc vào việc ra quyết định nhanh chóng, thời gian thực. Ví dụ chính bao gồm: