We have noticed that you are visiting from North American areas. Would you like to browse the US site (US.DFI.com) for a better experience?

可以请您回答一个简短的问卷吗?

感谢您填写这份问卷。您的反馈将有助于改进我们的网站,并提供更好的用户体验。

您的反馈建议已成功送出,非常感谢您的参与。

关闭
成功案例

边缘运算界的高速公路- ICX610-C621A 为边缘服务器带来更充裕的带宽与更出色的 AI 效能

边缘运算界的高速公路- ICX610-C621A 为边缘服务器带来更充裕的带宽与更出色的 AI 效能

随着边缘运算对效能的需求日益增长,如何在终端有效率的承载及处理大量数据已成为工业厂房及医疗应用的一大瓶颈。加上空间成本寸土寸金,最能有效降低营运及维护成本的作法,便是安装高效能边缘服务器以精简占地面积及简化布署的架构。DFI 搭载第三代 Intel® Xeon® 处理器的 ICX610-C621A-C621A 服务器级ATX 主板为 AI 应用提供可靠的效能,并透过丰富的扩展槽来提供充沛的带宽,将边缘运算的装置布署化繁为简,以最精简的架构提高生产力。

 

产业 : 工厂自动化 / 智能医疗
应用 : 边缘计算服务器、AOI自动光学检测、AI 医疗影像辨识
解决方案 : ICX610-C621A-C621A 服务器级ATX 主板 (应用建议)

 

边缘运算的明显优势

在工业及医疗产业,机器视觉乃工业4.0 之母,亦是维持高效生产力的重要环节。身为人工智能最常扮演的应用面向,负责机器视觉的运算装置在效能的要求上尤其吃重,它需要无迟滞的接收来自终端设备传来的影像数据,快速而准确的分析后做出回应,并同时储存结果及记录对应的影像,对装置的对外带宽及运算核心能耐是一大考验。

而在边缘运算的框架下,这些数据必须尽其可能的在终端实时处理及分析,不宜再全数回传至云端进行,使软件、硬件及数据数据皆得以最接近边缘的方式运作。此举除了可以减少传输带宽,也能避免因为数据延迟拖累生产效率,用最快的反应速度来实时与设备沟通。

边缘运算要运算哪些内容?影像、声音、以及来自各种装置的感测数据。在讲求生产效率的产线以及精准度的医疗应用,这些内容必需极其精细,才有可能产生准确的结果,精细的内容则意味着庞大的数据量需要处理。

一言以敝之,只靠云端架构难以应付终端的运算需求,在终端布署大量而繁杂的运算设备又会对空间及维护成本上造成难题。边缘运算服务器于是顺理成章的担当此重任,在最接近数据的地方接收数据、处理数据、回传数据,可谓身兼数职。在整个应用场域里,我们可以把它当做是最靠近终端装置的节点,在接口的整合能力、软件的弹性支持及虚拟化能力也会是重要考虑,这次我们先把焦点放在「效能」。
 

边缘运算在工业场域的架构示意

边缘运算于工厂自动化应用的范例架构。终端装置与边缘运算服务器沟通并回传数据,服务器分析数据后,回传对应的控制指令,并于本地储存数据,若有必要再回传至云端。云端主机应尽可能的减少实时性的分析需求,以免造成沟通上的延迟。

 

边缘运算服务器 - 「效能」为决胜点

边缘运算服务器需具备微型数据中心及边缘云的能耐,不脱处理速度、传输速度与储存效率。运算着重实时与精准,传输必须低延迟,而在数据的存取上得有足够的带宽与空间,这些都刚好是服务器等级主板的特长。

以 DFI ICX610-C621A-C621A 为例, 结合多核心多线程的第三代 Intel® Xeon® 处理器为多任务好手,能满足来自多台终端设备的数据处理需求,数量惊人的内外部传输埠口也提供了充裕的传输通道,同时可管理为数众多的储存装置,这些边缘服务器的功能在此张主板上全都能一次达成。

ICX610-C621A-C621A 专为 Intel® Ice Lake 平台量身打造, 支持第三代 Intel® Xeon® 处理器。此代 Xeon® 处理器于 AI 的运算能力极为突出,包含以下三方面的提升:

  • Intel® Deep Learning Boost
  • Intel® AVX-512
  • 支援PCIe 4.0

 

Intel® Deep Learning Boost 搭配 Intel® AVX-512

Intel®Deep Learning Boost 并非于此代 Xeon® 处理器才问世,但这个立基于 Intel® AVX512 VNNI 指令集的技术随着处理器的更新而益发强劲,在深度学习及视觉分析效能方面都有显著提升。在 AI 应用的训练阶段,效能便获得60% 的提升,而在实际进行推论时,也比第一代快 30 倍以上。

用更严谨的数据来判断及解析,VNNI 暴增了低精度运算在 AI 深度学习及推论的效能成长。透过低精度运算的优化,在进行 AI 应用时处理器的资料吞吐量大幅增加,平均可创造约 2.19 倍的差距,这意味着在时间上快了约 45%。

45% 的速度提升代表什么?试想在产在线原本辨识一处产品缺陷的耗时为 25 毫秒(注 1),节省了近一半的时间后会小于 15 毫秒,积沙成塔下,同样的时间内能辨识的产品数量就会变多,大量布署下能节省的工时及产力提升更是不言而谕。

而在医疗应用上,辨识速度的提升对于受检者而言,亦可大幅降低容易造成不适的生理扫描或幅射曝露时间,提供更优质的检测体验。

效能參考 - FP32 vs Int8

上方图表,是以当前最热门的对象辨识模型 Yolo_v3 以及医疗领域的 Brain Tumor Segmentation 来做 AI推论效能的实测。透过低精度运算 (Int8) 的优化,在 Yolo_v3 的测试里,与 FP32 差了将近 3.5 倍,而 Brain Tumor Segmentation 则为 1.6 倍。

 

 

效能參考 - FP32 vs Int8

智能交通领域的车牌辨识应用也常常需要边缘伺服器来做运算节点。辨识的速度愈快,系统便能更即时的做出对应的反应,停车场域在匣口及停车位的管控上也更来得顺畅及轻松许多。

Int8 由于资料体积小,因此需要的整体储存容量及读取频宽也会减少,自然能降低处理延迟以及增加吞吐量。在这个应用范例里,Int8 的吞吐量是 FP32 的 6 倍之谱,延迟更是接近只有八分之一。

 

PCIe 4.0 带宽大跃进

PCIe 4.0 则是提升了单个插槽所能承载的最大带宽, 结合数量的加乘,能承载的数据量不容小觑。ICX610-C621A 的 PCIe x16 插槽有 3 个,PCIe x8 则有 8 个,若单纯只就一条 PCIe x16 插槽能处理的未压缩影像数据来看,单个插槽便能处理 2 个 8K 的最高采样频率影像(注 2)。这已经是用最严苛的标准来计算,若是经过压缩、流量较低的 4K 或 Full-HD 影像,能处理的串流数量将会十分惊人。

在有多条生产线、多路影像需辨识的工业场域,单台边缘服务器上配有愈多的扩充插槽,愈能减少处理节点的设置数量,达成布署上的精简,使单台边缘服务器即能管理为数众多的周边装置,并同时身兼本地云暂存这些装置的产生数据。

结合了以上优势的 ICX610-C621A,在周边埠口的设置上也采用了大舰巨炮策略。光是 10GbE 以太网络便有两组, 且在已经最大化 PCIe 插槽数量的前提下,仍然配置了六组 SATA 以及一个 NVMe 插槽,内存的部份则利用四信道、八支模块来达到最高 512GB 的容量。从数据的撷取至运算,乃至后方的储存,全数皆以最高的带宽规格串连,打造边缘运算界的高速公路。

ICX610-C621A 规格:

  • 3rd Gen Intel® Xeon® Scalable Processor Family
  • 8 ECC-RDIMM up to 512GB
  • 2 x 10GbE
  • IPMI OOB Remote Management
  • Single Display: VGA resolution up to 1920x1200 @ 60Hz
  • Multiple Expansion: 3 PCIe x16, 2 PCIe x8, 1 x M.2 M key
  • Rich I/O: 2 Intel GbE, 1 Dedicated IPMI, 2 COM, 5 USB 3.1 Gen1, 5 USB 2.0
  • 15-Year CPU Life Cycle Support Until Q2' 36 (Based on Intel IOTG Roadmap)

 

*( 注 2) 7680x4320 分辨率,每秒 60 张,色深 16bit,色彩取样 4:4:4。

ICX610-C621A 規格

DFI 服务器级产品线精简 AIoT 架构中的边缘运算节点布署

物联网的部署复杂度日以遽增,接收的数据不但愈来愈多元,需要处理的信息量也不可同日而语。DFI 服务器产品线以效能、高可靠性及丰沛的带宽为出发点,将物联网的布署化繁为简,降低节点部署的困难程度,在节省成本的同时亦提高生产力。