普吉特系统打印标志
//www.seltecelec.com
请在//www.seltecelec.com/guides/1370阅读本文
Donald Kinghorn博士(科学计算顾问)

Intel Xeon W-3175X和i9 9990XE Linpack和NAMD在Ubuntu 18.04上

撰写于2019年2月28日byDonald Kinghorn博士
分享:

简介

我在英特尔至强W-3175X和酷睿i9 9990XE处理器上花了一点时间。我用Intel MKL Linpack基准测试和NAMD运行了几个数值计算性能测试。我使用了我最近使用的相同的系统图像来观察3个英特尔8核处理器,所以我将在这里包括这些结果。W-3175, 9990XE, 9800X, W-2145和9900K会有结果

英特尔最近做了一些奇怪的事情。他们的许多处理器都短缺,所以我们看到一些通常不会出现在他们的生产线上的型号。例如,一些集成了GPU的处理器,从工厂出来的GPU部分有问题,但CPU部分很好,在发布时禁用了GPU。

最近有两款英特尔处理器非常奇怪,一款是至强W-3175X 28核处理器,另一款是酷睿i9 9990XE超频14核处理器。我不确定这些处理器是否是fab“问题”的结果。W-3175X可能是一个超频的至强可扩展8180,在多套接字系统中渲染是无用的,9990XE可能是一个有几个坏核的9980XE 18核,当禁用时,允许剩余的14核超频。那纯粹是我凭空想象出来的猜测!

这两种处理器实际上都没有,只能通过奇怪的拍卖过程批量出售给OEM。9990XE没有保修,我在“英特尔方舟”上找不到它。W-3175X列于英特尔柜.对我来说,i9 9990XE似乎不是一个真正的产品,我不明白为什么英特尔会把它卖给没有保修的人。他们没有以任何有形的方式支持它。W-3175X至少“看起来”像是一款真正的产品,但并没有承诺它的可用性或可预测的价格。

W-3175X需要一个特殊的主板和冷却器,令人惊讶的是华硕和千兆都提供了主板。它们都是非常大的板,并且使用了至强可扩展C621芯片组。

我们确实把这两个怪胎送去测试了普吉系统.我的同事马特和威廉用Windows 10上运行的流行软件程序做了大量的测试。你可以找到他们的几个帖子列在普吉特系统“文章”部分.这个特别适用于9990XE,英特尔核心实验i9 9990XE.我非常同意这篇文章中的观点,9990XE只是一个实验,它不是一个可行的产品。在实际操作中,3175也不是一个可行的产品。

撇开警告不说,我当然对这些怪物的原始双精度浮点性能很好奇,所以我突然来到Puget实验室,在它们上启动Ubuntu 18.04,并从MKL运行英特尔优化的Linpack基准测试。在我看来,这是衡量英特尔处理器数值计算性能最好的相对标准。


处理器规格i9 9900K, i7 9800X, Xeon W-2145, i9 9990XE, Xeon W-3175

下表列出了与数值计算工作站配置相关的这些处理器之间的一些规格差异。

i9 9900K, i7 9800X, Xeon 2145W, i9 9990XE, Xeon W-3175

特性 19 - 9900 k i7 9800 x 至强w - 2145 19 9990 xe 至强w - 3175
代号 咖啡湖 Skylake-X Skylake-W Skylake-X Skylake-W
8 8 8 14 28
基本时钟 3.6 ghz 3.8 ghz 3.7 ghz 4.0 ghz 3.1 ghz
马克斯涡轮 5.0 ghz 4.5 ghz 4.5 ghz 5.1 ghz * 3.8 ghz *
所有核心 4.7 ghz 4.1 ghz 4.3 ghz 5.0 ghz * 3.7 ghz *
缓存 16 MB 16.5 MB 11 MB 19.25 MB 38.5 MB
计划书 95 W 165 W 140 W 255 w 255 w
马克斯Mem 64 GB 128 GB 512gb (Reg ECC) 128 GB 512gb (Reg ECC)
Mem渠道 2 4 4 4 6
最大PCIe通道 16 44 48 44 48
X16 GPU支持 1 2 3 (4 w/PLX) 2 3 (4 w/PLX)*
矢量单元 AVX2 AVX512 AVX512 AVX512 AVX512
价格 500美元 600美元 1113美元 3000美元*

注:

时钟频率:我将包括一些原始频率监测输出的附录。我在运行Linpack时观察到的是这样的;对于9990XE,作业以5.0GHz的初始频率开始,并在所有核上保持该频率以初始化作业。当AVX512处于负载状态时,除2核外的时钟均降至3.1GHz。2核保持在5.0GHz附近。3.1GHz大概是AVX时钟频率。对于W-3175作业运行,初始时钟为4.3GHz,然后在初始化时降至3.7GHz全核,然后在AVX512启动时降至2.8GHz。

作为PCIe:Xeon-W系统通常支持2或3个没有PLX开关的X16卡。我们使用的主板有X16,X8,X16,X8布局。

定价:9990XE没有官方价格(它不是一个产品)英特尔核心实验i9 9990XE.W-3175是货真价实的英特尔柜.它的建议建议零售价约为。3000美元。它还需要一个特殊的(巨大的!)插座3647主板,将接近2000美元和一个真正好的冷却器。有许多细节使得使用W-3175处理器的系统成为不可用的产品。我理解这种诱惑,认为你“想要其中之一”,但实际上,它似乎不是一个可支持的产品。


被测硬件:

本次测试使用了4个平台。

  • 英特尔酷睿i9 9900K 3.6GHz 8核

    • gb Z390 Designare主板(1 x X16 PCIe)
    • 64gb DDR4-2666内存
    • 1tb Intel 660p M.2 SSD硬盘
    • NVIDIA RTX 2080Ti
  • 英特尔酷睿i9 9990XE 5.0GHz 14核和酷睿i7 9800X 3.8GHz 8核

    • gb X299 Designare主板(2 x X16 PCIe)
    • 128GB DDR4-2666内存
    • 1tb Intel 660p M.2 SSD硬盘
    • NVIDIA RTX 2080Ti
  • 英特尔至强W-2145 7 ghz 8核

    • Asus WS C422 SAGE/10G主板(4 x X16 PCIe)
    • 256GB DDR4-2666 Reg ECC内存
    • 1tb Intel 660p M.2 SSD硬盘
    • NVIDIA RTX 2080Ti
  • 英特尔至强W-3175 3.1GHz 28核

软件:

我在Intel 660p M.2驱动器上安装了操作系统和应用程序,并在测试系统之间进行了交换。

我正在运行Linux进行测试,但是没有理由期望在Windows 10上相同类型的工作负载会显示出任何显著的性能差异。


结果

Linpack

对于CPU上的双精度浮点,优化后的Linpack基准可以达到接近理论峰值的性能。这是我在任何新的CPU上运行的第一个基准测试。它是世界超级计算机500强排名的基准(现在仍是)。我觉得它是最大限度优化软件的数值计算的最佳性能指标。Intel优化的Linpack充分利用了优秀的MKL库。有许多程序链接到MKL以提高性能。这包括非常有用的“数值计算脚本”包蟒蛇Python而且Mathworks MATLAB

linpack图表

这并不一定是一个好的比较结果的选择,但希望它能给你一个相对性能的概念。这些结果使用相同的测试安装系统映像和软件版本。

W-3175的双精度浮点性能非常令人印象深刻,正如预期的那样。

注意:这些作业是用“真正的”线程运行的,因为“超线程”对这个计算没有用。

注意:8核结果的问题规模很大,有75000个联立方程(一个75000 x 75000“三角形解”),使用了大约44GB的系统内存。9990XE和W-3275在问题大小为110016的情况下测试,使用了大约94GB的系统内存。另外,请注意9900K在这个基准测试中有一个缺点,因为它有较老的AVX2矢量单位。

NAMD

我还用分子动力学包NAMD进行了测试。NAMD可以很好地跨多个核心扩展它不是专门为英特尔硬件优化的.它是高度优化的代码,它使用了非常有趣的魅力+ +因为它是并行能力。NAMD是一个很重要的程序,我喜欢用它来进行测试,因为它是一个很好的优化代码的例子,可以扩展到大量的进程,并且具有非常好的GPU加速,需要通过良好的CPU性能来平衡。

NAMD CPU

AVX512矢量单元对这段代码来说不是那么重要,因为它被设计成在各种硬件上都能很好地运行。较高的核心计数是性能的一大优势,因为NAMD具有非常好的并行伸缩性。

注意:这些作业使用“超线程”运行,因为它们有助于NAMD使用线程的方式。用超线程做实验总是值得的,看看它们是否有用。

注意:这里的性能单位是模拟时间的“天/纳秒”。添加GPU将显著提高性能,如下图所示。

NAMD GPU

首先要注意的是,通过包括NVIDIA RTX 2080Ti,性能提高了10倍以上!

结论和建议

我必须强调,9990XE和W-3175处理器并不是真正可行的支持产品组件。比起工作站组件,它们更像是狂热的好奇心。9990XE尤其如此,它没有任何Intel的支持,我甚至不知道他们在想什么。W-3175更有趣,但由于缺乏承诺和供应,以及运行它所需的整个系统平台的“极端”性质,它仍然不是一个可行的产品。所以,想都别想!

从积极的方面来看,2019年对于新硬件来说应该是有趣的一年。我们期待英特尔在今年年底推出一个新的架构设计(在一次硬件安全bug修复更新之后)。未来的平台应该比我们现在使用的平台有显著的变化,包括支持PCIe v4的新芯片组和其他细节。我们也希望目前的供应问题能够得到解决。英特尔也有其他有趣的硬件项目正在进行中,我们可能会看到新的计算加速器硬件的一些结果。这还只是英特尔…AMD和ARM看起来也很有趣!

快乐计算——dbk

附录

9990XE原始数据片段

kinghorn@utest:~$ lscpu架构:x86_64 CPU运行模式:32位,64位字节顺序:Little Endian CPU(s): 28在线CPU(s)列表:0-27每核线程:2核每个插槽:14插槽:1 NUMA节点(s): 1厂商ID: GenuineIntel CPU系列:6型号:85型号名称:Intel(R) core (TM) i9-9990XE CPU @ 4.00GHz步进:4 CPU MHz: 1200.741 CPU max MHz: 5100.0000 CPU min MHz: 1200.0000 BogoMIPS: 8000.00虚拟化:ve -x L1d cache: 32K L1i cache: 32K L2 cache: 1024K L3 cache:19712K NUMA node0 CPU(s): 0-27 Flags:fpu vme de pse tsc msr pae多国评价cx8 apic 9月mtrr铂族元素mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2党卫军ht tm pbe系统调用nx pdpe1gb rdtscp lm constant_tsc艺术arch_perfmon peb bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf句pclmulqdq dtes64监控ds_cpl vmx est tm2 ssse3 sdbg fma cx16 xtpr颁证书pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm反弹道导弹3 dnowprefetch cpuid_fault epb cat_l3 cdp_l3 invpcid_single pti ssbd mba ibrs ibpbstibp tpr_shadow vnmi flexpriority ept vpid fsgsbase tsc_adjust bmi1 hle avx2 smep bmi2 erms invpcid rtm cqm mpx rdt_a avx512f avx512dq rdseed adx smap clflushopt clwb intel_pt avx512cd avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc cqm_mbm_total cqm_mbm_local dtherm ida arat pln pts hwp hwp_act_window hwp_epp hwp_pkg_req flush_l1d
kinghorn@utest:~/projects/基准/linpack$ ./runme_xeon64当前日期/时间:星期五2月8日11:35:49 2019 CPU频率:4.999 GHz CPU数量:1核数:14线程数:14参数设置为:测试数量:1要解决的公式数量(问题大小):110016数组的领先尺寸:110016要运行的试验数量:1数据对齐值(Kbytes):1可使用的最大内存请求=96830363392,在大小=110016 ===================定时线性方程组求解器===================大小LDA对齐。Time(s) GFlops Residual残留(norm) Check 110016 110016 1 910.742 974.7487 9.762934e-09 2.885014e-02 pass Performance Summary (GFlops) Size LDA Align.检查LDA。Average Maximal 110016 110016 1 974.7487 974.7487 remaining checks PASSED测试结束

作业运行的开始,(显示活动的“超线程”)

kinghorn@utest:~$ sudo cpupower monitor -m Mperf| sort -k2 -r 24 |.76 |0.24 | 5009 15| 0.64| 99.36| 5009 14| 0.13| 99.60| 5009 21| 0.13| 99.12 | 99.88| 5009 19| 0.12| 99.88| 5008 20| 0.12| 99.88| 5009 16| 0.12| 99.88| 5006 18| 0.10| 99.90| 5008 17| 0.07| 99.93| 5005 26| 0.06| 99.94| 5009 27| 0.06| 99.94| 99.95| 5017 22| 0.05| 99.95| 5005 |Mperf|

AVX512加载期间的频率,

kinghorn@utest:~$ sudo cpupower monitor -m Mperf | sort -k2 -r CPU | C0 | 3116 24| 0.77| 99.23| 3104 23| 0.21| 99.79| 3479 19| 0.12| 99.88| 3106 25| 0.10| 99.90| 3097 21| 0.09| 99.91| 3221 17| 0.10| 99.90| 3097 21| 0.09| 99.91| 3144 26| 0.08| 99.92| 5007 18| 0.08| 99.92| 3101 20| 0.08| 99.93| 3106 22| 0.06| 99.94| 3211 15| 0.04| 99.96| 371 16| 0.00|100.00| 3072 |Mperf

W-3175数据片段

从/proc/cpuinfo

processor: 55 vendor_id: GenuineIntel cpu族:6型号:85型号名称:Intel(R) Xeon(R) W-3175X cpu @ 3.10GHz步进:4 microcode: 0x2000059 cpu MHz: 3800.392缓存大小:39424 KB物理id: 0 siblings: 56 core id: 30 cpu cores: 28 apicid: 61 initial apicid: 61 fpu: yes fpu_exception: yes cpuid level: 22 wp: yes flags:fpu vme de pse tsc msr pae多国评价cx8 apic 9月mtrr铂族元素mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2党卫军ht tm pbe系统调用nx pdpe1gb rdtscp lm constant_tsc艺术arch_perfmon peb bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf句pclmulqdq dtes64监控ds_cpl vmx smx est tm2 ssse3 sdbg fma cx16 xtpr颁证书pcid dca sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave avx f16c rdrand lahf_lm反弹道导弹3 dnowprefetch cpuid_fault epb cat_l3 cdp_l3 invpcid_single pti ssbd mba ibrsIbpb stibp tpr_shadow vnmi flexpriority ept vpid fsgsbase tsc_adjust bmi1 hle avx512f avx512dq rdseed adx smap clflushopt CLWB intel_pt avx512cd avx512bw avx512bw avx512vl xsaveopt xsavec xgetbv1 xsaves cqm_llc cqm_occup_llc cqm_mbm_total cqm_mbm_req pku ospke flush_l1d bugs: cpu_meltdown spectre_v1 spectre_v2 spec_store_bypass l1tf bogomips: 6200.00 clflush size: 64 cache_alignment:64位地址大小:46位物理,48位虚拟电源管理:
kinghorn@utest:~/projects/基准/linpack$ ./runme_xeon64当前日期/时间:Fri Feb 15 05:17:29 2019 CPU频率:4.289 GHz CPU数量:1核数:28线程数:28参数设置为:测试数:10要解决的方程数(问题大小):10000 15000 18000 20000 22000 25000 26000 27000 30000 110016阵列领导尺寸:10000 15000 18008 20016 22008 25000 26000 27000 30000 110016要运行的试验数:2 2 2 11 11 11数据对齐值(Kbytes): 4 4 4 4 4 4 4 4 4 4 4 11可使用的最大内存请求=96830363392,在大小=110016 ===================定时线性方程组求解器===================大小LDA对齐。时间(s) GFlops剩余剩余(norm) Check 10000 10000 4 0.450 1482.7231 1.051521e-10 3.707768e-02 pass 15000 15000 4 1.399 1608.9285 2.253401e-10 3.549145e-02 pass 15000 15000 4 1.395 1613.5717 2.253401e-10 3.549145e-02 pass 18000 18008 4 2.431 1599.5280 2.774894e-10 3.038850e-02 pass 18000 18008 4 2.430 1600.4747 2.774894e-10 3.038850e-02 pass 20000 20016 4 3.459 1542.0288 3.665729e-10 3.244973e-02 pass 20000 20016 4 3.4591541.9453 3.665729e-10 3.244973e-02 pass 22000 22008 4 4.408 1610.6650 4.682967e-10 3.090695e-02 pass 26000 26000 4 7.131 1643.3722 5.904530e-10 3.104779e-02 pass 27000 27000 4 7.888 1663.8254 6.503383e-10 3.171380e-02 pass 30000 30000 1 10.731 1677.5287 8.712018e-10 3.434286e-02 pass 110016 110016 1 504.572 1759.4013 1.061083e-08 3.135573e-02 pass性能摘要(GFlops) Size LDA Align。平均最大值10000 10000 4 1473.0159 1482.7231 15000 15000 4 1611.2501 1613.5717 18000 18008 4 1541.9871 1542.0288 22000 22008 4 1610.6650 1610.6650 25000 25000 4 1600.4551 1600.4551 26000 26000 4 1643.3722 1643.3722 27000 27000 4 1663.8254 1677.5287 1677.5287 110016 110016 1 1759.4013 1759.4013 remaining checks PASSED测试结束
kinghorn@utest: ~ /项目$ sudo cpupower监控- m Mperf |排序k2 - r CPU | C0 |残雪|频率39 | 0.99 | 99.01 | 3790年28日| 0.47 | 99.53 | 3789年34 | 0.14 | 99.86 | 3789年41 | 0.07 | 99.93 | 3787年31日| 0.06 | 99.94 | 3789年29日| 0.06 | 99.94 | 3786 | 0.05 | 99.95 | 3787 52 | 0.03 | 99.97 | 3786 | 0.02 | 99.98 | 3785 35 | 0.02 | 99.98 | 3780 32 | 0.02 | 99.98 | 37 3777 51 | 0.01 | 99.99 | 3846 | 0.01 | 99.99 | 3784年42 | 0.01 | 99.99 | 33 3781 49 | 0.01 | 99.99 | 3775 | 0.01 | 99.99 | 3774年55 | 0.01 | 99.99 | 3767年54 | 0.01 | 99.99 | 3703年48 |0.00|100.00| 3756 40| 0.00|100.00| 3701 53| 0.00|100.00| 3640 46| 0.00|100.00| 3607 44| 0.00|100.00| 3577 45| 0.00|100.00| 3524 47| 0.00|100.00| 3515 43| 0.00|100.00| 3510 50| 0.00|100.00| 3500 38| 0.00|100.00| 3448 |Mperf
kinghorn@utest: ~ /项目$ sudo cpupower监控- m Mperf |排序k2 - r CPU | C0 |残雪|频率28 | 2.98 | 97.02 | 34 2792 39 | 0.80 | 99.20 | 2792 | 0.31 | 99.69 | 2792年44 | 0.16 | 99.84 | 2792年41 | 0.16 | 99.84 | 2791年36 | 0.11 | 99.89 | 2793年29日| 0.10 | 99.90 | 2788年52 | 0.09 | 99.91 | 2794年42 | 0.09 | 99.91 | 2785 | 0.07 | 99.93 | 2787 45 | 0.06 | 99.94 | 37 2787 46 | 0.06 | 99.94 | 2783 | 0.04 | 99.96 | 3264 35 | 0.04 | 99.96 | 2799 | 0.03 | 99.97 | 2796 32 | 0.03 | 99.97 | 2766年53 | 0.02 | 99.98 | 2824年51 48 | 0.02 | 99.98 | 2806 | 0.02 |99.98| 2787 31| 0.02| 99.98| 2777 43| 0.02| 99.98| 2775 55| 0.01| 99.99| 2808 40| 0.01| 99.99| 2754 38| 0.01| 99.99| 2751 33| 0.01| 99.99| 2733 49| 0.00|100.00| 2784 47| 0.00|100.00| 2765 |Mperf
标签:Intel, i9 9990XE, Xeon W-3175, i9 9900K, i7 9800X, Xeon 2145W, RTX 2080Ti, Linpack, NAMD
评论