ZEN 4 又會支援 AVX-512....
兩家越來越像XD 都支援起來!
#UH #AMD #RYZEN #CPU #AVX512 #指令集
「avx指令集cpu」的推薦目錄:
- 關於avx指令集cpu 在 UNIKO's Hardware Facebook 的最佳貼文
- 關於avx指令集cpu 在 台灣物聯網實驗室 IOT Labs Facebook 的最讚貼文
- 關於avx指令集cpu 在 Re: [閒聊] AVX指令集實際應用是甚麼功能? - 看板PC_Shopping 的評價
- 關於avx指令集cpu 在 AVX指令集- Max.C的博客 的評價
- 關於avx指令集cpu 在 Re: [閒聊] AVX指令集實際應用是甚麼功能? - 看板PC_Shopping 的評價
- 關於avx指令集cpu 在 舊電腦伺服器CPU.L5420缺少AVX指令集無法遊玩手機模擬器 ... 的評價
- 關於avx指令集cpu 在 Re: [閒聊] AVX指令集實際應用是甚麼功能? - 看板PC_Shopping 的評價
- 關於avx指令集cpu 在 《刺客信條:奧德賽》不支持AVX的CPU無法啟動遊戲 - PTT新聞 的評價
avx指令集cpu 在 台灣物聯網實驗室 IOT Labs Facebook 的最讚貼文
綜觀CES 2020:汽車持續被看好,PC將迎來AI升級潮
包永剛 / 何渝婷編譯
2020-01-09 10:00
雖然,CES主角是新鮮、新奇、炫酷的各類消費電子產品,但是,它們都內置了各種晶片。
因此,在CES上我們也能夠看到一些晶片相關的新聞,這些晶片離消費者更近,也蘊含著巨大的商機。CES 2020上,既有新款面向自動駕駛汽車的晶片發布,也有更強CPU和GPU的消息。這表明,自動駕駛汽車市場持續被看好,擁有AI功能的CPU能否在PC中普及,也成為了新的關注點。
自動駕駛汽車市場持續被看好
自2017年153億美元收購Mobileye之後,英特爾一舉成為自動駕駛汽車領域的重磅玩家。在英特爾CES 2020的發表會上,英特爾CEO Bob Swan展示了Mobileye的最新進展。其中一段演示,展示的是通過獨立的傳感系統,融合人工智慧、電腦視覺、基於責任敏感安全模型(RSS)的法規科學等最新科技,以更自然的方式實現自動駕駛汽車(RoboCar)的交通導航,讓人和車的交通運行更加安全。
高通也是已經佈局自動駕駛汽車晶片的重要玩家,去年CES,基於高通驍龍820A的初代車載計算平台,當時被安裝在一台林肯MKZ混動轎車上。但驍龍820是2015年推出的產品,驍龍820A之後,高通就沒有推出新的面向自動駕駛汽車的平台。
MWC 2019期間,雷鋒網詢問高通發言人,其下一代自動駕駛汽車產品的消息,對方並未透露。CES 2020上,高通發表Snapdragon Ride 平台,新平台由多個部分組合而成,包括系統級安全晶片、自動駕駛加速器。
Snapdragon Ride (驍龍Ride)平台有三種配置,官方稱單處理器版已經足夠應付ADAS系統,雙處理器版本應付Level 2和Level 3級半自動駕駛綽綽有餘。第三種配置則是在雙處理器配置上增加了加速晶片(兩塊ADAS處理器外加自動駕駛加速器)算力可達400 TOPS。
雖然沒有公布更細節的數據,但高通稱,實現400 TOPS的算力,它們只用60-70W的功耗(比競爭對手功耗低33~50%)。這樣的功耗下,開發者完全可以添加更多晶片將算力升級到700 TOPS,此時功耗也僅130W。
高通稱將在今年晚些時候向其客戶提供晶片和系統,並希望搭載這些技術和晶片的汽車,於2023年開始生產。
除了巨頭,中國的新創公司「黑芝麻智能科技」,也在CES 2020上展示了其AI晶片解決方案,包括為合作夥伴提供的後裝輔助駕駛解決方案,以及前裝量產DMS(Driver Monitoring System,駕駛者監控系統)算法。
由此,我們可以發現,即便自動駕駛汽車的發展速度不如預期,AI晶片在汽車上的落地速度也不夠迅速,但無論是巨頭新產品的發布、成果的展示,都表明重磅玩家們都持續看好自動駕駛汽車晶片市場。
PC將迎AI升級潮
汽車晶片是因為自動駕駛的風潮,才在今年的CES上受到關注,其實長期以來,CES上備受關注的晶片,是此前長期驅動科技產業發展的PC,不能缺少的CPU和GPU消息。2020 CES也不例外,但英特爾讓我們產生了新思考。
2019年5月,英特爾發表代號為Ice Lake的第十代酷睿處理器,這一代處理器的特點在於,每款都配備了帶有英特爾AVX-512-Deep Learning Boost的全新Sunny Cove微架構,可以加速自動圖像增強、圖像檢索、媒體後處理和其他AI任務。
CES 2020的發表會上,Ice Lake的繼任者,研發代號Tiger Lake的新款酷睿行動處理器首次亮相,英特爾表示,憑藉在CPU、人工智慧加速器以及基於全新英特爾Xe圖形架構、堪比獨立顯卡性能的內置圖形顯卡等優化,Tiger Lake將帶來兩位數的性能提升,大幅提高人工智慧性能和圖形性能。
Tiger Lake處理器基於英特爾10nm+制程,首批Tiger Lake產品預計於2020年晚些時候出貨。
另外,英特爾還將進一步提升Xeon處理器的AI性能。英特爾公司執行副總裁、數據平台事業部總經理Navin Shenoy表示,2020年上半年推出的第三代英特爾Xeon可擴展處理器,將包含面向內置人工智慧訓練加速的全新英特爾DL Boost擴展指令集,與之前的產品系列相比,其訓練性能提升高達60%。Xeon也是唯一內置AI的通用CPU。
與英特爾積極推動AI在CPU中的普及不同,AMD在CES 2020上發佈的產品依舊專注於性能升級。AMD CEO蘇姿豐發佈新一代7納米移動處理器Ryzen 4000。官方稱,此系列的旗艦型號Ryzen 7 4800U是目前性能最高的超薄筆記本處理器,基礎頻率為1.8GHz,Boost頻率可達4.2GHz,8核16線程,TDP為15w。
另外,新發佈的中端遊戲市場的顯卡Radeon RX 5600 XT,以及64核128線程的桌面級處理器Ryzen Threadripper 3990X,也只是突出其性能的提升,並沒增加對AI的支持。
一邊是英特爾積極在其新款CPU中內置AI功能,另一邊是AMD全系產品都沒有支持AI的硬體。雷鋒網認為,英特爾畢竟還是佔有了CPU的主要市佔率,其新產品的推出,能在很大程度上推動具備AI功能PC處理器的普及。
至於能否進一步刺激消費者升級帶有AI功能的PC,AI能夠帶來的提升成為關鍵。英特爾也給出了例子,Adobe展示了基於Ice Lake處理器,其軟體套件可以加速運行從智慧對象選擇到顏色匹配,還有影片重構的一切任務。
還有,臨床實驗室公司Quest Diagnostics,在CAD模型中辨識肺結節的能力提高了33倍,照片軟體公司Topaz Labs,利用人工智慧通過自動填充像素來提高照片分辨率。
英特爾架構、圖形和軟體副總裁Roger Chandler表示,「在未來幾年裡,如果有高達80%的軟體工作負荷,以某種方式內置某種人工智慧加速功能,我不會感到驚訝。有的開發商可能把人工智慧用於應用程式的核心和基礎元素。有的則可能將它用於小功能。但透過與開發人員的交流,我們發現他們幾乎全都在尋求利用人工智慧的能力,在某種程度上改進他們的工作負荷。」
當然,英特爾為PC市場注入新的活力還伴隨著雅典娜計劃,「雅典娜計劃」在去年發佈,涵蓋了設計和技術規範,目標是打造未來的高性能筆電,不僅可以用於工作,還可以用於媒體串流、遊戲、企業應用等。截至目前,已有25款設計通過了英特爾的「雅典娜計劃」認證。
也就是說,英特爾會從AI技術、CPU到終端產品為PC市場帶入新的發展動力。
作為一年一度全球最受關注的消費電子盛會之一,透過CES,我們能夠看到新技術的落地和應用情況。AI作為CES 2020的一個關鍵字,許多產品都和AI產生了關聯,但AI的應用需要有AI晶片的支持,因此,CES上的AI晶片動態,不僅能找到AI晶片好的落地方向,也可能發現未來的趨勢。
顯然,在AI的大背景下,自動駕駛汽車率先成為了AI應用的重要應用,雖然發展速度不如預期,但重磅玩家以及新創公司的積極進入,都表明業界持續看好自動駕駛汽車晶片市場。至於成熟的CPU,英特爾積極在新產品中內置AI功能,AMD則希望通過更強的性能獲得更高市佔率。長遠看,AI也會成為PC應用中不可缺少的技術,只是能夠在多大程度上刺激消費者,還取決於英特爾和眾多軟體合作夥伴和合作成果。
資料來源:https://news.knowing.asia/news/928d4ccd-6dcc-4ee9-a7ab-935a8f96d10d
avx指令集cpu 在 AVX指令集- Max.C的博客 的推薦與評價
CPU 依靠指令来计算和控制系统,指令集是指CPU能执行的所有指令的集合,每一类CPU都有其支持的指令集。比如说目前intel和AMD的绝大部分处理器都使用X86指令 ... ... <看更多>
avx指令集cpu 在 Re: [閒聊] AVX指令集實際應用是甚麼功能? - 看板PC_Shopping 的推薦與評價
這樣跟CPU 交換資料很麻煩咧... 所以Intel 加了FP16 在第三代Core 處理器,做FP16<->FP32 轉換10.馬的8.啦為什麼AVX 256bit 暫存器只能用在浮點數,那 ... ... <看更多>
avx指令集cpu 在 Re: [閒聊] AVX指令集實際應用是甚麼功能? - 看板PC_Shopping 的推薦與評價
※ 引述《superRKO (挖洗RKO)》之銘言:
: 小弟菜雞
: 最近看INTEL的AVX512被嘴爆了,I皇QQ
: 又看了某幾集極客灣他們介紹說烤機烤AVX,I家的U會變很燙,而A的反而不會
: 然後這幾年有聽到AVX有實際在遊戲上應用的就刺客教條-奧德賽
: 但還是想問一下這AVX指令集的實際應用到底是甚麼?
AVX 是做什麼用的?
簡單一句:向量資料計算
仔細一點:INT8x32/16x16/32x8/64x4 加減乘飽和比較
FP32x8/64x4 四則運算﹑根號﹑逼近倒數...
FP32/64 <-> INT32
其他還有 bitwise ops, permute, mask, broadcast...
給 GPU shader 算會:
花太多步驟在交換資料
或是計算流程太複雜的
都可以給 AVX 算
而
對用 AVX 的人來說,說 AVX 這東西沒用實際上是:
『不是它沒用,是你沒 用』
^在
Intel x86 有一長串 SIMD 指令集擴充歷史
每次都是為了擴充處理資料能力的價值(Intel Inside)加的
1. 將近三十年前的 Pentium 時代
Intel 為了要讓 x86 有 DSP 處理整數域向量資料的功能
所以加了 64bit INT8x8/16x4/32x2/64x1 MMX 指令集,造就 PentiumMMX
那時候如果沒 MMX 而用整數指令做 filter 或 converter 譬如做色域轉換
效率最差可能剩下不到一成
在這之前,TI 爽爽賺賣很貴的 DSP, Creative Labs 也在賺賣很貴的 SB...
2. 二十幾年前的 Pentium!!! 時代
一堆初階 3D 顯示卡出現,只有算整數域像素顏色卻沒有計算浮點向量的 GPU
要是沒有 FP32x4 的 SSE 而用 x87 處理頂點向量,你只會得到少了 3/4 以上
多邊形的 3D 畫面
3. 二十年前第一個有 ucode cache 的 x86 Pentium4
是該把 MMX & x87 移給有"正常"通用暫存器的 SSE 做了,所以有了 SSE2
SSE2 包山包海 FP32/64, INT8/16/32/64 都有,只是不包超越函數還有那 FP80
x87 也開始慢慢淡出浮點數處理的功能
4. 過沒多久更燙的 Prescott Pentium4
Intel 開始加了一些可以直接處理同個暫存器內相鄰浮點數對加減的指令集 SSE3
SSSE3 則是把相同功能又做到了處理整數資料上
這時候的 GPU programmable shader 還不是個咖小 @.@
5. 十幾年前大賣的 Core2
Intel 把向量的分量遮罩選擇功能做進了 SSE4.1 ,也補了整數的最大最小值指令
好不容易這時候 GPU 終於開始出頭了
6. 第一代 Core 處理器出了
GPU 開始標榜各式各樣的 shader
Intel 把腦筋動到字串比對&糾錯碼上,所以又做了 SSE4.2
7. 十年前第一代 Core 處理器改製程
想想處理加解密用一般指令計算還是要很久,所以 Intel 把加解密的 AES & GF
用到的無進位長整數乘法加進來
要 GPU 加這種功能?吃x比較快...
8. 128bit SSE1/2/3/4.1
這些處理 FP32x4 是可以,但是對 FP64x4 卻只剩下一半效能
也不能指望那時連 FP64 都不知道是啥的 GPU
於是 Intel 在第二代的 Core i7 把 AVX 做上去了
終於...終於... 多了一倍數量&寬度的暫存器
目的暫存器也不需要再跟其中一個來源暫存器共用了
但這兩倍寬只局限於處理浮點數
9. 為什麼 GPU 都喜歡偷精確度用 FP16 ???
這樣跟 CPU 交換資料很麻煩咧...
所以 Intel 加了 FP16 在第三代 Core 處理器,做 FP16<->FP32 轉換
10.馬的8.啦
為什麼 AVX 256bit 暫存器只能用在浮點數,那整數域的咧???
所以 Intel AVX2 就把整數的部分也補上了,在第四代 Core 處理器上
---------------------------------------------------------------------
然後...
然後就沒有了...新 SIMD 指令集一段時間
---------------------------------------------------------------------
11.做過超長寬度的 SIMD 處理器 Larrabee & Xeon Phi 的
Intel 在第六代 Core 的 Xeon 版上做了 AVX512 (不是全套,只是部分類別)
這東西比之前的至少好用在
a.多了獨立的 64bit 遮罩暫存器八個
(以往要遮罩結果,得拿完整的 SSE/AVX 暫存器來用)
可以決定對目的暫存器各分量是否要寫入運算結果或是清除
b.暫存器數量跟寬度也多 AVX2 一倍
譬如 AVX2 要實作 SHA3 得要額外記憶體放常數表或中間值
AVX512 可以全塞進暫存器裡
所以!!!
如果要說 AVX512 沒必要
要嘛是額外加價買自己用不到的
要嘛像第十代 Core 處理器,只做了一組 512bit FP pipe 給 AVX512 FP 指令用
搞得 AVX512 FP peak performance 跟 AVX2 一樣
要是用得到AVX512
這東西比現在標榜 10+TFlops 但是只有 FP16/32 的 GPU 用途更多
GPU 廠商會說 GPU 浮點運算超強,但也只強在 FP16/FP32
一旦是其他精確度,衰減的幅度就比有 AVX 的 CPU 要大很多
不像 CPU 是對半砍,而是對半砍"五次"
如 FP64
2nd gen Xeon scalable 8280 的 AVX512 比 RTX2080 Titan
前者 peak 超過 2TFlops, 後者只有前者 1/4 不到
CPU 自始至終追求的都是通用度
所以在某個 coprocessor 還沒有必要被獨立特化出專門用途之前
我們就只得拿 CPU 來做
換句話說至少我們還有個啥都行但不是最快的貨色能擋
如果現在出了一個便宜的 x86 CPU ,但代價是把所有 SIMD 指令砍掉 (只留 x87)
各位還會想買單嗎?
至於 PPC 的 Altivec 跟 ARM 的 Neon
嗯...指令集都固定長度了是能加多少新的???
萬年標配 FP32x4...
所以我們該感謝 Intel 訂 x86 是可變長的指令集 lol
讓我們不知道啥時才能擺脫它...
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 140.112.194.35 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/PC_Shopping/M.1594888051.A.745.html
... <看更多>