Size: a a a

2020 July 13

0N

0x90 Nop in HWV ⟼ R&D
на FPGA далее 486sx не продвинулись, кстати?
источник

0N

0x90 Nop in HWV ⟼ R&D
вот бы реверснуть Transmeta Crusoe. там же микрокод реализует x86 -> VLIW трансляция. да с FPU есть проблемы, но их можно было бы решить на уровне микрокода.
источник

0N

0x90 Nop in HWV ⟼ R&D
был бы сразу резкий прогресс до уровня пенька третьего по итогу и задел по виртуальным машинкам&
источник

0N

0x90 Nop in HWV ⟼ R&D
источник

0N

0x90 Nop in HWV ⟼ R&D
прикольно читать про NX бит в апгрейде и потреблении порядка 3-7 Вт.
источник

0N

0x90 Nop in HWV ⟼ R&D
источник

0N

0x90 Nop in HWV ⟼ R&D
Оказывается VIA выкатила x86 проц с deep learning accelerator. Под капотом вроде как VLIW.
источник

MK

Michael Korobkov in HWV ⟼ R&D
Переслано от Michael Korobkov
источник

𝔻

𝔻𝕠𝕜𝕒 in HWV ⟼ R&D
0x90 Nop
Оказывается VIA выкатила x86 проц с deep learning accelerator. Под капотом вроде как VLIW.
надо разбираться что там за DL,
а то много хайпа и спекуляций
источник

𝔻

𝔻𝕠𝕜𝕒 in HWV ⟼ R&D
там же основной bottleneck - это доступ к памяти, а как эту проблему vliw решает неочевидно
источник

0N

0x90 Nop in HWV ⟼ R&D
𝔻𝕠𝕜𝕒
там же основной bottleneck - это доступ к памяти, а как эту проблему vliw решает неочевидно
The design divides the accelerator’s memory into two
8MB banks: the D-RAM and the W-RAM. Each RAM can
supply a 4,096-byte vector on every cycle, producing 20TB/s
of total bandwidth at 2.5GHz. Only one RAM can be written
on each cycle, matching the output rate of the compute
pipeline. Writes from the ring interrupt this sequence, but
since it takes 64 bus cycles to load enough data for a single 4,096-byte write, these interruptions are rare. For highreliability applications, both RAMs implement 64-bit ECC
across the entire 4,096-byte output value.
Data from the RAMs first flows into the data unit,
which performs various shift and permute functions. Specifically, it can perform up to three functions in a single
2.5GHz clock cycle, such as rotating an entire 4,096-byte
vector by up to 64 bytes, broadcasting a single INT8 value
(e.g., a weight) to fill a vector, compressing blocks (for pooling), and swapping bytes.
Although such wide vectors require sizable die area for
a single register, the data unit contains four such registers. It
can read or write any of these registers on each clock cycle.
For example, it can merge a RAM value with a register value
using one of the other registers as a byte mask. Thus, one or
both RAMs can be powered down on many
источник

0N

0x90 Nop in HWV ⟼ R&D
ну и касаемо цены за расширение горлышка бутылки
источник

0N

0x90 Nop in HWV ⟼ R&D
Good Performance at Low Cost
Centaur’s goal is to deliver the best neural-network performance per dollar in its class. Via will ultimately determine
the price of CHA-based products, but if they sell for about
the same price as a Xeon Silver, customers will essentially get
the DLA for free. Even though external DLAs based on the
NNP-I or the T4 deliver considerably better performance,
they’re far from free; in fact, they cost more than the processor. Thus, for essentially no cost, Ncore customers could get
a 5x speedup on neural networks relative to a similarly
priced system with no external accelerator. Centaur is still
optimizing its software (it released MLPerf numbers only a
month after receiving working silicon), so its scores could
improve further by the time the product reaches the market.
источник

A

Alexander in HWV ⟼ R&D
0x90 Nop
Good Performance at Low Cost
Centaur’s goal is to deliver the best neural-network performance per dollar in its class. Via will ultimately determine
the price of CHA-based products, but if they sell for about
the same price as a Xeon Silver, customers will essentially get
the DLA for free. Even though external DLAs based on the
NNP-I or the T4 deliver considerably better performance,
they’re far from free; in fact, they cost more than the processor. Thus, for essentially no cost, Ncore customers could get
a 5x speedup on neural networks relative to a similarly
priced system with no external accelerator. Centaur is still
optimizing its software (it released MLPerf numbers only a
month after receiving working silicon), so its scores could
improve further by the time the product reaches the market.
По сравнению с решениями от Nvidia выглядит бледно.
Плюс Intel, выкупив Altera, вроде тоже собиралась маложрущие векторные ядра женить с X86/X64 с малопотребляющими.
источник

𝔻

𝔻𝕠𝕜𝕒 in HWV ⟼ R&D
Alexander
По сравнению с решениями от Nvidia выглядит бледно.
Плюс Intel, выкупив Altera, вроде тоже собиралась маложрущие векторные ядра женить с X86/X64 с малопотребляющими.
хех)))
даёшь мутанта avx512!
источник

𝔻

𝔻𝕠𝕜𝕒 in HWV ⟼ R&D
Переслано от 𝔻𝕠𝕜𝕒
Я надеюсь, что AVX-512 умрёт мучительной смертью, и Intel начнёт решать реальные проблемы, вместо того, чтобы пытаться создавать магические инструкции, чтобы затем создавать тесты, на которых они могут хорошо выглядеть.

Я бы предпочел, чтобы транзисторный бюджет использовался для других вещей, которые гораздо более актуальны. Даже если это все еще математика FP (в GPU, а не AVX-512). Или
просто дайте мне больше ядер (с хорошей однопоточной производительностью, но без мусора вроде AVX512), как делает AMD.

Я думаю, что AVX-512 — совершенно неправильная вещь. Это моя любимая мозоль. Это яркий пример того, что Intel сделала неправильно, отчасти просто увеличив фрагментацию рынка.

https://www.phoronix.com/scan.php?page=news_item&px=Linus-Torvalds-On-AVX-512
источник

A

Alexander in HWV ⟼ R&D
𝔻𝕠𝕜𝕒
хех)))
даёшь мутанта avx512!
Мне кажется они в сторону создания конкурентов CUDA шли.
Но пока по пресс-релизам не понятно.

Не думаю, что они купили Altera чтобы на рынке ПЛИС поиграть. Были заявления о разработке видеокарт (конкурентов AMD/NVidia), а где видеокарты, там и начисления на GPU.
источник

𝔻

𝔻𝕠𝕜𝕒 in HWV ⟼ R&D
Alexander
Мне кажется они в сторону создания конкурентов CUDA шли.
Но пока по пресс-релизам не понятно.

Не думаю, что они купили Altera чтобы на рынке ПЛИС поиграть. Были заявления о разработке видеокарт (конкурентов AMD/NVidia), а где видеокарты, там и начисления на GPU.
ага. пришли в итоге к oneAPI
гетерогенное программирование
источник

A

Alexander in HWV ⟼ R&D
𝔻𝕠𝕜𝕒
ага. пришли в итоге к oneAPI
гетерогенное программирование
Это какая-то альтернатива OpenCL?
источник

𝔻

𝔻𝕠𝕜𝕒 in HWV ⟼ R&D
Alexander
Это какая-то альтернатива OpenCL?
ага. свой путь, вместо OpenCL
код пишешь единожды, а компилить можешь и на CPU и на ПЛИС
источник