Телеграмм чат группы hardwarevillage страница 1482

на FPGA далее 486sx не продвинулись, кстати?

09:49пожаловаться #1

вот бы реверснуть Transmeta Crusoe. там же микрокод реализует x86 -> VLIW трансляция. да с FPU есть проблемы, но их можно было бы решить на уровне микрокода.

09:52пожаловаться #2

был бы сразу резкий прогресс до уровня пенька третьего по итогу и задел по виртуальным машинкам&

09:55пожаловаться #3

https://ru.wikipedia.org/wiki/Efficeon

Wikipedia

Efficeon

Efficeon — микропроцессор, созданный компанией Transmeta. Принадлежит ко второму поколению семейства процессоров, созданных компанией для выполнения программ x86 с помощью морфинга программного кода. Построен на технологии VLIW с 256-разрядным словом. Его главными преимуществами, как и у предшественника Crusoe (со 128-разрядным словом) являются вычислительная эффективность, низкое потребление энергии и малое выделение тепла.

09:55пожаловаться #4

прикольно читать про NX бит в апгрейде и потреблении порядка 3-7 Вт.

09:56пожаловаться #5

https://centtech.com/wp-content/uploads/MPR_19_12_02_Centaur_Adds_AI_to_Server_Processor.pdf

11:04пожаловаться #6

Оказывается VIA выкатила x86 проц с deep learning accelerator. Под капотом вроде как VLIW.

https://fpga-systems.ru/news/vebinar_povyshenie_skorosti_razrabotki_pechatnykh_plat_soderzhashhikh_fpga/2020-07-13-351

11:05пожаловаться #7

Michael Korobkov in HWV ⟼ R&D

Переслано от Michael Korobkov

FPGA-Systems.ru: Сообщество FPGA разработчиков

Вебинар: Повышение скорости разработки печатных плат содержащих FPGA

Современные системы требуют современных инструментов оптимизации портов ввода-вывода FPGA, которые бы позволяли быстро выполнять замену контактов (pin swapping) и оптимизацию портов ввода-вывода в рамках процесса проектирования печатных плат. Дело в ...

𝔻

Оказывается VIA выкатила x86 проц с deep learning accelerator. Под капотом вроде как VLIW.

надо разбираться что там за DL,
а то много хайпа и спекуляций

11:24пожаловаться #9

𝔻

там же основной bottleneck - это доступ к памяти, а как эту проблему vliw решает неочевидно

11:25пожаловаться #10

𝔻𝕠𝕜𝕒

там же основной bottleneck - это доступ к памяти, а как эту проблему vliw решает неочевидно

The design divides the accelerator’s memory into two
8MB banks: the D-RAM and the W-RAM. Each RAM can
supply a 4,096-byte vector on every cycle, producing 20TB/s
of total bandwidth at 2.5GHz. Only one RAM can be written
on each cycle, matching the output rate of the compute
pipeline. Writes from the ring interrupt this sequence, but
since it takes 64 bus cycles to load enough data for a single 4,096-byte write, these interruptions are rare. For highreliability applications, both RAMs implement 64-bit ECC
across the entire 4,096-byte output value.
Data from the RAMs first flows into the data unit,
which performs various shift and permute functions. Specifically, it can perform up to three functions in a single
2.5GHz clock cycle, such as rotating an entire 4,096-byte
vector by up to 64 bytes, broadcasting a single INT8 value
(e.g., a weight) to fill a vector, compressing blocks (for pooling), and swapping bytes.
Although such wide vectors require sizable die area for
a single register, the data unit contains four such registers. It
can read or write any of these registers on each clock cycle.
For example, it can merge a RAM value with a register value
using one of the other registers as a byte mask. Thus, one or
both RAMs can be powered down on many

11:31пожаловаться #11

ну и касаемо цены за расширение горлышка бутылки

11:35пожаловаться #12

Good Performance at Low Cost
Centaur’s goal is to deliver the best neural-network performance per dollar in its class. Via will ultimately determine
the price of CHA-based products, but if they sell for about
the same price as a Xeon Silver, customers will essentially get
the DLA for free. Even though external DLAs based on the
NNP-I or the T4 deliver considerably better performance,
they’re far from free; in fact, they cost more than the processor. Thus, for essentially no cost, Ncore customers could get
a 5x speedup on neural networks relative to a similarly
priced system with no external accelerator. Centaur is still
optimizing its software (it released MLPerf numbers only a
month after receiving working silicon), so its scores could
improve further by the time the product reaches the market.

11:35пожаловаться #13

Alexander in HWV ⟼ R&D

0x90 Nop

Good Performance at Low Cost
Centaur’s goal is to deliver the best neural-network performance per dollar in its class. Via will ultimately determine
the price of CHA-based products, but if they sell for about
the same price as a Xeon Silver, customers will essentially get
the DLA for free. Even though external DLAs based on the
NNP-I or the T4 deliver considerably better performance,
they’re far from free; in fact, they cost more than the processor. Thus, for essentially no cost, Ncore customers could get
a 5x speedup on neural networks relative to a similarly
priced system with no external accelerator. Centaur is still
optimizing its software (it released MLPerf numbers only a
month after receiving working silicon), so its scores could
improve further by the time the product reaches the market.

По сравнению с решениями от Nvidia выглядит бледно.
Плюс Intel, выкупив Altera, вроде тоже собиралась маложрущие векторные ядра женить с X86/X64 с малопотребляющими.

11:39пожаловаться #14

𝔻

Alexander

хех)))
даёшь мутанта avx512!

11:40пожаловаться #15

𝔻

Linus Torvalds: "I Hope AVX512 Dies A Painful Death" - Phoronix

Переслано от 𝔻𝕠𝕜𝕒

Я надеюсь, что AVX-512 умрёт мучительной смертью, и Intel начнёт решать реальные проблемы, вместо того, чтобы пытаться создавать магические инструкции, чтобы затем создавать тесты, на которых они могут хорошо выглядеть.

Я бы предпочел, чтобы транзисторный бюджет использовался для других вещей, которые гораздо более актуальны. Даже если это все еще математика FP (в GPU, а не AVX-512). Или просто дайте мне больше ядер (с хорошей однопоточной производительностью, но без мусора вроде AVX512), как делает AMD.

Я думаю, что AVX-512 — совершенно неправильная вещь. Это моя любимая мозоль. Это яркий пример того, что Intel сделала неправильно, отчасти просто увеличив фрагментацию рынка.

https://www.phoronix.com/scan.php?page=news_item&px=Linus-Torvalds-On-AVX-512

Phoronix

Phoronix is the leading technology website for Linux hardware reviews, open-source news, Linux benchmarks, open-source benchmarks, and computer hardware tests.

11:40пожаловаться #16

Alexander in HWV ⟼ R&D

𝔻𝕠𝕜𝕒

хех)))
даёшь мутанта avx512!

Мне кажется они в сторону создания конкурентов CUDA шли.
Но пока по пресс-релизам не понятно.

Не думаю, что они купили Altera чтобы на рынке ПЛИС поиграть. Были заявления о разработке видеокарт (конкурентов AMD/NVidia), а где видеокарты, там и начисления на GPU.

11:44пожаловаться #17

𝔻

Alexander

ага. пришли в итоге к oneAPI
гетерогенное программирование