Телеграмм чат группы compilerdev страница 1052

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Compiler Development

818 membersпожаловаться на группу

2020 March 11

А

Антон in Compiler Development

Александр Вольнов

Не был знаком ни с чем из перечисленного. Прочитал про Smalltalk image, во многом идеи похожи. У меня тоже типы - это данные. Но у меня не снапшоты состояния приложения, а идея в том, что эти бинарные файлы с данными и информацией о типах будут использоваться как формат сериализации и обмена данными между приложениями и различными компьютерами.
Про Seaside почитал википедию, не нашёл ни единого упоминания о том, чтобы это была БД. Пишут, что это фреймворк для написания серверной части веб-приложений.
И по идее мой язык позволит создать свою легковесную БД под задачу с практически любым внутренним представлением. Можно графы, можно таблицы, можно вложенные иерархические структуры любой сложности.

Можно прочитать про близовский формат файла

источник

13:44пожаловаться #1

А

Антон in Compiler Development

MPQ

источник

13:44пожаловаться #2

А

Антон in Compiler Development

Вроде как даже есть палёная спецификация

источник

13:44пожаловаться #3

MM

Mikhail Maltsev in Compiler Development

Михаил Бахтерев

Очередной вопрос к опытным участникам: а насколько реально проследить происхождение каждой инструкции в результате компиляции прямо до исходного текста? Имеется в виду, чтобы предоставить программисту комментарии в ассемблерном коде, что вот эти инструкции сгенерированы конкретно из такого-то выражения. Подразумевается, что ассемблер получен после нескольких проходов оптимизатора и планирования инструкций.

При этом, наверное, не важно, в каком формате эта информация собрана. Допустим, в некотором инструменте будет возможность подвести к инструкции курсор, и этот инструмент покажет связанный блок инструкций и выражение в исходном тексте, к которому они относятся.

Какая-то такая фантазия. Это возможно? И дополнительный вопрос: не знает ли кто-нибудь какую-нибудь внятную реализацию Source Maps? А то в ClojureScript трындец.

В том виде, в котором это сформулировано задача довольно сложная. Все современные компиляторы пытаются её решить хотя бы приближённо. Чтобы можно было в отладчике поставить breakpoint нужно отображение "стока в исходном коде -> инструкция". Чтобы можно было остановиться по произвольному событию (watchpoint переменной) и понять где сейчас находится поток управления, нужно обратное отображение. Оба отображения неоднозначны: в первом случае когда одна операция в исходном коде дублируется в несколько операций в машинном коде (unrolling, unswitching, jump threading, и т.п.), во втором случае - наоборот (устранение общих подвыражений, tail merging).

В LLVM есть некоторая документация на эту тему https://llvm.org/docs/SourceLevelDebugging.html
Общий принцип, насколько я понимаю, простой: из исходного кода генерируется LLVM IR, где к каждой инструкции прикреплена информация о позиции в исходном коде. Оптимизации и backend пытаются по возможности эту информацию сохранить, а при вставке новых инструкций выбрать другую инструкцию, откуда эту информацию скопировать.

Одна интересная идея/статья на тему от разработчиков GCC: https://developers.redhat.com/blog/2017/07/11/statement-frontier-notes-and-location-views/

Самый распространённый открытый формат отладочной информации - это DWARF, там в разделе про "Line Number Information" описан формат.

Red Hat Developer

Statement Frontier Notes and Location Views - Red Hat Developer

Surely, you too have been frustrated, while single-stepping optimized programs in symbolic debuggers, by the Brownian motion in the source code, and by never being sure, when you reach a certain source line (if you can reach it at all), whether or not earlier lines have taken effect. Our frustration is about to be significantly […]

источник

13:53пожаловаться #4

IJ

Igor 🐱 Jirkov in Compiler Development

Михаил Бахтерев

Очередной вопрос к опытным участникам: а насколько реально проследить происхождение каждой инструкции в результате компиляции прямо до исходного текста? Имеется в виду, чтобы предоставить программисту комментарии в ассемблерном коде, что вот эти инструкции сгенерированы конкретно из такого-то выражения. Подразумевается, что ассемблер получен после нескольких проходов оптимизатора и планирования инструкций.

При этом, наверное, не важно, в каком формате эта информация собрана. Допустим, в некотором инструменте будет возможность подвести к инструкции курсор, и этот инструмент покажет связанный блок инструкций и выражение в исходном тексте, к которому они относятся.

Какая-то такая фантазия. Это возможно? И дополнительный вопрос: не знает ли кто-нибудь какую-нибудь внятную реализацию Source Maps? А то в ClojureScript трындец.

godbolt красиво подсвечивает :) но это всё приблизительно при агрессивных оптимизациях

источник

13:56пожаловаться #5

А

Алексей in Compiler Development

Mikhail Maltsev

В том виде, в котором это сформулировано задача довольно сложная. Все современные компиляторы пытаются её решить хотя бы приближённо. Чтобы можно было в отладчике поставить breakpoint нужно отображение "стока в исходном коде -> инструкция". Чтобы можно было остановиться по произвольному событию (watchpoint переменной) и понять где сейчас находится поток управления, нужно обратное отображение. Оба отображения неоднозначны: в первом случае когда одна операция в исходном коде дублируется в несколько операций в машинном коде (unrolling, unswitching, jump threading, и т.п.), во втором случае - наоборот (устранение общих подвыражений, tail merging).

В LLVM есть некоторая документация на эту тему https://llvm.org/docs/SourceLevelDebugging.html
Общий принцип, насколько я понимаю, простой: из исходного кода генерируется LLVM IR, где к каждой инструкции прикреплена информация о позиции в исходном коде. Оптимизации и backend пытаются по возможности эту информацию сохранить, а при вставке новых инструкций выбрать другую инструкцию, откуда эту информацию скопировать.

Одна интересная идея/статья на тему от разработчиков GCC: https://developers.redhat.com/blog/2017/07/11/statement-frontier-notes-and-location-views/

Самый распространённый открытый формат отладочной информации - это DWARF, там в разделе про "Line Number Information" описан формат.

Red Hat Developer

Statement Frontier Notes and Location Views - Red Hat Developer

Surely, you too have been frustrated, while single-stepping optimized programs in symbolic debuggers, by the Brownian motion in the source code, and by never being sure, when you reach a certain source line (if you can reach it at all), whether or not earlier lines have taken effect. Our frustration is about to be significantly […]

а при отладке разве делаются оптимизации?

источник

13:58пожаловаться #6

MM

Mikhail Maltsev in Compiler Development

а при отладке разве делаются оптимизации?

Никто не запрещает: генерирование отладочной информации и оптимизация это независимые фичи. В некоторых случая проблема проявляется только в оптимизированном коде, и приходится отлаживать его.

источник

14:00пожаловаться #7

DP

Dmitry Ponyatov in Compiler Development

Александр Вольнов

Не был знаком ни с чем из перечисленного. Прочитал про Smalltalk image, во многом идеи похожи. У меня тоже типы - это данные. Но у меня не снапшоты состояния приложения, а идея в том, что эти бинарные файлы с данными и информацией о типах будут использоваться как формат сериализации и обмена данными между приложениями и различными компьютерами.
Про Seaside почитал википедию, не нашёл ни единого упоминания о том, чтобы это была БД. Пишут, что это фреймворк для написания серверной части веб-приложений.
И по идее мой язык позволит создать свою легковесную БД под задачу с практически любым внутренним представлением. Можно графы, можно таблицы, можно вложенные иерархические структуры любой сложности.

наврал Gemstone

источник

14:05пожаловаться #8

АВ

Александр Вольнов in Compiler Development

MPQ

Почитал. Это формат архива, то есть там внутри в конечном счёте после распаковки и расшифровки будут файлы в различных форматах, которые MPQ рассматривает как чёрный ящик и то, как трактовать их решает приложение на основе его типа.
Я продумываю такой формат, который не содержит никаких чёрных ящиков и знает, какие данные он содержит вплоть до каждого пикселя изображения и вершины 3D модели и т.п.. Допустим, если файл хранит все данные игры, то можно будет подгрузить его, а потом написать

DataVoln::OpenFile("game.bdv").DeserializeExpr<Color>("Levels.MyLevelName.Textures.Metal.Pixels[42][42]");

И это выражение прочитает цвет пикселя текстуры с именем Metal, находящейся в уровне с именем MyLevelName в позиции x = 42, y = 42. И будет выполнен ровно тот объём вычислений, который нужен. То есть весь файл не будет расжиматься и декодироваться, если его структура позволяет прочитать данные пикселя без распаковки всего.
То есть никаких вложенных JPG/PNG/DDS, всё делается средствами одного формата.

источник

14:06пожаловаться #9

А

Алексей in Compiler Development

Mikhail Maltsev

Никто не запрещает: генерирование отладочной информации и оптимизация это независимые фичи. В некоторых случая проблема проявляется только в оптимизированном коде, и приходится отлаживать его.

как например сгенерировать отладочную информацию для переменной, которой тупо не существует к примеру, из-за того что оптимизатор её вырезал?

источник

14:06пожаловаться #10

AT

Alexander Tchitchigin in Compiler Development

Александр Вольнов

Почитал. Это формат архива, то есть там внутри в конечном счёте после распаковки и расшифровки будут файлы в различных форматах, которые MPQ рассматривает как чёрный ящик и то, как трактовать их решает приложение на основе его типа.
Я продумываю такой формат, который не содержит никаких чёрных ящиков и знает, какие данные он содержит вплоть до каждого пикселя изображения и вершины 3D модели и т.п.. Допустим, если файл хранит все данные игры, то можно будет подгрузить его, а потом написать

DataVoln::OpenFile("game.bdv").DeserializeExpr<Color>("Levels.MyLevelName.Textures.Metal.Pixels[42][42]");

И это выражение прочитает цвет пикселя текстуры с именем Metal, находящейся в уровне с именем MyLevelName в позиции x = 42, y = 42. И будет выполнен ровно тот объём вычислений, который нужен. То есть весь файл не будет расжиматься и декодироваться, если его структура позволяет прочитать данные пикселя без распаковки всего.
То есть никаких вложенных JPG/PNG/DDS, всё делается средствами одного формата.

https://en.wikipedia.org/wiki/Apache_Parquet
https://en.wikipedia.org/wiki/Apache_Avro
? Есть и ещё подобные проекты...

Apache Parquet

language agnostic, open source Columnar file format for analytics

источник

14:10пожаловаться #11

А

Антон in Compiler Development

Александр Вольнов

Почитал. Это формат архива, то есть там внутри в конечном счёте после распаковки и расшифровки будут файлы в различных форматах, которые MPQ рассматривает как чёрный ящик и то, как трактовать их решает приложение на основе его типа.
Я продумываю такой формат, который не содержит никаких чёрных ящиков и знает, какие данные он содержит вплоть до каждого пикселя изображения и вершины 3D модели и т.п.. Допустим, если файл хранит все данные игры, то можно будет подгрузить его, а потом написать

DataVoln::OpenFile("game.bdv").DeserializeExpr<Color>("Levels.MyLevelName.Textures.Metal.Pixels[42][42]");

И это выражение прочитает цвет пикселя текстуры с именем Metal, находящейся в уровне с именем MyLevelName в позиции x = 42, y = 42. И будет выполнен ровно тот объём вычислений, который нужен. То есть весь файл не будет расжиматься и декодироваться, если его структура позволяет прочитать данные пикселя без распаковки всего.
То есть никаких вложенных JPG/PNG/DDS, всё делается средствами одного формата.

Там если что мета есть, и это не черный ящик

источник

14:12пожаловаться #12

А

Антон in Compiler Development

Закинуть в мету рантайм - и вот что ты хотел

источник

14:12пожаловаться #13

MM

Mikhail Maltsev in Compiler Development

как например сгенерировать отладочную информацию для переменной, которой тупо не существует к примеру, из-за того что оптимизатор её вырезал?

В теории: В DWARF описана виртуальная машина, отладочная информация для переменной будет представлять собой код для этой VM, вычисляющий значение переменной исходя из доступных значений. На практике это, во-первых, не всегда возможно, а во-вторых разработчики оптимизаций часто на это просто забивают. Так что оптимизатор всегда делает одни и те же преобразования, независимо от наличия отладочной информации, при это часть отладочной информации может теряться. В GDB вы увидите вместо значения переменной <optimized out>.

источник

14:30пожаловаться #14

А

Алексей in Compiler Development

Mikhail Maltsev

В теории: В DWARF описана виртуальная машина, отладочная информация для переменной будет представлять собой код для этой VM, вычисляющий значение переменной исходя из доступных значений. На практике это, во-первых, не всегда возможно, а во-вторых разработчики оптимизаций часто на это просто забивают. Так что оптимизатор всегда делает одни и те же преобразования, независимо от наличия отладочной информации, при это часть отладочной информации может теряться. В GDB вы увидите вместо значения переменной <optimized out>.

о как, не знал

источник

14:31пожаловаться #15

АВ

Александр Вольнов in Compiler Development

Alexander Tchitchigin

https://en.wikipedia.org/wiki/Apache_Parquet
https://en.wikipedia.org/wiki/Apache_Avro
? Есть и ещё подобные проекты...

Apache Parquet

language agnostic, open source Columnar file format for analytics

Пополню ими список того, что "убьёт" моя технология. Всё что существует - avro, parquet, protobuf, flat buffers, json, xml и т.п. вместе взятое покрывает от силы 10% того функционала, который будет в моём формате-языке. У меня будут:
1) Поля произвольной битности. Например, можно хранить монохромные картинки без оверхеда и кастомной логики на стороне приложения
2) вычисляемые поля - был сначала формат с полями A и B, в новой версии поле A убрали, ввели C и указали, что A = C*2. Старая версия программы сможет прочитать новый файл. Новая версия сможет прочитать старый файл. Совместимость в обе стороны. Или, к примеру, можно не хранить пиксели изображения совсем, а записать формулу вычисления каждого пикселя картинки. Программа сможет прочитать этот файл как картинку, не имея представления о том, хранится ли она в файле или считается по формуле.
3) формат можно использовать как язык для обработки данных - писать всякие map, reduce, filter, считать статистические функции над данными и делать другую обработку.
Вот такая идея. Большую часть уже продумал и выглядит, что это вполне реально сделать силами одного человека и умениями, которые у меня уже есть. Жду не дождусь, когда руки дойдут до реализации.

источник

15:17пожаловаться #16

AT

Alexander Tchitchigin in Compiler Development

Александр Вольнов

Пополню ими список того, что "убьёт" моя технология. Всё что существует - avro, parquet, protobuf, flat buffers, json, xml и т.п. вместе взятое покрывает от силы 10% того функционала, который будет в моём формате-языке. У меня будут:
1) Поля произвольной битности. Например, можно хранить монохромные картинки без оверхеда и кастомной логики на стороне приложения
2) вычисляемые поля - был сначала формат с полями A и B, в новой версии поле A убрали, ввели C и указали, что A = C*2. Старая версия программы сможет прочитать новый файл. Новая версия сможет прочитать старый файл. Совместимость в обе стороны. Или, к примеру, можно не хранить пиксели изображения совсем, а записать формулу вычисления каждого пикселя картинки. Программа сможет прочитать этот файл как картинку, не имея представления о том, хранится ли она в файле или считается по формуле.
3) формат можно использовать как язык для обработки данных - писать всякие map, reduce, filter, считать статистические функции над данными и делать другую обработку.
Вот такая идея. Большую часть уже продумал и выглядит, что это вполне реально сделать силами одного человека и умениями, которые у меня уже есть. Жду не дождусь, когда руки дойдут до реализации.

Т.е. Вы переизобретаете SQLite? 😃

источник

15:18пожаловаться #17

p

polunin.ai in Compiler Development

Александр Вольнов

Пополню ими список того, что "убьёт" моя технология. Всё что существует - avro, parquet, protobuf, flat buffers, json, xml и т.п. вместе взятое покрывает от силы 10% того функционала, который будет в моём формате-языке. У меня будут:
1) Поля произвольной битности. Например, можно хранить монохромные картинки без оверхеда и кастомной логики на стороне приложения
2) вычисляемые поля - был сначала формат с полями A и B, в новой версии поле A убрали, ввели C и указали, что A = C*2. Старая версия программы сможет прочитать новый файл. Новая версия сможет прочитать старый файл. Совместимость в обе стороны. Или, к примеру, можно не хранить пиксели изображения совсем, а записать формулу вычисления каждого пикселя картинки. Программа сможет прочитать этот файл как картинку, не имея представления о том, хранится ли она в файле или считается по формуле.
3) формат можно использовать как язык для обработки данных - писать всякие map, reduce, filter, считать статистические функции над данными и делать другую обработку.
Вот такая идея. Большую часть уже продумал и выглядит, что это вполне реально сделать силами одного человека и умениями, которые у меня уже есть. Жду не дождусь, когда руки дойдут до реализации.

Хрень. Все это уже есть в том или ином виде.

источник

15:20пожаловаться #18

IJ

Igor 🐱 Jirkov in Compiler Development

Александр Вольнов

Пополню ими список того, что "убьёт" моя технология. Всё что существует - avro, parquet, protobuf, flat buffers, json, xml и т.п. вместе взятое покрывает от силы 10% того функционала, который будет в моём формате-языке. У меня будут:
1) Поля произвольной битности. Например, можно хранить монохромные картинки без оверхеда и кастомной логики на стороне приложения
2) вычисляемые поля - был сначала формат с полями A и B, в новой версии поле A убрали, ввели C и указали, что A = C*2. Старая версия программы сможет прочитать новый файл. Новая версия сможет прочитать старый файл. Совместимость в обе стороны. Или, к примеру, можно не хранить пиксели изображения совсем, а записать формулу вычисления каждого пикселя картинки. Программа сможет прочитать этот файл как картинку, не имея представления о том, хранится ли она в файле или считается по формуле.
3) формат можно использовать как язык для обработки данных - писать всякие map, reduce, filter, считать статистические функции над данными и делать другую обработку.
Вот такая идея. Большую часть уже продумал и выглядит, что это вполне реально сделать силами одного человека и умениями, которые у меня уже есть. Жду не дождусь, когда руки дойдут до реализации.

А также этот язык можно транслировать в С и обратно, и компиляция Doom 3 занимает 0.4 секунды?

источник

15:20пожаловаться #19

p

polunin.ai in Compiler Development

Не вижу причин использовать то что вы предлагаете в третьем пункте, когда то же самое и даже больше предоставляет питон с scipy/numpy

источник

15:21пожаловаться #20