Телеграмм чат группы compilerdev страница 1437

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Compiler Development

862 membersпожаловаться на группу

2020 June 08

MM

Mikhail Maltsev in Compiler Development

LALR(1) разве не O(N)?

источник

13:51пожаловаться #1

AT

Alexander Tchitchigi... in Compiler Development

Я что-то не помню как там математически это дело формулируется, но, наверное, все грамматики, которые *(1) работают за линейное время. Проблема в том, что не так много языков, которые реально под них подходят.

источник

14:13пожаловаться #2

E

Eugene in Compiler Development

Yaroslav Schekin

Я сразу предупрежу, что не очень в этом разбираюсь, но:

> зачем нужен лексер?

И

> Почему бы сразу не парсить текст в базовое промежуточное представление, минуя AST?

Не связаны друг с другом, нет? Lexer занимается преобразованием в поток токенов, а не построением AST.
Т.е. какой у Вас именно вопрос?

вам, наверное, стоит почитать про парсерные комбинаторы

источник

14:13пожаловаться #3

AT

Alexander Tchitchigi... in Compiler Development

Кажется, все популярные сейчас языки программирования по факту вообще контекстно-зависимые.

источник

14:13пожаловаться #4

IK

Ivan Kochurkin in Compiler Development

Дерево строится как минимум для того, чтобы проходить по нему несколько раз. Иначе как, например, в однопроходном компиляторе узнать, что за сущность объявлена ниже? Для этого информацию о классах и методах надо сначала собрать, а потом вывести типы.

источник

14:25пожаловаться #5

IK

Ivan Kochurkin in Compiler Development

Ну и как уже сказали выше, лексинг и парсинг обычно очень быстрый. А парсер на токенах быстрее парсера на тексте.

источник

14:27пожаловаться #6

YS

Yaroslav Schekin in Compiler Development

Eugene

вам, наверное, стоит почитать про парсерные комбинаторы

А там lexer строит AST? ;) Или зачем мне про них читать?

источник

14:28пожаловаться #7

p

polunin.ai in Compiler Development

Ну и как уже сказали выше, лексинг и парсинг обычно очень быстрый. А парсер на токенах быстрее парсера на тексте.

это все эмпирические заключения, либо же подтвержденные хоть как-то?

источник

14:28пожаловаться #8

AT

Alexander Tchitchigi... in Compiler Development

это все эмпирические заключения, либо же подтвержденные хоть как-то?

Для справки: "эмпирические" — это как раз "хоть как-то подтверждённые". Скорее всего, Вы имели в виду "умозрительные". 😊

источник

14:30пожаловаться #9

E

Eugene in Compiler Development

Yaroslav Schekin

А там lexer строит AST? ;) Или зачем мне про них читать?

там нет лексера — парсер получает исходный текст и выдаёт AST

источник

14:31пожаловаться #10

PS

Peter Sovietov in Compiler Development

Eugene

там нет лексера — парсер получает исходный текст и выдаёт AST

Там что хотите, то и будет :)

источник

14:31пожаловаться #11

AT

Alexander Tchitchigi... in Compiler Development

Yaroslav Schekin

А там lexer строит AST? ;) Или зачем мне про них читать?

Там лексинг и парсинг можно соединить в одну функцию. Но можно и разделить. Очень гибкая штука.

источник

14:31пожаловаться #12

YS

Yaroslav Schekin in Compiler Development

Eugene

там нет лексера — парсер получает исходный текст и выдаёт AST

Я про это ниже написал. https://t.me/CompilerDev/67737

Yaroslav Schekin in Compiler Development

Так есть методы lexerless parsing, если что.
И поток токенов почти никогда в явном виде всё равно не строится (разве что при отладке lexer).

По идее, с токенами удобнее работать, потому что:
1. Parsing разделяется на эти модули (lexer и parser), в которых традиционно применяются разные методы описания и обработки (чаще всего regexp-ы в lexer и CFG в parser, по идее).
2. Разработка грамматики, где не нужно учитывать комментарии, переводы строк и т.п., с чем может "разобраться" lexer, может быть проще.
3. Иногда в lexer, наоборот, можно специально распознавать "сложные" конструкции, чтобы упростить работу parser.
4. При таком разделении можно использовать существующие генераторы lexers и parser, чтобы ускорить их разработку.

источник

14:32пожаловаться #13

AT

Alexander Tchitchigi... in Compiler Development

Eugene

там нет лексера — парсер получает исходный текст и выдаёт AST

It depends. По крайней мере, "хорошие" библиотеки комбинаторов полностью параметризованы по входу и по выходу, поэтому можно написать и разбор текста, и разбор потока токенов. Или бинарный парсер.

источник

14:33пожаловаться #14

E

Eugene in Compiler Development

Yaroslav Schekin

Я про это ниже написал. https://t.me/CompilerDev/67737

Yaroslav Schekin in Compiler Development

Так есть методы lexerless parsing, если что.
И поток токенов почти никогда в явном виде всё равно не строится (разве что при отладке lexer).

По идее, с токенами удобнее работать, потому что:
1. Parsing разделяется на эти модули (lexer и parser), в которых традиционно применяются разные методы описания и обработки (чаще всего regexp-ы в lexer и CFG в parser, по идее).
2. Разработка грамматики, где не нужно учитывать комментарии, переводы строк и т.п., с чем может "разобраться" lexer, может быть проще.
3. Иногда в lexer, наоборот, можно специально распознавать "сложные" конструкции, чтобы упростить работу parser.
4. При таком разделении можно использовать существующие генераторы lexers и parser, чтобы ускорить их разработку.

упс, сорян, не туда ответил

источник

14:33пожаловаться #15

YS

Yaroslav Schekin in Compiler Development

Alexander Tchitchigin

Там лексинг и парсинг можно соединить в одну функцию. Но можно и разделить. Очень гибкая штука.

Вы пытаетесь украсть изменить контекст обсуждения, или как? ;)
Я задавал уточняющий вопрос, если что.

источник

14:33пожаловаться #16

AT

Alexander Tchitchigi... in Compiler Development

Yaroslav Schekin

Вы пытаетесь украсть изменить контекст обсуждения, или как? ;)
Я задавал уточняющий вопрос, если что.

Типа "троллил"? ОК, извините, не распознал. 🤷‍♀️

источник

14:34пожаловаться #17

YS

Yaroslav Schekin in Compiler Development

Alexander Tchitchigin

Типа "троллил"? ОК, извините, не распознал. 🤷‍♀️

Не хамите. И перечитайте обсуждение, если не дошло.

источник

14:35пожаловаться #18

IK

Ivan Kochurkin in Compiler Development

это все эмпирические заключения, либо же подтвержденные хоть как-то?

Когда токенов нет, это значит, что "токеном" является каждый символ текста. В большинстве случаев в этом нет смысла (за исключением какого-нибудь Markdown).

Если взять более менее сложный язык, то там скорее всего встретятся подобные штуки:

rule
    : subrule
    | A B
    ;

subrule
    : A C
    ;

Если при парсинге rule сфейлились на subrule, то по крайней мере не надо перевычислять токен A, когда попадаем во вторую альтернативу.

Возможно в большинстве случаев фазу лексинга можно заинлайнить прямо в парсер, но от этого токены же не исчезнут.

источник

14:41пожаловаться #19

p

polunin.ai in Compiler Development

Когда токенов нет, это значит, что "токеном" является каждый символ текста. В большинстве случаев в этом нет смысла (за исключением какого-нибудь Markdown).

Если взять более менее сложный язык, то там скорее всего встретятся подобные штуки:

rule
    : subrule
    | A B
    ;

subrule
    : A C
    ;

Если при парсинге rule сфейлились на subrule, то по крайней мере не надо перевычислять токен A, когда попадаем во вторую альтернативу.

Возможно в большинстве случаев фазу лексинга можно заинлайнить прямо в парсер, но от этого токены же не исчезнут.

тут можно заменить на

rule
  : A (B | C)
  ;

источник

14:43пожаловаться #20