Телеграмм чат группы proalgorithms страница 3149

12:46пожаловаться #1

DK

Dmitry Kozyrev in pro.algorithms

Для такого бора алгоритм обязан работать корректно

12:46пожаловаться #2

DK

Dmitry Kozyrev in pro.algorithms

Начинает с корня, в левом поддереве 4 листа, значит идет вправо (2-й бит 1), в левом поддереве 2 листа, значит идет вправо (1-й бит 1), в левом поддереве 1 лист, значит идет вправо (0-й бит 1)
Ответ 00000111 или 7

12:48пожаловаться #3

@

Люди, у меня вопрос. Мне нужно по нескольким десяткам тысяч строк искать отдельные строки.
причем правило такое что если есть строка
"Моя длинная строка"
то запрос
"ояннк" должен находить эту строку потому что эти буквы там встречаются именно в таком порядке.
"Моя длинная строка"
я пока вижу только вариант для каждой отдельной строки во всём наборе идти по строке и сравнивать буквы по очереди.
А нет варианта как-то это ускорить или построить индекс? Если да, то в какую сторону копать?

13:08пожаловаться #4

@

Может для этого есть какой-то готовый известный алгоритм

13:08пожаловаться #5

TS

делаешь регулярное выражение о.*я.*н.*н.*к, прогоняешь

13:08пожаловаться #6

@

это равносильно тому что я написал. проверить каждую строку

13:13пожаловаться #7

@

возможно будет быстрее за счёт каких-нибудь оптимизаций в библиотеке регулярных выражений, а может и нет.

13:13пожаловаться #8

TS

вроде регулярки на множественных строках можно ускорять суффиксными деревьями

13:15пожаловаться #9

CD

Tigran Saluev

вроде регулярки на множественных строках можно ускорять суффиксными деревьями

регулярки же NDFA

13:18пожаловаться #10

TS

можно ж детерминизировать

13:18пожаловаться #11

CD

Tigran Saluev

можно ж детерминизировать

получишь неполином состояния

13:19пожаловаться #12

TS

F, что тут сказать

13:19пожаловаться #13

TS

но это неполином от регулярки, а не от количества строк, по которым надо пройтись

13:19пожаловаться #14

TS

может иметь смысл

13:19пожаловаться #15

CD

учитывая что подпоследовательности за произведение длин при подготовке, очень сомневаюсь

13:20пожаловаться #16

CD

в смысле за количество умножить на сумму длин

13:21пожаловаться #17

CD

@mr_tron

Люди, у меня вопрос. Мне нужно по нескольким десяткам тысяч строк искать отдельные строки.
причем правило такое что если есть строка
"Моя длинная строка"
то запрос
"ояннк" должен находить эту строку потому что эти буквы там встречаются именно в таком порядке.
"Моя длинная строка"
я пока вижу только вариант для каждой отдельной строки во всём наборе идти по строке и сравнивать буквы по очереди.
А нет варианта как-то это ускорить или построить индекс? Если да, то в какую сторону копать?

ну индекс всегда одинаково строится для подпоследовательностей, переход по каждой букве предпросчитывается

Александр Горнак in pro.algorithms

13:25пожаловаться #18

АГ

Dmitry Kozyrev

Начинает с корня, в левом поддереве 4 листа, значит идет вправо (2-й бит 1), в левом поддереве 2 листа, значит идет вправо (1-й бит 1), в левом поддереве 1 лист, значит идет вправо (0-й бит 1)
Ответ 00000111 или 7

Спасибо!

13:27пожаловаться #19

A

Aragaer in pro.algorithms

Tigran Saluev

делаешь регулярное выражение о.*я.*н.*н.*к, прогоняешь

тут беда в том, что в случае, если не нашлось, оно будет очень долго мучать