Size: a a a

2020 September 04

SG

Samat Galimov in ctodailychat
Konstantin Nosov
есть несколько десятков тысяч текстовых файлов, общим весом где-то 50тб. Как можно их проиндексировать и реализовать к ним простой полнотекстовой поиск?
Рассмотренные варианты - поднять elastic и скормить ему все.
Может кто-то знает специализированные инструменты для индексации\поиска по неструктурированной текстовой информации?
расскажи пожалуйста, как решил. И для чего это нужно?

какие варики смотрел?

это дико интересно звучит
источник

SG

Samat Galimov in ctodailychat
я бы посмотрел в сторону google cloud search, меня 50ТБ как-то пугает
источник

NK

Nikita Kulikov in ctodailychat
Сергей Аксёнов
Вы будете смеяться, но после очередного раунда разговоров с поддержкой AWS я таки решил влезть в стоки Амазона) Эти перцы своё явно не упустят)

Ну и уже +3% за полчаса.
Жесть у них акции стоят
источник

NK

Nikita Kulikov in ctodailychat
Откуда я 4000$ возьму)
источник

E

Eugene in ctodailychat
Max Syabro
а там сплита не будет? чот они стоят как трактор
Мб это выгодно сейчас, все хотят купить, а минималка 4к)
источник

MS

Max Syabro in ctodailychat
Eugene
Мб это выгодно сейчас, все хотят купить, а минималка 4к)
ну вот у эппла сплит будет скоро
а стоят они немного
источник

NK

Nikita Kulikov in ctodailychat
Max Syabro
ну вот у эппла сплит будет скоро
а стоят они немного
Уже же
источник

KN

Konstantin Nosov in ctodailychat
Samat Galimov
расскажи пожалуйста, как решил. И для чего это нужно?

какие варики смотрел?

это дико интересно звучит
Есть много старых данных из кучи систем, наптсаных в разное время, которые бекапились методом дампов бд в SQL. И как вишенка на торте в бд данные затирались. Типа заказ выполнен - долой его из бд. Причем часть приложений нормальная была, без таких глупостей, а часть нет. Все дампы скинуты в один котелок, в котором иногда нужно найти к примеру едрпу контрагента и понять мы вообще имели с ним дела в последние лет 20 или нет. В каком из подразделений, если да - то что делали. Как вишенка на торте часть документов это просто вордовский файлы с актами. Или ещё хуже акты накиданые в Экселе. Вообщем болото из кучи не структурированных данных.

Пока смотрим в сторону еластика и приложения для индексации которое бы делало doc=>txt
источник

СА

Сергей Аксёнов... in ctodailychat
Max Syabro
а там сплита не будет? чот они стоят как трактор
Надеюсь нет, а то вон Тесла с Apple сплит сделали - и их колбасит как не в себя. А Амазон не волатильный очень, растёт плавно, падает ступенькой)
источник

SG

Samat Galimov in ctodailychat
Konstantin Nosov
Есть много старых данных из кучи систем, наптсаных в разное время, которые бекапились методом дампов бд в SQL. И как вишенка на торте в бд данные затирались. Типа заказ выполнен - долой его из бд. Причем часть приложений нормальная была, без таких глупостей, а часть нет. Все дампы скинуты в один котелок, в котором иногда нужно найти к примеру едрпу контрагента и понять мы вообще имели с ним дела в последние лет 20 или нет. В каком из подразделений, если да - то что делали. Как вишенка на торте часть документов это просто вордовский файлы с актами. Или ещё хуже акты накиданые в Экселе. Вообщем болото из кучи не структурированных данных.

Пока смотрим в сторону еластика и приложения для индексации которое бы делало doc=>txt
очень интересно. Смотрим — это попробовали запустить или просто думаете пока? (Я бы попробовал запустить прямо в лоб и посмотрел, что будет)

блин, тебе же даже вылить эти данные на удаленные серверы арендованные займет херову тучу времени! (50 terabytes) / (1 Gbps) = 4.62962963 days

кайф задача
источник

SG

Samat Galimov in ctodailychat
Konstantin Nosov
Есть много старых данных из кучи систем, наптсаных в разное время, которые бекапились методом дампов бд в SQL. И как вишенка на торте в бд данные затирались. Типа заказ выполнен - долой его из бд. Причем часть приложений нормальная была, без таких глупостей, а часть нет. Все дампы скинуты в один котелок, в котором иногда нужно найти к примеру едрпу контрагента и понять мы вообще имели с ним дела в последние лет 20 или нет. В каком из подразделений, если да - то что делали. Как вишенка на торте часть документов это просто вордовский файлы с актами. Или ещё хуже акты накиданые в Экселе. Вообщем болото из кучи не структурированных данных.

Пока смотрим в сторону еластика и приложения для индексации которое бы делало doc=>txt
https://fscrawler.readthedocs.io/en/latest/ видели наверняка? тогда кажется конвертировать не обязательно — он tika https://tika.apache.org/1.24.1/formats.html#Supported_Document_Formats под капотом использует
источник

O

Onlinehead in ctodailychat
Artur
то есть хочешь прям сам клавиатуру собрать, из кондеров, пружин и кусков пластмассы?
Да, именно.
источник

NK

Nikita Kulikov in ctodailychat
Samat Galimov
очень интересно. Смотрим — это попробовали запустить или просто думаете пока? (Я бы попробовал запустить прямо в лоб и посмотрел, что будет)

блин, тебе же даже вылить эти данные на удаленные серверы арендованные займет херову тучу времени! (50 terabytes) / (1 Gbps) = 4.62962963 days

кайф задача
У меня друг занимался миграцией данных в яндексе, там прям петабайты)))
источник

SZ

Sergey Zhuk in ctodailychat
мигрировали из private DC в AWS через чемоданчики AWS Snowball, там тоже были какие-то космические размеры данных, но и у амазона цены не дешевые))
источник

MS

Max Syabro in ctodailychat
парни, у меня тут memory leak в одном из сервисов который запущен в docker-compose
если я сделаю docker stop X; docker start X будут ли какие-то проблемы?
источник

A

Artur in ctodailychat
Onlinehead
Да, именно.
ничего себе
источник

MS

Max Syabro in ctodailychat
Artur
ничего себе
на али куча деталей для этого
источник

MS

Max Syabro in ctodailychat
и в интернетах
источник

MS

Max Syabro in ctodailychat
думаю даже криворукий я собрал бы 🙂
источник

A

Artur in ctodailychat
ну я не знал, что такое есть вообще
источник