Телеграмм чат группы ctodailychat страница 6150

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

ctodailychat

1378 membersпожаловаться на группу

2020 September 04

SG

Samat Galimov in ctodailychat

Konstantin Nosov

есть несколько десятков тысяч текстовых файлов, общим весом где-то 50тб. Как можно их проиндексировать и реализовать к ним простой полнотекстовой поиск?
Рассмотренные варианты - поднять elastic и скормить ему все.
Может кто-то знает специализированные инструменты для индексации\поиска по неструктурированной текстовой информации?

расскажи пожалуйста, как решил. И для чего это нужно?

какие варики смотрел?

это дико интересно звучит

источник

10:44пожаловаться #1

SG

Samat Galimov in ctodailychat

я бы посмотрел в сторону google cloud search, меня 50ТБ как-то пугает

источник

10:46пожаловаться #2

NK

Nikita Kulikov in ctodailychat

Сергей Аксёнов

Вы будете смеяться, но после очередного раунда разговоров с поддержкой AWS я таки решил влезть в стоки Амазона) Эти перцы своё явно не упустят)

Ну и уже +3% за полчаса.

Жесть у них акции стоят

источник

10:48пожаловаться #3

NK

Nikita Kulikov in ctodailychat

Откуда я 4000$ возьму)

источник

10:48пожаловаться #4

E

Eugene in ctodailychat

а там сплита не будет? чот они стоят как трактор

Мб это выгодно сейчас, все хотят купить, а минималка 4к)

источник

10:50пожаловаться #5

MS

Max Syabro in ctodailychat

Мб это выгодно сейчас, все хотят купить, а минималка 4к)

ну вот у эппла сплит будет скоро
а стоят они немного

источник

10:50пожаловаться #6

NK

Nikita Kulikov in ctodailychat

ну вот у эппла сплит будет скоро
а стоят они немного

Уже же

источник

10:51пожаловаться #7

KN

Konstantin Nosov in ctodailychat

расскажи пожалуйста, как решил. И для чего это нужно?

какие варики смотрел?

это дико интересно звучит

Есть много старых данных из кучи систем, наптсаных в разное время, которые бекапились методом дампов бд в SQL. И как вишенка на торте в бд данные затирались. Типа заказ выполнен - долой его из бд. Причем часть приложений нормальная была, без таких глупостей, а часть нет. Все дампы скинуты в один котелок, в котором иногда нужно найти к примеру едрпу контрагента и понять мы вообще имели с ним дела в последние лет 20 или нет. В каком из подразделений, если да - то что делали. Как вишенка на торте часть документов это просто вордовский файлы с актами. Или ещё хуже акты накиданые в Экселе. Вообщем болото из кучи не структурированных данных.

Пока смотрим в сторону еластика и приложения для индексации которое бы делало doc=>txt

источник

10:52пожаловаться #8

СА

Сергей Аксёнов... in ctodailychat

а там сплита не будет? чот они стоят как трактор

Надеюсь нет, а то вон Тесла с Apple сплит сделали - и их колбасит как не в себя. А Амазон не волатильный очень, растёт плавно, падает ступенькой)

источник

10:54пожаловаться #9

SG

Samat Galimov in ctodailychat

Konstantin Nosov

Есть много старых данных из кучи систем, наптсаных в разное время, которые бекапились методом дампов бд в SQL. И как вишенка на торте в бд данные затирались. Типа заказ выполнен - долой его из бд. Причем часть приложений нормальная была, без таких глупостей, а часть нет. Все дампы скинуты в один котелок, в котором иногда нужно найти к примеру едрпу контрагента и понять мы вообще имели с ним дела в последние лет 20 или нет. В каком из подразделений, если да - то что делали. Как вишенка на торте часть документов это просто вордовский файлы с актами. Или ещё хуже акты накиданые в Экселе. Вообщем болото из кучи не структурированных данных.

Пока смотрим в сторону еластика и приложения для индексации которое бы делало doc=>txt

очень интересно. Смотрим — это попробовали запустить или просто думаете пока? (Я бы попробовал запустить прямо в лоб и посмотрел, что будет)

блин, тебе же даже вылить эти данные на удаленные серверы арендованные займет херову тучу времени! (50 terabytes) / (1 Gbps) = 4.62962963 days

кайф задача

источник

10:56пожаловаться #10

SG

Samat Galimov in ctodailychat

Konstantin Nosov

Есть много старых данных из кучи систем, наптсаных в разное время, которые бекапились методом дампов бд в SQL. И как вишенка на торте в бд данные затирались. Типа заказ выполнен - долой его из бд. Причем часть приложений нормальная была, без таких глупостей, а часть нет. Все дампы скинуты в один котелок, в котором иногда нужно найти к примеру едрпу контрагента и понять мы вообще имели с ним дела в последние лет 20 или нет. В каком из подразделений, если да - то что делали. Как вишенка на торте часть документов это просто вордовский файлы с актами. Или ещё хуже акты накиданые в Экселе. Вообщем болото из кучи не структурированных данных.

Пока смотрим в сторону еластика и приложения для индексации которое бы делало doc=>txt

https://fscrawler.readthedocs.io/en/latest/ видели наверняка? тогда кажется конвертировать не обязательно — он tika https://tika.apache.org/1.24.1/formats.html#Supported_Document_Formats под капотом использует

источник

10:59пожаловаться #11

O

Onlinehead in ctodailychat

то есть хочешь прям сам клавиатуру собрать, из кондеров, пружин и кусков пластмассы?

Да, именно.

источник

11:27пожаловаться #12

NK

Nikita Kulikov in ctodailychat

очень интересно. Смотрим — это попробовали запустить или просто думаете пока? (Я бы попробовал запустить прямо в лоб и посмотрел, что будет)

блин, тебе же даже вылить эти данные на удаленные серверы арендованные займет херову тучу времени! (50 terabytes) / (1 Gbps) = 4.62962963 days

кайф задача

У меня друг занимался миграцией данных в яндексе, там прям петабайты)))

источник

11:29пожаловаться #13

SZ

Sergey Zhuk in ctodailychat

мигрировали из private DC в AWS через чемоданчики AWS Snowball, там тоже были какие-то космические размеры данных, но и у амазона цены не дешевые))

источник

11:35пожаловаться #14

MS

Max Syabro in ctodailychat

парни, у меня тут memory leak в одном из сервисов который запущен в docker-compose
если я сделаю docker stop X; docker start X будут ли какие-то проблемы?

источник

11:44пожаловаться #15

A

Artur in ctodailychat

Да, именно.

ничего себе

источник

11:46пожаловаться #16

MS

Max Syabro in ctodailychat

ничего себе

на али куча деталей для этого

источник

11:47пожаловаться #17

MS

Max Syabro in ctodailychat

и в интернетах

источник

11:47пожаловаться #18

MS

Max Syabro in ctodailychat

думаю даже криворукий я собрал бы 🙂

источник

11:47пожаловаться #19

A

Artur in ctodailychat

ну я не знал, что такое есть вообще

источник

11:47пожаловаться #20