Size: a a a

Natural Language Processing

2021 January 29

AE

Anton Eryomin in Natural Language Processing
нуууу это вообще странная задача, я бы не хотел бы иметь кучу переводов на какой-то целевой текст
источник

Eg

Elena gisly in Natural Language Processing
Anton Eryomin
нуууу это вообще странная задача, я бы не хотел бы иметь кучу переводов на какой-то целевой текст
имеется в виду сбор параллельных текстов на какую-то пару языков (не по целевым текстам, а по целевым языкам)
источник

AE

Anton Eryomin in Natural Language Processing
а цель-то какая ? просот мне кажется все что связано с переводами ты либо доверяешь 1 сервису (например гугл транслейту) либо переводчику. во всех остальных случаях это какой-то мартышкин труд
источник

Eg

Elena gisly in Natural Language Processing
Anton Eryomin
а цель-то какая ? просот мне кажется все что связано с переводами ты либо доверяешь 1 сервису (например гугл транслейту) либо переводчику. во всех остальных случаях это какой-то мартышкин труд
сделать свой гугл-транслейт )
ну на самом деле может быть какая-то аналитическая цель, может, я исследователь стилистики переводов
источник

AE

Anton Eryomin in Natural Language Processing
тогда это крайне нишевый продукт
источник

AL

Alexey Lemeshevski in Natural Language Processing
Антон, осенью был "1й национальный конгресс по ИИ" - там была постерная сессия - почти все собирали какие-то данные под свои работы. Но, я по себе знаю, что когда ты хочешь заниматься разработкой алгоритма, а вынужден собирать данные - это сильно печалит ) и качество сбора все же ниже, чем если бы собирал тот, кто это делает постоянно ) ...но, ученым это не продать ) если только из личного интереса делать )
источник

AE

Anton Eryomin in Natural Language Processing
Я очень хорошо понимаю тот факт, что 90% а может и все 99% успеха модели это в первую очередь данные. Другое дело, что именно должно решаться это вот бооооольшой вопрос.
источник

AL

Alexey Lemeshevski in Natural Language Processing
в том то и дело )
источник

N

Natalia in Natural Language Processing
Anton Eryomin
а цель-то какая ? просот мне кажется все что связано с переводами ты либо доверяешь 1 сервису (например гугл транслейту) либо переводчику. во всех остальных случаях это какой-то мартышкин труд
в смысле? для любого соревнования по МТ могут пригодиться доп. данные, а уж тем более чистые. можно файнтьюнить чужую модель на чём-то конкретном, можно собирать корпуса в конкретном домене и т.п.
источник

NK

Nikolay Karelin in Natural Language Processing
Alexey Lemeshevski
вот и я ищу - зачем :)
Ну например сюда можно пойти работу работать: https://www.scrapinghub.com/jobs/
источник

NK

Nikolay Karelin in Natural Language Processing
(я не из scrapinghub, просто давно при них знаю)
источник

AL

Alexey Lemeshevski in Natural Language Processing
я хочу быть их конкурентом, а не работать с ними ))
источник

NK

Nikolay Karelin in Natural Language Processing
Alexey Lemeshevski
я хочу быть их конкурентом, а не работать с ними ))
Ню-ню. Тогда надой найти много $$$ на сервера, разработчиков, сервера и поддержку. Или начать с заказов по скрапингу (и возможно постобработке), снова для развития деловой. а не технической компетенции. Или поработать в уже живом бизнесе. а потом уйти делать свой.
источник

YB

Yuri Baburov in Natural Language Processing
Nikolay Karelin
Ню-ню. Тогда надой найти много $$$ на сервера, разработчиков, сервера и поддержку. Или начать с заказов по скрапингу (и возможно постобработке), снова для развития деловой. а не технической компетенции. Или поработать в уже живом бизнесе. а потом уйти делать свой.
ну вот Алексей и спрашивает про заказы.
источник

YB

Yuri Baburov in Natural Language Processing
Сергей Марков рассказывает
про Fine-tuning больших языковых моделей
https://us02web.zoom.us/j/88301991162?pwd=MUlYaGVQZ2lLczcvd1FnWFVRTWkyUT09
прямо сейчас
источник

I

Iv in Natural Language Processing
А запись будет?
источник

NK

Nikolay Karelin in Natural Language Processing
Iv
А запись будет?
По крайней мере выступление записывается
источник

I

Iv in Natural Language Processing
Да, я вижу) просто не сначала подключился
источник

AL

Alexey Lemeshevski in Natural Language Processing
Nikolay Karelin
Ню-ню. Тогда надой найти много $$$ на сервера, разработчиков, сервера и поддержку. Или начать с заказов по скрапингу (и возможно постобработке), снова для развития деловой. а не технической компетенции. Или поработать в уже живом бизнесе. а потом уйти делать свой.
Вот вы подстебываете (хотя я выше писал, что давно в теме), а я придумал, чем могу быть полезен сообществу nlp'шников :) ...могу же сдавать в аренду готовую инфраструктуру и поискового робота, который обходит тысячи, десятки тысяч сайтов - в задачах, где нужна проверка моделей/алгоритмов на случайных данных :) ...в исследовательских задачах.

Обычного парсинга на рынке куча ... )
источник

AO

Alex Orgish in Natural Language Processing
Alexey Lemeshevski
на примере новостей - это что-то типа:
- найти 5000 новостных сайтов
- автоматически выделить текст новости, заголовок, автора, дату, ссылки (если есть), категорию новости в пределах сайта
- собрать чистый датасет, с выделением каждого поля в отдельную колонку; без мусора из html-тэгов и т.п. )
https://www.gdeltproject.org/ 50k новостных сайтов на 100+ языках, обновление каждые 15 мин, выделение сущностей и событий, аналитика. Кроме текстовых новостей анализируются и видео-новости. Все это бесплатно.
источник