Size: a a a

Секта свидетелей марафона

2021 March 24

M

Mdevostator in Секта свидетелей марафона
ivolga
В вебмастере яндекса полезли в выдачу страницы с хвостом /embed - это после обновления вордпресса походу, у кого то есть такое? как закрываете?
А каконикал что показывает?
источник

i

ivolga in Секта свидетелей марафона
Mdevostator
А каконикал что показывает?
нормальный, но раньше вордпресс таких урезанных страничек не генерил, не хочется, чтобы по лишним страницам робот мотался все равно
источник
2021 March 25

c

censored! in Секта свидетелей марафона
Alexander Bukreev
Не. Это то, что работает.

Про прототип не дописал. Мы доделывали для 1 проекта дополнительный фокус. Собирали не только сами заголовки, но и тексты под ними и сравнивали их между собой. То есть если заголовки разные, но тексты под ними схожи на 70%+, то скорее всего это синонимы. И это просто +1 этап. но так и не добрались добавить эту штуку в Бонику.
Интересная реализация!
p.s. Но больше интересен подход как такое сравнение работает (на 70%)? (стемер портера, через яндекс.мустим, машинное обучение)?
p.s.s. не конкурент, просто интересующийся.
источник

AB

Alexander Bukreev in Секта свидетелей марафона
censored!
Интересная реализация!
p.s. Но больше интересен подход как такое сравнение работает (на 70%)? (стемер портера, через яндекс.мустим, машинное обучение)?
p.s.s. не конкурент, просто интересующийся.
Не оч понятен вопрос. Как сделана лемматизация? По словарям корпуса русского языка. Как делается сравнение? Любой алгоритм сравнения текстов (поиска уникальности)
источник

M

Mdevostator in Секта свидетелей марафона
Alexander Bukreev
Не оч понятен вопрос. Как сделана лемматизация? По словарям корпуса русского языка. Как делается сравнение? Любой алгоритм сравнения текстов (поиска уникальности)
А как делается выборка самого длинного заголовка?
источник

r

raiseskills in Секта свидетелей марафона
Вебмастерскую смотрите?
источник

А

Александр in Секта свидетелей марафона
Новый инструмент появился, не видел раньше
источник

AS

Anatoliy Sevruk in Секта свидетелей марафона
Александр
Новый инструмент появился, не видел раньше
Так его раньше не было 😃
источник

c

censored! in Секта свидетелей марафона
Alexander Bukreev
Не оч понятен вопрос. Как сделана лемматизация? По словарям корпуса русского языка. Как делается сравнение? Любой алгоритм сравнения текстов (поиска уникальности)
Да, спасибо. А какой словарь используете? Или онлайн результаты парсите?
источник

M

Mdevostator in Секта свидетелей марафона
Александр
Новый инструмент появился, не видел раньше
спасибо
источник

AB

Alexander Bukreev in Секта свидетелей марафона
Mdevostator
А как делается выборка самого длинного заголовка?
Так по тому же алгоритму уникальности, но в рамках заголовков между собой. Это чуть проще и сильно быстрее, чем куски текста сравнивать. Но смысл тот же.
источник

M

Mdevostator in Секта свидетелей марафона
Alexander Bukreev
Так по тому же алгоритму уникальности, но в рамках заголовков между собой. Это чуть проще и сильно быстрее, чем куски текста сравнивать. Но смысл тот же.
аа
источник

M

Mdevostator in Секта свидетелей марафона
👍
источник

AB

Alexander Bukreev in Секта свидетелей марафона
censored!
Да, спасибо. А какой словарь используете? Или онлайн результаты парсите?
Онлайн - это как? Это же жопа будет полная по скорости. 😊

Ну давай прикинем. Если у нас средний текст 8к символов, это 1000 слов. Сооветственно ~800 триграмм (и слов) в тексте. (вычли стоп-слова и лемматизировали текст).
Мы берём для заголовков топ20. То есть 800 * 20 = 16к слов лемматризировали. Даже если онлайн будет за 100мс/слово, то 16к слов лемматизация займёт 1600 секунд. Это 26 минут. Это на 1 план текста.
источник

AB

Alexander Bukreev in Секта свидетелей марафона
Ну можно срезать на то, что слова повторяются. допустим 50%. 13 минут. На 1 план. 😊
источник

AB

Alexander Bukreev in Секта свидетелей марафона
И это только лемматизация, без парсинга/чистки/сбора контента 😊 Ну и самого алгоритма сравнения. :_)
источник

AB

Alexander Bukreev in Секта свидетелей марафона
так себе бизнес-план выходит...
источник

c

censored! in Секта свидетелей марафона
Alexander Bukreev
Онлайн - это как? Это же жопа будет полная по скорости. 😊

Ну давай прикинем. Если у нас средний текст 8к символов, это 1000 слов. Сооветственно ~800 триграмм (и слов) в тексте. (вычли стоп-слова и лемматизировали текст).
Мы берём для заголовков топ20. То есть 800 * 20 = 16к слов лемматризировали. Даже если онлайн будет за 100мс/слово, то 16к слов лемматизация займёт 1600 секунд. Это 26 минут. Это на 1 план текста.
Поэтому и спросил - какой словарь используете :)
источник

AB

Alexander Bukreev in Секта свидетелей марафона
censored!
Поэтому и спросил - какой словарь используете :)
Так он вроде 1... Нет? "По словарям корпуса русского языка. "
источник

AB

Alexander Bukreev in Секта свидетелей марафона
Мы эту штуку года 3-4 назад делали. Что, появились новые словари?
источник