Size: a a a

R (язык программирования)

2021 May 20

IS

Ilya Shutov in R (язык программирования)
Как-то расплывчато.
Есть возражения против https://reprex.tidyverse.org/index.html ?
источник

ГД

Григорий Демин... in R (язык программирования)
кстати, хорошая идея...
источник

IS

Ilya Shutov in R (язык программирования)
очень часто регулярки являются шагом 0.

Причем ручной частотный анализ токенов позволяет интерактивно подобрать типовые ошибки и написать минимальный набор регулярок. так что после них текст начинает выглядеть очень чистым.

ручная аналитическая петля при исследовании задачи
он очень хорошо позволяет выцепить неграмотность писателей (например, инциденты, открываемые грузчиками и курьерами...) и типичные ошибки — тут вообще логики никакой не существует. только факты
источник

a

aGricolaMZ in R (язык программирования)
я согласен, но все это пятьдесят раз повторять из правил чата уже нет сил... Ну и Илья так увлеченно всем тут теперь помогает. Но да, нужно быть друг к другу нежнее.
источник

IS

Ivan Struzhkov in R (язык программирования)
я без регулярок не хожу анализировать тексты. LDA и прочее это все весело, но вот пара часов руками пописать регулярок и посмотреть что получается - дают прям хорошее понимание.

А в случае когда уже известно что хочешь найти и вопрос на 10 слов важных - то часто проще ими вытащить
источник

IS

Ilya Shutov in R (язык программирования)
1000 раз ДА.
источник

AS

Alexander Semenov in R (язык программирования)
Мсье знают толк.
источник

ГД

Григорий Демин... in R (язык программирования)
Если именно в вашей постановке, то вот так выглядит:

library(stringdist)
a = c('my home', 'this flower', 'warm heart')
b = c('home empty', 'dog', 'war')

lcs = (nchar(a) + nchar(b) - stringdist(a, b, method = "lcs"))/2
lcs
# 4 1 3
источник

AA

A.K. A.K. in R (язык программирования)
вот ещё можно здесь что-то покапаться
Если нам нужно найти слова , которые встречаются 2 раза , то findFreqTerms(corpus_dtm, 2)
источник

AA

A.K. A.K. in R (язык программирования)
a = c("my home", 'this flower', 'warm heart', "warmer", "homework", "no home", "yes home")
b = c('home empty', 'dog', 'black dog', "hot dog", "black cat", "homeworks", "homes", "homea",  "home drink")


ab <- c(a, b)


corpus <- VCorpus(VectorSource(ab))
inspect(corpus)

corpus_clean <- tm_map(corpus, content_transformer(tolower))

corpus_clean <- tm_map(corpus_clean, removeWords, stopwords())


corpus_clean <- tm_map(corpus_clean, stemDocument)

corpus_clean <- tm_map(corpus_clean, stripWhitespace)

corpus_dtm <- DocumentTermMatrix(corpus_clean)


findFreqTerms(corpus_dtm, 6)
источник

AA

A.K. A.K. in R (язык программирования)
> findFreqTerms(corpus_dtm, 2)
[1] "black"    "dog"      "home"     "homework"
источник

E

Eкатерина in R (язык программирования)
Здравствуйте! у меня есть число 510, как мне поставить точку после 5, чтобы получилось 5.1
Разделить на 100 не предлагать)) цифры разные по дине в данных. нужна точка после первого числа
источник

PU

Philipp Upravitelev in R (язык программирования)
переведите в строку и замените регуляркой. а потом переведите в нумерик
источник

PU

Philipp Upravitelev in R (язык программирования)
это если совсем брутфорс
источник

E

Eкатерина in R (язык программирования)
спасибо, разобралась
источник

YS

Yuriy Saraikin in R (язык программирования)
так не пойдет?
nmb <- c(510, 1020, 35416)
nmb_new <- nmb / 10 ^ (nchar(nmb) - 1)
источник

IS

Ilya Shutov in R (язык программирования)
Точка после первой цифры, наверное? А результат какой? Число или строка? В примере из 510 получен 5.1 - погашены незначащие нули. Похоже на форматный вывод. В таком случае регулярки — отличный вариант
источник

E

Eкатерина in R (язык программирования)
да, после первой цифры, неправильно выразилась. Но ответ уже нашла на свой вопрос
источник

IS

Ilya Shutov in R (язык программирования)
И какой ответ? Задать нечеткий  вопрос, получить ответы, сказать что не то и что ответ найден. В следующий раз может никто и не станет помогать — все равно не то.
источник

E

Eкатерина in R (язык программирования)
После того, как Philipp Upravitelev написал мне ответ про регулярные выражения , стало ясно, что искать, и я нашла решение. я написала в ответ на его ответ спасибо)
надеюсь, что тут и дальше будут отвечать на мои вопросы, если они будут возникать, не хотела никому причинять неудобств)
ответ был тут https://stackoverflow.com/questions/13863599/insert-a-character-at-a-specific-location-in-a-string
источник