Телеграмм чат группы rlang

2019 November 22

АК

Артём Клевцов in R language and Statistical data analysis

Which indices are TRUE?

Description:

     Give the 'TRUE' indices of a logical object, allowing for array
     indices.

источник

11:52пожаловаться #1

AS

Alexander Semenov in R language and Statistical data analysis

Артём Клевцов

Хм, а в какуой думал?

Я про неё всегда вспоминал, когда мне нужно было выборку из датафрейма сделать.

источник

12:03пожаловаться #2

⌨

⌨️ in R language and Statistical data analysis

👁

разные задачи и их нужно как-то параллельно запускать, такой оператор отдает значение в окружение только после завершения цикла, а он бесконечный

Посмотрите в сторону future, может поможет.
Поддержу коллег и добавлю, что задачи с "бесконечным циклом" вряд ли подходят для R. Возможно, нужен отдельный сервис, выполняющий ваш "бесконечный цикл", и API к нему, через который вы будете получать необходимые результаты уже в R.

источник

12:35пожаловаться #3

АК

Артём Клевцов in R language and Statistical data analysis

Коллеги, мы с @konhis запилили пакет uchardet, который предназначен для автоматического определения кодировок. Пакет является обёрткой для C++ либы, разработанной Mozilla.

В качестве ввода может использоваться:
- строковый вектор (загруженный в память)
- строковый вектор с путями к файлам (функция будет пробегать по файлам без полной загнрузки файла в память)
- raw-вектор (загруженный в память)

Оригинальная либа поддерживает множество языков и кодировок. Подробности тут: https://www.freedesktop.org/wiki/Software/uchardet/

Основные юз-кейсы:
- определение кодировки текстовых файлов
- определение кодировка HTML-страниц
- исправление кодировки строковых векторов и последовательности байт

Сам пакет доступен в CRAN: https://cran.r-project.org/package=uchardet
Баги и реквесты можно постить сюда: https://gitlab.com/artemklevtsov/uchardet/issues
Вопросы можно задавать здесь.

Примечания.
1. Не гарантируется работа на Windows x86 (валится ряд тестов).
2. Есть проблемы при определении кодировок японского языка и некоторых других (upstream-баги).

Надеемся пакет будет удобен и полезен в работе.

источник

15:21пожаловаться #4

a

aGricolaMZ in R language and Statistical data analysis

вау!

источник

15:55пожаловаться #5

ЕТ

Евгений Томилов in R language and Statistical data analysis

Очень круто, теперь не надо лазить по разным веб-сервисам! Спасибо!

источник

15:56пожаловаться #6

A

Andrey in R language and Statistical data analysis

Артём Клевцов

Коллеги, мы с @konhis запилили пакет uchardet, который предназначен для автоматического определения кодировок. Пакет является обёрткой для C++ либы, разработанной Mozilla.

В качестве ввода может использоваться:
- строковый вектор (загруженный в память)
- строковый вектор с путями к файлам (функция будет пробегать по файлам без полной загнрузки файла в память)
- raw-вектор (загруженный в память)

Оригинальная либа поддерживает множество языков и кодировок. Подробности тут: https://www.freedesktop.org/wiki/Software/uchardet/

Основные юз-кейсы:
- определение кодировки текстовых файлов
- определение кодировка HTML-страниц
- исправление кодировки строковых векторов и последовательности байт

Сам пакет доступен в CRAN: https://cran.r-project.org/package=uchardet
Баги и реквесты можно постить сюда: https://gitlab.com/artemklevtsov/uchardet/issues
Вопросы можно задавать здесь.

Примечания.
1. Не гарантируется работа на Windows x86 (валится ряд тестов).
2. Есть проблемы при определении кодировок японского языка и некоторых других (upstream-баги).

Надеемся пакет будет удобен и полезен в работе.

Збс!

источник

15:57пожаловаться #7

АК

Артём Клевцов in R language and Statistical data analysis

Пакет в данный момент могу рекомендовать в качестве примера, т.к. вложил в него основные актуальные best practice по разработке: Rcpp, тесты (на разных платформах на базе непрерывной интеграции), анализатор кода, покрытие кода, генерация сайта с доками.

источник

16:02пожаловаться #8

a

aGricolaMZ in R language and Statistical data analysis

что я делаю не так? Почему он не может дотянуться дотуда?

install.packages("uchardet", repos = "https://cloud.r-project.org/")
Warning in install.packages :
  unable to access index for repository https://cloud.r-project.org/src/contrib:
  cannot open URL 'https://cloud.r-project.org/src/contrib/PACKAGES'
Installing package into ‘/home/agricolamz/R/x86_64-pc-linux-gnu-library/3.6’
(as ‘lib’ is unspecified)
Warning in install.packages :
  unable to access index for repository https://cloud.r-project.org/src/contrib:
  cannot open URL 'https://cloud.r-project.org/src/contrib/PACKAGES'
Warning in install.packages :
  package ‘uchardet’ is not available (for R version 3.6.1)

источник

16:04пожаловаться #9

a

aGricolaMZ in R language and Statistical data analysis

что-то совсем странное, на CRAN он есть, но, видимо, еще не проиндексировался или чего-то такое

источник

16:07пожаловаться #10

a

aGricolaMZ in R language and Statistical data analysis

Так теперь заработало

источник

16:08пожаловаться #11

AS

Alexey Seleznev in R language and Statistical data analysis

Артём Клевцов

Коллеги, мы с @konhis запилили пакет uchardet, который предназначен для автоматического определения кодировок. Пакет является обёрткой для C++ либы, разработанной Mozilla.

В качестве ввода может использоваться:
- строковый вектор (загруженный в память)
- строковый вектор с путями к файлам (функция будет пробегать по файлам без полной загнрузки файла в память)
- raw-вектор (загруженный в память)

Оригинальная либа поддерживает множество языков и кодировок. Подробности тут: https://www.freedesktop.org/wiki/Software/uchardet/

Основные юз-кейсы:
- определение кодировки текстовых файлов
- определение кодировка HTML-страниц
- исправление кодировки строковых векторов и последовательности байт

Сам пакет доступен в CRAN: https://cran.r-project.org/package=uchardet
Баги и реквесты можно постить сюда: https://gitlab.com/artemklevtsov/uchardet/issues
Вопросы можно задавать здесь.

Примечания.
1. Не гарантируется работа на Windows x86 (валится ряд тестов).
2. Есть проблемы при определении кодировок японского языка и некоторых других (upstream-баги).

Надеемся пакет будет удобен и полезен в работе.

ох ты ж

источник

16:09пожаловаться #12

AS

Alexey Seleznev in R language and Statistical data analysis

👍

источник

16:09пожаловаться #13

АК

Артём Клевцов in R language and Statistical data analysis

aGricolaMZ

что-то совсем странное, на CRAN он есть, но, видимо, еще не проиндексировался или чего-то такое

Если винда, то бинарники не сразу компилятся.

источник

16:10пожаловаться #14

⌨

⌨️ in R language and Statistical data analysis

Артём Клевцов

Если винда, то бинарники не сразу компилятся.

Это именно x86 на x86? Только что проверил: и x86, и x64 спокойно собралось под x64 виндой, никаких бубнов и плясок

источник

16:14пожаловаться #15

АК

Артём Клевцов in R language and Statistical data analysis

⌨️

Это именно x86 на x86? Только что проверил: и x86, и x64 спокойно собралось под x64 виндой, никаких бубнов и плясок

Под x86 не правильно детектор работает в ряде случаев.

источник

16:16пожаловаться #16

⌨

⌨️ in R language and Statistical data analysis

Артём Клевцов

Под x86 не правильно детектор работает в ряде случаев.

ясно, посмотрим как будет работать, спасибо

источник

16:17пожаловаться #17

a

aGricolaMZ in R language and Statistical data analysis

Артём Клевцов

Под x86 не правильно детектор работает в ряде случаев.

а что происходит, когда смесь?

x <- "fa\xE7ile"
detect_str_enc(x)
[1] "IBM852"
print(x)
[1] "fa\xe7ile"
iconv(x, "latin1", "UTF-8")
[1] "façile"

источник

16:17пожаловаться #18

AS

Alexander Semenov in R language and Statistical data analysis

Артём Клевцов

Коллеги, мы с @konhis запилили пакет uchardet, который предназначен для автоматического определения кодировок. Пакет является обёрткой для C++ либы, разработанной Mozilla.

В качестве ввода может использоваться:
- строковый вектор (загруженный в память)
- строковый вектор с путями к файлам (функция будет пробегать по файлам без полной загнрузки файла в память)
- raw-вектор (загруженный в память)

Оригинальная либа поддерживает множество языков и кодировок. Подробности тут: https://www.freedesktop.org/wiki/Software/uchardet/

Основные юз-кейсы:
- определение кодировки текстовых файлов
- определение кодировка HTML-страниц
- исправление кодировки строковых векторов и последовательности байт

Сам пакет доступен в CRAN: https://cran.r-project.org/package=uchardet
Баги и реквесты можно постить сюда: https://gitlab.com/artemklevtsov/uchardet/issues
Вопросы можно задавать здесь.

Примечания.
1. Не гарантируется работа на Windows x86 (валится ряд тестов).
2. Есть проблемы при определении кодировок японского языка и некоторых других (upstream-баги).

Надеемся пакет будет удобен и полезен в работе.

Суровые же вы ребята...

источник

16:23пожаловаться #19

АК

Артём Клевцов in R language and Statistical data analysis

aGricolaMZ

а что происходит, когда смесь?

x <- "fa\xE7ile"
detect_str_enc(x)
[1] "IBM852"
print(x)
[1] "fa\xe7ile"
iconv(x, "latin1", "UTF-8")
[1] "façile"

У тебя тут 1 байт всего - остальное ascii. Там внутри модели для языков и кодировок.

источник

16:24пожаловаться #20