Size: a a a

R language and Statistical data analysis

2019 November 22

АК

Артём Клевцов in R language and Statistical data analysis
Which indices are TRUE?

Description:

    Give the 'TRUE' indices of a logical object, allowing for array
    indices.
источник

AS

Alexander Semenov in R language and Statistical data analysis
Артём Клевцов
Хм, а в какуой думал?
Я про неё всегда вспоминал, когда мне нужно было выборку из датафрейма сделать.
источник

⌨️ in R language and Statistical data analysis
👁
разные задачи и их нужно как-то параллельно запускать, такой оператор отдает значение в окружение только после завершения цикла, а он бесконечный
Посмотрите в сторону future, может поможет.
Поддержу коллег и добавлю, что задачи с "бесконечным циклом" вряд ли подходят для R. Возможно, нужен отдельный сервис, выполняющий ваш "бесконечный цикл", и API к нему, через который вы будете получать необходимые результаты уже в R.
источник

АК

Артём Клевцов in R language and Statistical data analysis
Коллеги, мы с @konhis запилили пакет uchardet, который предназначен для автоматического определения кодировок. Пакет является обёрткой для C++ либы, разработанной Mozilla.

В качестве ввода может использоваться:
- строковый вектор (загруженный в память)
- строковый вектор с путями к файлам (функция будет пробегать по файлам без полной загнрузки файла в память)
- raw-вектор (загруженный в память)

Оригинальная либа поддерживает множество языков и кодировок. Подробности тут: https://www.freedesktop.org/wiki/Software/uchardet/

Основные юз-кейсы:
- определение кодировки текстовых файлов
- определение кодировка HTML-страниц
- исправление кодировки строковых векторов и последовательности байт

Сам пакет доступен в CRAN: https://cran.r-project.org/package=uchardet
Баги и реквесты можно постить сюда: https://gitlab.com/artemklevtsov/uchardet/issues
Вопросы можно задавать здесь.

Примечания.
1. Не гарантируется работа на Windows x86 (валится ряд тестов).
2. Есть проблемы при определении кодировок японского языка и некоторых других (upstream-баги).

Надеемся пакет будет удобен и  полезен в работе.
источник

a

aGricolaMZ in R language and Statistical data analysis
вау!
источник

ЕТ

Евгений Томилов in R language and Statistical data analysis
Очень круто, теперь не надо лазить по разным веб-сервисам! Спасибо!
источник

A

Andrey in R language and Statistical data analysis
Артём Клевцов
Коллеги, мы с @konhis запилили пакет uchardet, который предназначен для автоматического определения кодировок. Пакет является обёрткой для C++ либы, разработанной Mozilla.

В качестве ввода может использоваться:
- строковый вектор (загруженный в память)
- строковый вектор с путями к файлам (функция будет пробегать по файлам без полной загнрузки файла в память)
- raw-вектор (загруженный в память)

Оригинальная либа поддерживает множество языков и кодировок. Подробности тут: https://www.freedesktop.org/wiki/Software/uchardet/

Основные юз-кейсы:
- определение кодировки текстовых файлов
- определение кодировка HTML-страниц
- исправление кодировки строковых векторов и последовательности байт

Сам пакет доступен в CRAN: https://cran.r-project.org/package=uchardet
Баги и реквесты можно постить сюда: https://gitlab.com/artemklevtsov/uchardet/issues
Вопросы можно задавать здесь.

Примечания.
1. Не гарантируется работа на Windows x86 (валится ряд тестов).
2. Есть проблемы при определении кодировок японского языка и некоторых других (upstream-баги).

Надеемся пакет будет удобен и  полезен в работе.
Збс!
источник

АК

Артём Клевцов in R language and Statistical data analysis
Пакет в данный момент могу рекомендовать в качестве примера, т.к. вложил в него основные актуальные best practice по разработке: Rcpp, тесты (на разных платформах на базе непрерывной интеграции), анализатор кода, покрытие кода, генерация сайта с доками.
источник

a

aGricolaMZ in R language and Statistical data analysis
что я делаю не так? Почему он не может дотянуться дотуда?

install.packages("uchardet", repos = "https://cloud.r-project.org/")
Warning in install.packages :
 unable to access index for repository https://cloud.r-project.org/src/contrib:
 cannot open URL 'https://cloud.r-project.org/src/contrib/PACKAGES'
Installing package into ‘/home/agricolamz/R/x86_64-pc-linux-gnu-library/3.6’
(as ‘lib’ is unspecified)
Warning in install.packages :
 unable to access index for repository https://cloud.r-project.org/src/contrib:
 cannot open URL 'https://cloud.r-project.org/src/contrib/PACKAGES'
Warning in install.packages :
 package ‘uchardet’ is not available (for R version 3.6.1)
источник

a

aGricolaMZ in R language and Statistical data analysis
что-то совсем странное, на CRAN он есть, но, видимо,  еще не проиндексировался или чего-то такое
источник

a

aGricolaMZ in R language and Statistical data analysis
Так теперь заработало
источник

AS

Alexey Seleznev in R language and Statistical data analysis
Артём Клевцов
Коллеги, мы с @konhis запилили пакет uchardet, который предназначен для автоматического определения кодировок. Пакет является обёрткой для C++ либы, разработанной Mozilla.

В качестве ввода может использоваться:
- строковый вектор (загруженный в память)
- строковый вектор с путями к файлам (функция будет пробегать по файлам без полной загнрузки файла в память)
- raw-вектор (загруженный в память)

Оригинальная либа поддерживает множество языков и кодировок. Подробности тут: https://www.freedesktop.org/wiki/Software/uchardet/

Основные юз-кейсы:
- определение кодировки текстовых файлов
- определение кодировка HTML-страниц
- исправление кодировки строковых векторов и последовательности байт

Сам пакет доступен в CRAN: https://cran.r-project.org/package=uchardet
Баги и реквесты можно постить сюда: https://gitlab.com/artemklevtsov/uchardet/issues
Вопросы можно задавать здесь.

Примечания.
1. Не гарантируется работа на Windows x86 (валится ряд тестов).
2. Есть проблемы при определении кодировок японского языка и некоторых других (upstream-баги).

Надеемся пакет будет удобен и  полезен в работе.
ох ты ж
источник

AS

Alexey Seleznev in R language and Statistical data analysis
👍
источник

АК

Артём Клевцов in R language and Statistical data analysis
aGricolaMZ
что-то совсем странное, на CRAN он есть, но, видимо,  еще не проиндексировался или чего-то такое
Если винда, то бинарники не сразу компилятся.
источник

⌨️ in R language and Statistical data analysis
Артём Клевцов
Если винда, то бинарники не сразу компилятся.
Это именно x86 на x86? Только что проверил: и x86, и x64 спокойно собралось под x64  виндой, никаких бубнов и плясок
источник

АК

Артём Клевцов in R language and Statistical data analysis
⌨️
Это именно x86 на x86? Только что проверил: и x86, и x64 спокойно собралось под x64  виндой, никаких бубнов и плясок
Под x86 не правильно детектор работает в ряде случаев.
источник

⌨️ in R language and Statistical data analysis
Артём Клевцов
Под x86 не правильно детектор работает в ряде случаев.
ясно, посмотрим как будет работать, спасибо
источник

a

aGricolaMZ in R language and Statistical data analysis
Артём Клевцов
Под x86 не правильно детектор работает в ряде случаев.
а что происходит, когда смесь?

x <- "fa\xE7ile"
detect_str_enc(x)
[1] "IBM852"
print(x)
[1] "fa\xe7ile"
iconv(x, "latin1", "UTF-8")
[1] "façile"
источник

AS

Alexander Semenov in R language and Statistical data analysis
Артём Клевцов
Коллеги, мы с @konhis запилили пакет uchardet, который предназначен для автоматического определения кодировок. Пакет является обёрткой для C++ либы, разработанной Mozilla.

В качестве ввода может использоваться:
- строковый вектор (загруженный в память)
- строковый вектор с путями к файлам (функция будет пробегать по файлам без полной загнрузки файла в память)
- raw-вектор (загруженный в память)

Оригинальная либа поддерживает множество языков и кодировок. Подробности тут: https://www.freedesktop.org/wiki/Software/uchardet/

Основные юз-кейсы:
- определение кодировки текстовых файлов
- определение кодировка HTML-страниц
- исправление кодировки строковых векторов и последовательности байт

Сам пакет доступен в CRAN: https://cran.r-project.org/package=uchardet
Баги и реквесты можно постить сюда: https://gitlab.com/artemklevtsov/uchardet/issues
Вопросы можно задавать здесь.

Примечания.
1. Не гарантируется работа на Windows x86 (валится ряд тестов).
2. Есть проблемы при определении кодировок японского языка и некоторых других (upstream-баги).

Надеемся пакет будет удобен и  полезен в работе.
Суровые же вы ребята...
источник

АК

Артём Клевцов in R language and Statistical data analysis
aGricolaMZ
а что происходит, когда смесь?

x <- "fa\xE7ile"
detect_str_enc(x)
[1] "IBM852"
print(x)
[1] "fa\xe7ile"
iconv(x, "latin1", "UTF-8")
[1] "façile"
У тебя тут 1 байт всего - остальное ascii. Там внутри модели для языков и кодировок.
источник