Телеграмм чат группы modernperl страница 9307

венесите use encode за пределы теста и замените на encode_utf8, чтобы честно было

19:02пожаловаться #1

Надо ведь просто тесты по много раз запускать и усреднять, и доверительный интервал считать

19:02пожаловаться #2

вообще честно что строка уже точно UTF-8 до замера её длины

19:04пожаловаться #3

сейчас попробую без xs

19:04пожаловаться #4

             Rate encode  svref   utf8  bytes

encode   166779/s     --   -91%   -98%   -99%
svref   1827673/s   996%     --   -80%   -85%
utf8    9282929/s  5466%   408%     --   -25%
bytes  12320105/s  7287%   574%    33%     --

19:06пожаловаться #5

Ну, в общем, bytes похоже решает всё же

19:07пожаловаться #6

а падажжи

19:07пожаловаться #7

чому у тебя utf8 => sub { $out = utf8::upgrade($in) },

19:07пожаловаться #8

а длина где?

19:07пожаловаться #9

$num_octets = utf8::upgrade($string) If $string is already upgraded, then this is a no-op. Returns the number of octets necessary to represent the string as UTF-8.

19:08пожаловаться #10

а, ишь

19:10пожаловаться #11

так вижу задачу
perl -MBenchmark=/./ -MB=svref_2object -MEncode -Mstrict -Mwarnings -Mutf8 -CSD -le 'my ($in, $out) = Encode::encode(q(UTF-8), qq(\N{GREEK SMALL LETTER SIGMA}x1000)); cmpthese -1 => {bytes => sub { {use bytes; $out = length $in } }, utf8 => sub { $out = utf8::upgrade($in) }, already => sub { $out = length($in) }, svref => sub { $out = svref_2
object(\$in)->CUR }, }'

              Rate   svref    utf8   bytes already
svref    2994789/s      --    -76%    -88%    -91%
utf8    12570647/s    320%      --    -49%    -61%
bytes   24653041/s    723%     96%      --    -23%
already 31913183/s    966%    154%     29%      --

19:39пожаловаться #12

Нене, по условию изначально длина считается по utf8 символами

19:42пожаловаться #13

мм, нет: "нечто генерируют строку добавляя к ней куски текста, надо прекратить, как только длина в байтах результата превысит заданный порог."
байты тут чего и куда? они не используются потом? так не бывает. они куда-то пишутся

19:45пожаловаться #14

Смотри: у тебя есть $buf, в который периодически делается .= $newtext. После каждого такого добавления надо проверить длину в байтах. Получается $buf нельзя энкодить заранее.
Хотя конечно если сразу всё энкодить... но это спорно: некоторые дб модули энкодят в любом случае, например, и им нужны данные во внутреннем формате

19:57пожаловаться #15

Artem Tepponen in Modern::Perl

А что у вас за процы? А то у меня вот так (perl 34.0)

perl -MBenchmark=/./ -MB=svref_2object -MEncode -Mstrict -Mwarnings -Mutf8 -CSD -le 'my ($in, $out) = Encode::encode(q(UTF-8), qq(\N{GREEK SMALL LETTER SIGMA}x1000)); cmpthese -1 => {bytes => sub { {use bytes; $out = length $in } }, utf8 => sub { $out = utf8::upgrade($in) }, already => sub { $out = length($in) }, svref => sub { $out = svref_2object(\$in)->CUR }, }'
               Rate   svref    utf8   bytes already
svref     6313100/s      --    -80%    -90%    -96%
utf8     31959500/s    406%      --    -48%    -81%
bytes    61008058/s    866%     91%      --    -64%
already 168574897/s   2570%    427%    176%      --

20:07пожаловаться #16

Artem Tepponen in Modern::Perl

И это довольно старый i7-7700k, чот дохрена разница в скорости

20:08пожаловаться #17

последнее я на Intel(R) Core(TM) i3-7350K CPU @ 4.20GHz запускал, тестовый сервер

20:13пожаловаться #18

Artem Tepponen in Modern::Perl

Хмм. Очень странная разница в 2-5 раз

20:14пожаловаться #19

-1 это какая-то там процессорная секунда, я не знаю что это