Size: a a a

2020 April 22

AZ

Arthur Zalevsky in Science FYI
извините, но не я начал про поиск истины в 30к источниках знания про ковид.

Calculating the binding energy, the docking
pose with the highest binding energy (7,530,186,265.80kcal/mol) was accepted. <...>
which is the molecular model of E2 glycoprotein binds to the porphyrin.

>7,530,186,265.80kcal/mol

>7 530 186 265.80kcal/mol

>7.5 * 10^9 kcal/mol

>7.5 BILLIONS KCAL/MOL

>glycoprotein binds to the porphyrin.

https://chemrxiv.org/articles/COVID-19_Disease_ORF8_and_Surface_Glycoprotein_Inhibit_Heme_Metabolism_by_Binding_to_Porphyrin/11938173

что характерно, альтметрика ~8к
источник

T

Tanya in Science FYI
тут же про это уже было
источник

PV

Peter Vanin in Science FYI
Tanya
Вот вы тут выше упоминали про cord-19, у них есть страничка с поиском https://cord-19.apps.allenai.org/ и если что-нибудь наберете в строке поиска, то увидите, что там не только статьи про коронавирус, там разное среди этих 30к статей. Например, такая статья 2007 года https://www.obstetrics-gynaecology-journal.com/article/S1751-7214(07)00055-3/fulltext
- это я pregnancy в поиске вбила, одна из первых ссылок в выдаче.
Там идея в том, чтобы объединить знания по коронавирусу с тем, что уже было известно раньше и увидеть что-то, что никто глазами в этой куче не увидит)
Чем хорош датасет? Например, можно попробовать с помощью классического nlp (или даже просто ключевых слов) офильтровать статьи, где упоминаются данные интересного вам типа, попробовать вытащить контакты corresponding авторов и попросить поделиться данными (индивидуальной массовой рассылкой письма с просьбой, которую можно сделать каким-нибудь скриптом) - а вдруг прокатит и кто-то поделится)
Еще можно попробовать поискать циклические цитирования, если там можно вытащить цитирования - все же пользуются ситуацией и публикуются как не в себя, вдруг там и такие недобросовестные товарищи есть) Можно поискать какие-то противоречия в работах (или работы-аутлайеры) и попробовать дальше разобраться в них, что-то еще интересное придумать.

На kaggle скорее всего большинство блокнотов с ответами на вопросы просто с бессмысленным EDA - потому что задачи слишком общие и там большинство ограничатся решением этих задач «в лоб», да и хороший сторителлинг - это нетривиально (
Спасибо вам за неленивость, верно сказали то что я не решился, предположив что это легко осознаваемый вывод (дрянное "это же очевидно").
источник

PV

Peter Vanin in Science FYI
О чем и говорю - грамотно построенная машина позволила бы каждому прочитать все эти статьи, а точнее получить возможность выжать любую информацию. Руками перелопачивать множество записей конечно можно, но разве это разумная трата времени? Имея же подобную базу и функционал обработки информации из нее, можно делать что угодно. Самих потенциальных полезных выводов из самых различных схем запросов можно выжать огромное количество
источник

R

Rafael Grigoryan in Science FYI
Вот еще хороший датасет для боевого нлп
источник

PV

Peter Vanin in Science FYI
И главная мысль здесь - человеку его работу, машине её.
Человек мыслит, машина перелопачивает терабайты информации по вопросу, который обдумал и осознал человек
источник

PV

Peter Vanin in Science FYI
Ну или иными словами, грубо но более правдиво - если человек не может извлекать выгоду из информационного потока, понимать его, то какая речь может быть о разумности вообще, тем более об информатике? Эволюция, ребятки, или издержки кпд вас сожрють
источник

AB

Alex Beliavskaia in Science FYI
Теоретически я вам возразить не могу, но конкретный проект бесполезный. Зачем анализировать литературу по возможным вакцинам, если уже разработано не меньше десяти? И люди, которые их делают, знают эту всю литературу гораздо лучше, чем машинное обучение.
источник

AB

Alex Beliavskaia in Science FYI
А главное могут отсеять шлак. А ии пока не дорос.
источник

PV

Peter Vanin in Science FYI
Именно поэтому ИИ должен быть синергичным
источник

PV

Peter Vanin in Science FYI
Точнее..
источник

R

Rafael Grigoryan in Science FYI
Так может просто поток говно
источник

R

Rafael Grigoryan in Science FYI
Надо сделать нормальный поток
источник

PV

Peter Vanin in Science FYI
Крайне недолюбливаю это наименование - "ии", это же ведь просто автоматика. Я согласен с тем что конкретные задачи уже выполнены. Хотя ради занудства следует уточнить что люди не самый надежный способ хранения информации (для справедливости - юрлица еще менее надежный), и потому те кто знают что-либо дублируют это, в идеале так чтобы потеряв память прочесть и понять что и о чем.
Оспаривать-спорить про (бес)полезность очередного ml стартапа не стану, но дискурс вышел знатный, хотя и ожидалось гораздо больше жареного
источник

R

Rafael Grigoryan in Science FYI
Хотя бы в препринтах принудительно автоматизировано проверять дизайн и статистику перед загрузкой, уже столько проблем снимется.
источник

PV

Peter Vanin in Science FYI
Короче, публикации и библиотеки не просто так изобрели
источник

AB

Alex Beliavskaia in Science FYI
Peter Vanin
Крайне недолюбливаю это наименование - "ии", это же ведь просто автоматика. Я согласен с тем что конкретные задачи уже выполнены. Хотя ради занудства следует уточнить что люди не самый надежный способ хранения информации (для справедливости - юрлица еще менее надежный), и потому те кто знают что-либо дублируют это, в идеале так чтобы потеряв память прочесть и понять что и о чем.
Оспаривать-спорить про (бес)полезность очередного ml стартапа не стану, но дискурс вышел знатный, хотя и ожидалось гораздо больше жареного
Бггг, а пачка непрофессионалов вооруженная чем-то там — это надежно. Как швейцарские часы.
источник

AB

Alex Beliavskaia in Science FYI
Rafael Grigoryan
Хотя бы в препринтах принудительно автоматизировано проверять дизайн и статистику перед загрузкой, уже столько проблем снимется.
А как?
источник

PV

Peter Vanin in Science FYI
Alex Beliavskaia
Бггг, а пачка непрофессионалов вооруженная чем-то там — это надежно. Как швейцарские часы.
зачот, но уже перестаю чувствовать грань где нужно писать вот совсем капитански
источник

R

Rafael Grigoryan in Science FYI
У психологов уже есть бот, который ходит по статьям и ругается, если мощности не хватает. Это костыль, конечно, но можно сделать систему, которая заставляет описывать статистику в машиночитаемом виде и валидирует ее.  На openneuro сейчас технически невозможно загрузить датасет, если он не в правильном формате, тут такая же логика.
источник