Вот вы тут выше упоминали про cord-19, у них есть страничка с поиском
https://cord-19.apps.allenai.org/ и если что-нибудь наберете в строке поиска, то увидите, что там не только статьи про коронавирус, там разное среди этих 30к статей. Например, такая статья 2007 года
https://www.obstetrics-gynaecology-journal.com/article/S1751-7214(07)00055-3/fulltext- это я pregnancy в поиске вбила, одна из первых ссылок в выдаче.
Там идея в том, чтобы объединить знания по коронавирусу с тем, что уже было известно раньше и увидеть что-то, что никто глазами в этой куче не увидит)
Чем хорош датасет? Например, можно попробовать с помощью классического nlp (или даже просто ключевых слов) офильтровать статьи, где упоминаются данные интересного вам типа, попробовать вытащить контакты corresponding авторов и попросить поделиться данными (индивидуальной массовой рассылкой письма с просьбой, которую можно сделать каким-нибудь скриптом) - а вдруг прокатит и кто-то поделится)
Еще можно попробовать поискать циклические цитирования, если там можно вытащить цитирования - все же пользуются ситуацией и публикуются как не в себя, вдруг там и такие недобросовестные товарищи есть) Можно поискать какие-то противоречия в работах (или работы-аутлайеры) и попробовать дальше разобраться в них, что-то еще интересное придумать.
На kaggle скорее всего большинство блокнотов с ответами на вопросы просто с бессмысленным EDA - потому что задачи слишком общие и там большинство ограничатся решением этих задач «в лоб», да и хороший сторителлинг - это нетривиально (