Здравствуйте. Есть большой набор данных и есть подозрение, что в нем присутствуют повторяющиеся строки. В датасете речь о вещах, которые прибывают в страну: что-то люди просто оформляют на таможне для себя, а что-то потом перепродается. Если дальнейшая перепродажа, то по идее данные о вещи в датасете будут дублироваться, так как данные в этот же датасет заносятся при дальнейшей покупке этой вещи. Проблема в том, что мне нужно определить уникальные вещи, для дальнейшего анализа,а у них нет никакого постоянного id.
я бы хотела определить уникальные вещи по определенным колонкам. Т.е. если я просто сделаю distinct или duplicated, то ничего не будет, потому что вещь проходит разные этапы регистрации и следовательно не все колонки одинаковы. Какую мне нужно использовать функцию, чтобы увидеть повторяющиеся строки , но по определенным столбцам?
Если вы точно знаете, какие колонки повторяются или не повторяются, то сделать subset() для датафрейма, а потом по нему убрать дубли