Привет
У меня возникла проблема с пандасом, возможно, кто-нибудь сможет подсказать.
Есть два датафрейма с одинаковыми столбцами, но разным форматом данных.
Мне нужно взять все строки из обоих датафреймов с совпадающими значениями в двух конкретных столбцах и убедиться, что данные в остальных столбцах тоже совпадают (с учётом разницы в форматах).
При этом эти пары столбцов не уникальны по значениям; одна и та же пара может быть в нескольких строках.
Как бы мне лучше эти датафреймы сравнить при таких условиях?
Тупой проход циклом выглядит ужасно неэффективным, т.к. в датафреймах сотни тысяч строк.
Я нашёл метод compare
, но он, как я понимаю, просто сравнивает строки с совпадающими индексами. Даже если я как-то предварительно нормализую оба датафрейма, не понятно, как решить проблему с неуникальными парами, по которым нужно искать строки для сравнения.
Может, есть что-то ещё, что мне может помочь в этой задаче?
Приложил скрин для примера - в нём, по идее, "совпадают" только первые строки.