pandas для чего нужен

Pandas — обработка и анализ данных в 2021 году

Подробный обзор библиотеки Pandas. Гибкая и мощная библиотека для анализа и обработки данных, разработанная на языке программирования Python.

Введение

Для того чтобы эффективно работать с этой библиотекой, нужно понять основные структуры данных. Пусть вас это не пугает, их всего две и разобраться с ними проще простого.

Series — это структура данных принципиально похожая на список и словарь в Python. Используется в качестве столбцов в таблице.

DataFrame — если говорить простыми словами, то эта структура данных представляет из себя обычную таблицу. Иными словами табличная структура данных. Как и во всех таблицах она состоит из строк и столбцов. Столбцами выступают объекты Series, а строки его элементы.

Установка

Pandas как и все библиотеки в Python устанавливаются стандартным методом через пакетный менеджер pip.

Использование

Чтобы показать библиотеку в работе, нам нужны какие нибудь статистические данные, для примера давайте возьмем данные ВВП 5 разных стран по версии всемирного банка и попробуем сформировать из них таблицу. Передавать данных в DataFrame мы будем используя знакомый синтаксис словаря Python.

Объект DataFrame имеет два индекса по столбцам и строкам. Если индекс по строкам не указан вручную, то pandas задает его автоматически.

Индексы

Назначать индексы объекту DataFrame можно при его создании или в процессе работы с ним.

Вызывая метод DataFrame мы передали ему аргумент index со списком именованных индексов.

Фильтрация данных

Pandas позволяет производить фильтрацию вывода по индексам и столбцам. Так же можно комбинировать индексы и колонки, использовать слайсы и логические выражения.

По столбцу

Обращение к столбцам в pandas реализовано стандартным образом, так как будто вы обращаетесь к ключу словаря, или же к методу объекта. В моем случае обращение как к методу объекта невозможно, я выбрал кириллическое название столбца, а работает только с латиницей 🙂

По строковому индексу

Для обращения к строковым индекса существуют два метода

Обращение к именованному индексу RU

Обращение к числовому индексу

По срезами

Объект DataFrame поддерживает использование срезов.

Отобразим все строки начиная с 3.

С использованием условий

Мы так же можем использовать логику в фильтрации данных. Давайте отобразить странны, в которых ВВП на душу населения в 2018 году был больше 100$

Работа с столбцами

Вы можете создавать, удалять и переименовывать ваши столбцы в любой момент времени.

Давайте рассмотрим каждый момент по внимательнее.

Переименование

Для переименования столбца существует метод rename

Давайте переименуем наши столбцы с указанием года.

Метод rename на вход принимает обычный словарь, ключ который является текущем названием столбца, а значение — новым. За один раз мы можем переименовать сколько угодно столбцов, главное не забывайте разделять элементы словаря запятой.

Важно: результат выполнение метода rename возвращает новый измененный объект DataFrame, поэтому переназначь основной экземпляр DataFrame.

Создание

Создадим новую колонку «Рост» и наполним ее значениями высчитанными из разницы 2018 к 2017 году.

В этой ситуации объект изменяется и переназначать экземпляр нам не нужно.

Удаление

Для удаления столбца существует метод drop, так же необходимо передать в аргумент axis значение index или columns.

Важно: результат выполнение метода drop возвращает новый измененный объект DataFrame, поэтому не забудьте переназначить DataFrame.

Загрузка данных

API загрузки данных имеет поддержку множество структурированных форматов. Для примера возьмем информацию из реестра специалистов в области ветеринарии, занимающихся предпринимательской деятельностью на территории Санкт-Петербурга. На сайте есть ссылочка для скачивания таблиц в формате CSV и MS Excel эти два формата мы и рассмотрим.

Из таблицы CSV

Осуществить загрузку данных в таблицу можно используя метод read_csv

Из таблицы MS Excel

За загрузку данных из excel таблицы отвечает метод read_excel

Установка библиотеки xlrd

Для загрузки данных из таблицы MS Excel необходимо установить дополнительную библиотеку xlrd

Загрузка данных

После установки необходимых зависимостей мы можем приступать к загрузке данных.

Список всех поддерживаемых форматов

Pandas поддерживает огромное количество форматов импорта данных, приведу полный список из официальной документации

Тип данныхФормат данныхИспользуемый метод
ТекстовыйCSVread_csv
ТекстовыйFixed-Width Text Fileread_fwf
ТекстовыйJSONread_json
ТекстовыйHTMLread_html
ТекстовыйБуфер обменаread_clipboard
БинарныйMS Excelread_excel
БинарныйOpenDocumentread_excel
БинарныйHDF5 Formatread_hdf
БинарныйFeather Formatread_feather
БинарныйParquet Formatread_parquet
БинарныйORC Formatread_orc
БинарныйMsgpackread_msgpack
БинарныйStataread_stata
БинарныйSASread_sas
БинарныйSPSSread_spss
БинарныйPython Pickle Formatread_pickle
SQLSQLread_sql
SQLGoogle BigQueryread_gbq

Сохранение данных

Так же как и в импорте API поддерживает множество форматов для экспорта данных. Воспользуемся данными о ВВП для демонстрации работы.

В таблицу CSV

За запись данных в таблицу CSV отвечает метод to_csv

так выглядят наши экспортированные данные

В таблицу MS Excel

За запись данных в таблицу MS Excel отвечает метод to_excel

Установка библиотеки openpyxl

Для записи в таблицу нам понадобиться установить библиотеку openpyxl

Сохранение данных

Запускаем наш скрипт

На выходе получаем такую таблицу

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Список всех поддерживаемых форматов

К сожалению, pandas не в полном объеме поддерживает запись во все форматы, которые он умеет читать, но с большинством из них нет никаких проблем.

Тип данныхФормат данныхИспользуемый метод
ТекстовыйCSVto_csv
ТекстовыйJSONto_json
ТекстовыйHTMLto_html
ТекстовыйБуфер обменаto_clipboard
БинарныйMS Excelto_excel
БинарныйHDF5 Formatto_hdf
БинарныйFeather Formatto_feather
БинарныйParquet Formatto_parquet
БинарныйMsgpackto_msgpack
БинарныйStatato_stata
БинарныйPython Pickle Formatto_pickle
SQLSQLto_sql
SQLGoogle BigQueryto_gbq

Визуализация данных

Визуализация это большая часть работы в анализе и обработке данных. Не будем сильно углубляться и рассмотрим простой пример визуализации наших данных.

Установка библиотеки matplotlib

Для рисования графиков нам понадобится эта библиотека

Создание графиков

Самый просто способ сгенерировать график, это передать обработчику данные для одной из координат, для второй он возьмет информацию из индекса.

После выполнения программы мы увидим вот такой график

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Можно повторить тоже самое но только для 2018 года

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Объединение данных на одном графике

У нас есть отдельный график для 2017 и 2018 года, но как их объединить в одной диаграмме? Очень просто, нужно использовать метод pivot из библиотеки pandas.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Заключение

На это обзор библиотеки pandas подошел к концу, если у вас возникли вопросы, не стесняйтесь задавать их в комментариях.

Источник

Как изучить Pandas

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Pandas — это библиотека Python, которая позволяет вам работать с данными, организованными с использованием строк и столбцов, иногда называемых «табличными данными». Вы, вероятно, использовали электронную таблицу, например, Excel, для управления табличными данными. Прелесть Pandas в том, что вы можете использовать его для аналогичных задач, для которых вы бы использовали Excel, например, для простых операций с данными, но вы также можете использовать его для выполнения сложных задач науки о данных, таких как машинное обучение.

Pandas — популярный инструмент в области науки о данных. Его можно использовать для принятия бизнес-решений в разных отраслях, помогая людям принимать решения в таких областях, как маркетинг, продажи, создание продуктов, финансы и здоровье.

Что такое Pandas?

Pandas — это библиотека Python с инструментами анализа данных. Использование этой библиотеки позволяет вам манипулировать данными, чтобы получить из них информацию. Уэс МакКинни создал Pandas, и изначально он был разработан для выполнения количественного анализа финансовых данных. В 2009 году был выпущен Pandas, и с тех пор он стал популярным как инструмент для анализа данных.

С помощью Pandas вы можете импортировать данные из баз данных, таких как Excel. Pandas позволяет вам очистить ваши данные перед их анализом. «Очистка» ваших данных, часто называемая «обработкой данных» или «обработкой данных», — это процесс удаления ошибочных данных из вашего набора данных перед их обработкой и извлечения из него каких-либо выводов. Важно иметь чистые и точные данные. В противном случае результаты вашего процесса анализа будут в лучшем случае искажёнными, а в худшем — бесполезными.

При использовании Pandas вы, вероятно, будете использовать платформу под названием Jupyter Notebook, инструмент, часто используемый для проектов в области науки о данных. Jupyter Notebook позволяет очищать и преобразовывать данные. С его помощью вы также можете выполнять такие задачи, как статистическое моделирование и машинное обучение. Он похож на редактор кода: вы можете вводить и запускать код внутри него.

Если вы знакомы с Python, вы знаете о структурах данных, таких как массивы и словари. В Pandas центральной структурой данных является DataFrame, двумерная помеченная структура данных со столбцами, похожая на электронную таблицу. В верхней части таблицы обычно есть строка, содержащая заголовок каждой строки. У него также есть столбец сбоку, содержащий заголовок каждого столбца. В Pandas каждый из этих разделов «заголовок» называется индексом. Как и в случае с электронной таблицей Excel, вы можете изменить эту структуру данных.

Для чего используются Pandas?

Pandas используется для анализа данных в области науки о данных. Наука о данных — это просто изучение данных с целью получения информации из наборов данных. Набор данных может включать всего несколько записей или миллионы отдельных единиц информации. Задача специалиста по данным — извлечь смысл из этих данных посредством процесса уточнения и анализа. После завершения анализа результаты можно визуализировать с помощью таких инструментов, как Matplotlib, ещё одна библиотека Python.

Если вы интересуетесь наукой о данных, вам обязательно нужно изучить Pandas. Даже если вы не хотите быть специалистом по данным, но по-прежнему заинтересованы в процессе анализа данных, вы всё равно должны понимать эту ценную технологию.

Что конкретно могут делать панды?

Изучение Pandas

Всё больше и больше бизнес-ролей требуют понимания данных. Данные определяют решения, принимаемые в таких областях, как продажи, маркетинг и разработка продуктов, а это означает, что даже если вы в настоящее время не являетесь специалистом по данным в своей компании, от вас могут ожидать извлечения смысла из данных. Изучение использования библиотек Python, таких как Pandas, может помочь вам принимать решения на основе данных. Узнайте больше о том, почему каждый должен быть грамотным в области данных.

Тем не менее, есть много возможностей трудоустройства для людей, которые хотят сосредоточиться на использовании Pandas и других библиотек Python.

Люди с навыками анализа и обработки данных могут получать хорошую зарплату. По данным Glassdoor, средняя годовая зарплата аналитиков в США составляет 62 453 доллара. Для таких компаний, как Google и Facebook, эта цифра находится в диапазоне от 90 до 100 тысяч долларов. В самом деле, средняя зарплата аналитика данных составляет 75 091 доллар. Для специалистов по анализу данных цифры выше: по данным Glassdoor, средняя зарплата в области науки о данных составляет 113 309 долларов, а Indeed записывает в среднем 122 525 долларов.

Pandas — важный навык, позволяющий узнать, хотите ли вы лучше понимать данные на своей текущей работе или хотите стать аналитиком данных или учёным.

Сколько времени нужно, чтобы выучить Pandas?

Предполагая, что вы уже знаете Python, вам понадобится около двух недель, чтобы начать работу с Pandas. Сосредоточьтесь на основных манипуляциях с данными, когда начинаете свои проекты Pandas. По мере улучшения ваших навыков экспериментируйте с более сложными применениями, такими как визуализация данных и машинное обучение. Использование Pandas для машинного обучения потребует от вас знания дополнительных инструментов, таких как Scikit-Learn, поэтому вы также захотите изучить эти навыки.

Трудно ли выучить Pandas?

Вы должны знать Python, прежде чем изучать Pandas. К счастью, Python является легко читаемым языком и подходит для программистов, которые только начинают изучать веб-разработку. Существует множество ресурсов, которые помогут вам изучить Python, в том числе это исчерпывающее руководство по изучению Python.

Когда вы овладеете Python, вы будете готовы попробовать свои силы в анализе данных с помощью библиотек Python, таких как Pandas.

Вы также должны отметить, что Pandas построен на основе NumPy, библиотеки Python, используемой для математических операций, поэтому, если вы знакомы с NumPy, вам может быть проще изучить Pandas.

При изучении Pandas следует помнить, что вы можете установить его как часть платформы анализа данных под названием Anaconda. Когда вы устанавливаете Anaconda на свой компьютер, вы устанавливаете все библиотеки, пакеты и другие инструменты Python, которые можно использовать в целях науки о данных, включая Pandas, Matplotlib и Jupyter Notebook.

Фактически, документация Pandas рекомендует вам загрузить Anaconda, чтобы получить Pandas на свой компьютер, вместо того, чтобы устанавливать Pandas отдельно. Вы можете скачать Anaconda здесь.

Как выучить Pandas: шаг за шагом

Вот несколько общих рекомендаций, которые следует использовать, когда вы начнёте изучать Pandas.

Книги Pandas

Чтение книг о Python даст вам возможность усвоить контент, написанный экспертами в этой области. Помимо прохождения курсов, книги могут помочь вам начать работу над собственными проектами Pandas.

«Справочник по науке о данных Python» Джейка Вандерпласа

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Эта книга доступна онлайн бесплатно на Github. Это отличное введение в библиотеки науки о данных Python, включая Pandas. Если вас также интересуют некоторые другие библиотеки Python, такие как Numpy, Matplotlib и Sci-kit-learn, это отличная книга для вас.

«Изучение библиотеки Pandas: инструменты Python для преобразования данных, анализа и визуализации» Мэтта Харрисона

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Эта книга позволяет вам узнать о Pandas с помощью примеров, примеров кода и графики. Это займёт вас от установки до обработки DataFrames. Лучше всего читать, когда вы знаете Python, поэтому убедитесь, что у вас есть хорошее понимание языка программирования, чтобы получить от него максимальную отдачу. Кстати, «обработка данных» или «обработка данных» — это процесс уточнения данных перед их анализом.

«Python для анализа данных: борьба с данными с помощью Pandas, NumPy и IPython» Уэса МакКинни

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Эта книга написана создателем Pandas. Знайте, что Pandas — это всего лишь один навык, который вы захотите использовать в своём наборе инструментов для анализа данных: вы также должны быть знакомы с другими технологиями, такими как Matplotlib, NumPy и Jupyter. Эта книга предлагает вам фантастическое введение во все эти навыки.

Ресурсы Pandas

Продолжая своё путешествие по изучению Pandas, вы захотите использовать доступные онлайн-ресурсы. Пока вы работаете над проектами, будут возникать вопросы, поэтому вам нужно знать, где искать ответы.

Официальный сайт Pandas

Официальный веб-сайт Pandas позволяет вам загрузить Pandas, получить книгу Python для анализа данных и принять участие в сообществе Pandas.

Документация Pandas

Один из лучших ресурсов для изучения любой новой технологии — это её документация. Этот ресурс, доступный бесплатно в Интернете, содержит полезные руководства и информацию о различных аспектах Pandas. Вы можете узнать, как начать работу с Pandas, опробовать обучающие программы и прочитать обо всех задачах, которые вы можете выполнять с помощью Pandas, в руководстве пользователя.

Kaggle Learn Pandas Учебник

Kaggle — это платформа для анализа данных, которая предлагает бесплатные курсы по науке о данных в дополнение к другим ресурсам. Один из этих курсов — их курс Pandas. Это займёт около четырёх часов и поможет вам узнать, как получить представление о ваших данных, как выполнять задачи группировки и сортировки. У Kaggle есть репозиторий наборов данных, которые вы можете использовать для поддержки своих проектов анализа данных. А также есть форумы, к которым вы можете присоединиться. Если вас интересует наука о данных, попробуйте Kaggle.

Learnpython.org Pandas Basics Интерактивное руководство

Готовы увидеть панд в действии? С помощью этого интерактивного руководства вы можете запускать примеры кода в своём браузере без установки Pandas или каких-либо других технологий. Этот веб-сайт — отличный ресурс, который поможет вам увидеть, как работают Pandas.

Заключение

Pandas — это библиотека Python, используемая для обработки, уточнения и анализа данных. Если вы раньше работали с Excel, вы знаете, что анализ табличных данных может помочь в принятии бизнес-решений. Pandas также работает с табличными данными, но предлагает более сложные функции, чем Excel.

Вы можете комбинировать Pandas с библиотекой визуализации данных, такой как Matplotlib, для создания общих результатов. Когда вы объединяете Pandas с Scikit-Learn, другой библиотекой Python, вы можете выполнять задачи машинного обучения.

Pandas — популярный инструмент, используемый в областях анализа данных и науки о данных. Работа аналитиком данных или специалистом по обработке данных обычно приносит большие зарплаты, поэтому это может быть разумным карьерным шагом, если у вас есть навыки, необходимые для такого рода работы. Даже если вы не хотите быть аналитиком или специалистом по данным, изучение Pandas может помочь вам в повседневной работе.

Источник

Моя шпаргалка по pandas

Один преподаватель как-то сказал мне, что если поискать аналог программиста в мире книг, то окажется, что программисты похожи не на учебники, а на оглавления учебников: они не помнят всего, но знают, как быстро найти то, что им нужно.

Возможность быстро находить описания функций позволяет программистам продуктивно работать, не теряя состояния потока. Поэтому я и создал представленную здесь шпаргалку по pandas и включил в неё то, чем пользуюсь каждый день, создавая веб-приложения и модели машинного обучения.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

1. Подготовка к работе

Если вы хотите самостоятельно опробовать то, о чём тут пойдёт речь, загрузите набор данных Anime Recommendations Database с Kaggle. Распакуйте его и поместите в ту же папку, где находится ваш Jupyter Notebook (далее — блокнот).

Теперь выполните следующие команды.

После этого у вас должна появиться возможность воспроизвести то, что я покажу в следующих разделах этого материала.

2. Импорт данных

▍Загрузка CSV-данных

Здесь я хочу рассказать о преобразовании CSV-данных непосредственно в датафреймы (в объекты Dataframe). Иногда при загрузке данных формата CSV нужно указывать их кодировку (например, это может выглядеть как encoding=’ISO-8859–1′ ). Это — первое, что стоит попробовать сделать в том случае, если оказывается, что после загрузки данных датафрейм содержит нечитаемые символы.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

▍Создание датафрейма из данных, введённых вручную

Это может пригодиться тогда, когда нужно вручную ввести в программу простые данные. Например — если нужно оценить изменения, претерпеваемые данными, проходящими через конвейер обработки данных.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Данные, введённые вручную

▍Копирование датафрейма

Копирование датафреймов может пригодиться в ситуациях, когда требуется внести в данные изменения, но при этом надо и сохранить оригинал. Если датафреймы нужно копировать, то рекомендуется делать это сразу после их загрузки.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

3. Экспорт данных

▍Экспорт в формат CSV

При экспорте данных они сохраняются в той же папке, где находится блокнот. Ниже показан пример сохранения первых 10 строк датафрейма, но то, что именно сохранять, зависит от конкретной задачи.

4. Просмотр и исследование данных

▍Получение n записей из начала или конца датафрейма

Сначала поговорим о выводе первых n элементов датафрейма. Я часто вывожу некоторое количество элементов из начала датафрейма где-нибудь в блокноте. Это позволяет мне удобно обращаться к этим данным в том случае, если я забуду о том, что именно находится в датафрейме. Похожую роль играет и вывод нескольких последних элементов.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Данные из начала датафрейма

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Данные из конца датафрейма

▍Подсчёт количества строк в датафрейме

▍Подсчёт количества уникальных значений в столбце

Для подсчёта количества уникальных значений в столбце можно воспользоваться такой конструкцией:

▍Получение сведений о датафрейме

В сведения о датафрейме входит общая информация о нём вроде заголовка, количества значений, типов данных столбцов.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Сведения о датафрейме

▍Вывод статистических сведений о датафрейме

Знание статистических сведений о датафрейме весьма полезно в ситуациях, когда он содержит множество числовых значений. Например, знание среднего, минимального и максимального значений столбца rating даёт нам некоторое понимание того, как, в целом, выглядит датафрейм. Вот соответствующая команда:

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Статистические сведения о датафрейме

▍Подсчёт количества значений

Для того чтобы подсчитать количество значений в конкретном столбце, можно воспользоваться следующей конструкцией:

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Подсчёт количества элементов в столбце

5. Извлечение информации из датафреймов

▍Создание списка или объекта Series на основе значений столбца

Это может пригодиться в тех случаях, когда требуется извлекать значения столбцов в переменные x и y для обучения модели. Здесь применимы следующие команды:

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты работы команды anime[‘genre’].tolist()

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты работы команды anime[‘genre’]

▍Получение списка значений из индекса

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

▍Получение списка значений столбцов

Вот команда, которая позволяет получить список значений столбцов:

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

6. Добавление данных в датафрейм и удаление их из него

▍Присоединение к датафрейму нового столбца с заданным значением

Иногда мне приходится добавлять в датафреймы новые столбцы. Например — в случаях, когда у меня есть тестовый и обучающий наборы в двух разных датафреймах, и мне, прежде чем их скомбинировать, нужно пометить их так, чтобы потом их можно было бы различить. Для этого используется такая конструкция:

▍Создание нового датафрейма из подмножества столбцов

Это может пригодиться в том случае, если требуется сохранить в новом датафрейме несколько столбцов огромного датафрейма, но при этом не хочется выписывать имена столбцов, которые нужно удалить.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результат выполнения команды

▍Удаление заданных столбцов

Этот приём может оказаться полезным в том случае, если из датафрейма нужно удалить лишь несколько столбцов. Если удалять нужно много столбцов, то эта задача может оказаться довольно-таки утомительной, поэтому тут я предпочитаю пользоваться возможностью, описанной в предыдущем разделе.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

▍Добавление в датафрейм строки с суммой значений из других строк

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результат выполнения команды

Команда вида df.sum(axis=1) позволяет суммировать значения в столбцах.

7. Комбинирование датафреймов

▍Конкатенация двух датафреймов

Эта методика применима в ситуациях, когда имеются два датафрейма с одинаковыми столбцами, которые нужно скомбинировать.

В данном примере мы сначала разделяем датафрейм на две части, а потом снова объединяем эти части:

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Датафрейм, объединяющий df1 и df2

▍Слияние датафреймов

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

8. Фильтрация

▍Получение строк с нужными индексными значениями

Индексными значениями датафрейма anime_modified являются названия аниме. Обратите внимание на то, как мы используем эти названия для выбора конкретных столбцов.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

▍Получение строк по числовым индексам

Следующая конструкция позволяет выбрать три первых строки датафрейма:

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

▍Получение строк по заданным значениям столбцов

Для получения строк датафрейма в ситуации, когда имеется список значений столбцов, можно воспользоваться следующей командой:

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

Если нас интересует единственное значение — можно воспользоваться такой конструкцией:

▍Получение среза датафрейма

Эта техника напоминает получение среза списка. А именно, речь идёт о получении фрагмента датафрейма, содержащего строки, соответствующие заданной конфигурации индексов.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

▍Фильтрация по значению

Из датафреймов можно выбирать строки, соответствующие заданному условию. Обратите внимание на то, что при использовании этого метода сохраняются существующие индексные значения.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

9. Сортировка

Для сортировки датафреймов по значениям столбцов можно воспользоваться функцией df.sort_values :

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

10. Агрегирование

▍Функция df.groupby и подсчёт количества записей

Вот как подсчитать количество записей с различными значениями в столбцах:

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

▍Функция df.groupby и агрегирование столбцов различными способами

▍Создание сводной таблицы

Для того чтобы извлечь из датафрейма некие данные, нет ничего лучше, чем сводная таблица. Обратите внимание на то, что здесь я серьёзно отфильтровал датафрейм, что ускорило создание сводной таблицы.

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

11. Очистка данных

▍Запись в ячейки, содержащие значение NaN, какого-то другого значения

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Таблица, содержащая значения NaN

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты замены значений NaN на 0

12. Другие полезные возможности

▍Отбор случайных образцов из набора данных

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

▍Перебор строк датафрейма

Следующая конструкция позволяет перебирать строки датафрейма:

pandas для чего нужен. Смотреть фото pandas для чего нужен. Смотреть картинку pandas для чего нужен. Картинка про pandas для чего нужен. Фото pandas для чего нужен

Результаты выполнения команды

▍Борьба с ошибкой IOPub data rate exceeded

Если вы сталкиваетесь с ошибкой IOPub data rate exceeded — попробуйте, при запуске Jupyter Notebook, воспользоваться следующей командой:

Итоги

Здесь я рассказал о некоторых полезных приёмах использования pandas в среде Jupyter Notebook. Надеюсь, моя шпаргалка вам пригодится.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *