DataFrame — это объект хранящий информацию в разрезе рядов и колонок. DataFrame можно представить как электронную Exel таблицу, или как таблицу, полученную в результате SQL запроса. Вы можете вручную создать и заполнить объект DataFrame или преобразовать его из CSV файла, Exel таблицы, или выборки SQL.
DataFrame имеет ряды и колонки. Название колонок является типом данных строка, а каждый ряд имеет свой индекс, и принадлежит к типу данных число. Сами же ячейки DataFrame могут хранить в себе абсолютно любой тип данных: строка, число, кортеж, словарь и т.д.
HandMade
Для создания объекта DataFrame «вручную», необходимо в функцию pd.DataFrame()
передать словарь. Где каждый ключ будет названием будущего столбца, а значение будет подставлено в ячейки будущего объекта DataFrame. Но обратите внимание на то, чтобы количество элементов в значении словаря было одинаково у каждого ключа, иначе вы получите ошибку.
В результате работы вашепредставленного кода, мы получим вот такой аналог таблицы, представленный в виде объекта DataFrame, хранящийся в переменной df.
Однако, тот же самый результат мы получим, если воспользуемся следующим кодом. Здесь мы явно указываем аргументы data и columns.
Comma Separated Values — CSV
Мы знаем как создать свой собственный DataFrame и заполнить его значениями вручную. Однако, зачастую нам придётся работать с уже существующими наборами данных. Один из общепринятых и распространённых форматов обмена информацией больших данных — это CSV. Если вы не новичок в программировании, то вы наверняка уже слышали про этот формат записи, он присутствует и поддерживается многими программами, в том числе Google-Sheets, Microsoft-Exel и его можно экспортировать из результата SQL-запроса.
CSV (Comma Separated Values) — это электронная таблица, представленная только символами, а значит её можно открыть в абсолютно любом текстовом редакторе, даже в блокноте. Именно благодаря такой простоте данный формат и получил своё широкое распространение. Первая строка в этой текстовой таблице представляет название столбцов, а каждая последующая строка — ряд таблицы. Каждое значение отделено друг от друга определённым символом (По-умолчанию это запятая, но символ может быть абсолютно любой), зачастую это точка с запятой ; .
Если у вас есть данные записанные в CSV формате, вы можете преобразовать их в DataFrame используя функцию pd.read_csv('name_file.csv')
. Обратное преобразование возможно функцией pd.to_csv('name_file.csv')
.