Memo

メモ > 技術 > プログラミング言語: Python > Pandas(データ解析支援)

■Pandas(データ解析支援)
データ解析を支援する機能を提供するライブラリ 以下でインストールできる
$ sudo pip3 install pandas
データ分析で頻出のPandas基本操作 - Qiita https://qiita.com/ysdyt/items/9ccca82fc5b504e7913a pandas の loc、iloc、ix の違い - python | コード7区 http://ailaby.com/lox_iloc_ix/ Pandasで速度に難がある場合、Polarsを使うといいらしい 詳細は、後述の「Polars(データ解析支援)」を参照 ■1次元のデータ構造
import pandas as pd label = ['a', 'b', 'c', 'd', 'e'] data = [1, 2, 3, 4, 5] s = pd.Series(data, index=label) # 行ラベル付きの1次元データ構造 # 内容をすべて表示 print(s)
実行すると以下の結果になる
$ python3 test.py a 1 b 2 c 3 d 4 e 5 dtype: int64
■2次元のデータ構造
import pandas as pd data = { 'col1': [1, 2, 3, 4, 5], 'col2': [2, 3, 4, 5, 6], 'col3': [3, 4, 5, 6, 7], } index_name = ['zero', 'one', 'two', 'three', 'four'] df = pd.DataFrame(data, index=index_name) # 行ラベル・列ラベル付きの2次元データ構造 # 内容をすべて表示 print(df) # ラベルによるデータ選択 print(df.loc['one', 'col2']) # 「one」行、「col2」列のデータを選択 print(df.loc['one':'three', :]) # 「one」から「three」行のすべての列のデータを選択 print(df.loc[['one', 'four'], ['col1', 'col3']]) # 「one」と「four」行の「col1」と「col3」列のデータを選択 # 位置番号によるデータ選択(一番号は0始まり / 結果は上と同じ) print(df.iloc[1, 1]) print(df.iloc[1:4, :]) print(df.iloc[[1, 4], [0, 2]])
実行すると以下の結果になる
$ python3 2.py col1 col2 col3 zero 1 2 3 one 2 3 4 two 3 4 5 three 4 5 6 four 5 6 7 3 col1 col2 col3 one 2 3 4 two 3 4 5 three 4 5 6 col1 col3 one 2 4 four 5 7 3 col1 col2 col3 one 2 3 4 two 3 4 5 three 4 5 6 col1 col3 one 2 4 four 5 7
■CSVファイルを読み込み
import pandas as pd # CSVファイルを読み込み df = pd.read_csv('sample.csv', index_col=0, encoding='shift-jis') # 次元をタプルに格納して返す print(df.shape) # 簡素な情報を出力する print(df.info()) # 最初の5行を表示 print(df.head()) # 最後の5行を表示 print(df.tail())
■Excelファイルを読み込み
import pandas as pd # Excelファイルを読み込み #excel = pd.read_excel('sample.xlsx', index_col=0) excel = pd.read_excel('sample.xlsx', index_col=0, engine='openpyxl') # 次元をタプルに格納して返す print(excel.shape) # 簡素な情報を出力する print(excel.info()) # 最初の5行を表示 print(excel.head()) # 最後の5行を表示 print(excel.tail())
「ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.」 のエラーになる場合、xlrdをインストールする必要がある
$ sudo pip3 install xlrd
インストールしても 「ValueError: Your version of xlrd is 2.0.1. In xlrd >= 2.0, only the xls format is supported. Install openpyxl instead.」 のエラーが表示される xlrd 2.0.0 からxlsxがサポートされなくなったらしい 対策に、openpyxlをインストールする
$ sudo pip3 install openpyxl
これでExcelファイルの読み込み時、「engine='openpyxl'」を指定すると読み込める

Advertisement