データの概要を把握し必要なデータを抽出する Python

データをざっくりと眺める

先頭の5行だけを確認する

import pandas as pd
df = pd.read_csv(“test.csv”, index_col=0)
df.head()

列名を確認する

df.columns

インデックス名を確認する

df.index

各列のデータの種類を確認する

df.dtypes
  #整数(int64) 小数(float64) 文字列型(object)

データが全部で何個あるのか、そのデータの個数(行数)を確認する

len(df)

 

必要なデータを取り出す

列データを取り出す

df[“SBP”]
  #df[“列名”]と指定すれば「1列のデータ」を取り出すことができる

df[[“SBP”,”DBP”]]
  #このように指定すれば、複数の列データを取り出すことができる。
  #[]は2個必要。

行データを取り出す

df.iloc[0]
  #df.iloc[行番号]と指定すれば、行番号のデータを取り出すことができる。
  #ilocはindex locationの略。

df.iloc[[0,3]]
  #このように指定すれば、複数の行データも取り出すことができる。

要素データを取り出す(行番号と列名で指定)

df.iloc[0][“SBP”]
  #df.iloc[行番号][”列名”]と指定すれば、要素を1つだけ取り出すことができる

 

その他

Pythonの普通のリストデータとして使いたいとき

列名をリストに変換する

list1 = [i for i in df.columns]
print(list1)

インデックス名をリストに変換する

list2 = [i for i in df.index]
print(list2)

コメント

タイトルとURLをコピーしました