はじめに
- 気分転換にたまにはPythonを触ってみる。
Pandasのメソッド
以下は、Pandasの機能だが、もっとあるはず・・・。
やりたいこと | メソッド |
---|---|
列名を抽出する | df.columns |
最初の2行を選択します | df.iloc [2] |
最初の2列を選択します | df.iloc [:、2] |
名前で列を選択 | df.loc [:、["col1"、 "col2"]] |
ランダム番号を選択します。行の | df.sample(n = 10) |
ランダムな行の一部を選択します | df.sample(frac = 0.2) |
変数の名前を変更します | df.rename() |
インデックスとして列を選択する | df.set_index() |
行または列の削除 | df.drop() |
値の並べ替え | df.sort_values() |
変数のグループ化 | df.groupby() |
フィルタリング | df.query() |
不足している値を見つける | df.isnull() |
不足している値を削除する | df.dropna() |
重複を削除する | df.drop_duplicates() |
ダミーの作成 | pd.get_dummies() |
ランキング | df.rank() |
累計 | df.cumsum() |
分位数 | df.quantile() |
数値変数の選択 | df.select_dtypes() |
2つのデータフレームを連結する | pd.concat() |
共通変数に基づいてマージ | pd.merge() |
変数タイプを知る
- dataFrameName.dtypesコマンドを使用して、データフレームに格納されている変数のタイプの情報を抽出できる。
データ型の変更
- astype()メソッドで型を変換(キャスト)することができる
一部の行のみを表示するには
- デフォルトでは、head()は最初の5行を表示する。特定の行数を確認したい場合は、括弧内にそれを記載できます。 同様に、tail()関数はデフォルトで最後の5行を表示します。
カテゴリ変数を定義する
- Rのfactors()関数と同様に、「category」dtypeを使用してPythonにカテゴリ変数を含めることができます。