23 đoạn code tuyệt vời của Pandas dành cho Data Scientists

Trí tuệ nhân tạo

Dưới đây là 23 đoạn code Pandas rất cần thiết cho các bạn trong quá trình phân tích dữ liệu

In các thông tin cơ bản của dữ liệu

Đọc file CSV

pd.DataFrame.from_csv(“csv_file”)

hoặc

pd.read_csv(“csv_file”)

Đọc file Excel

pd.read_excel("excel_file")

Ghi dữ liệu DataFrame vào file CSV

df.to_csv("data.csv", sep=",", index=False)

In các thông số cơ bản

df.info()

Thống kê dữ liệu

print(df.describe())

In dữ liệu trong DataFrame dưới dạng bảng

print(tabulate(print_table, headers=headers))

với print_table là dữ liệu và headers là mảng chứa tên của các cột

Lấy tên của các cột

df.columns

Thao tác với dữ liệu

Lọc các thông tin bị thiếu

df.dropna(axis=0, how='any')

với axis chỉ định chiều cần lọc và how chỉ định tiêu chí lọc

Kiểm tra NaN

pd.isnull(object)

Loại bỏ 1 thuộc tính của dữ liệu

df.drop('feature_variable_name', axis=1)

Chuyển đổi kiểu dữ liệu của đối tượng thành kiểu float

pd.to_numeric(df["feature_name"], errors='coerce')

Chuyển đổi DataFrame sang Numpy array

df.as_matrix()

Lấy n hàng đầu tiên của DataFrame

df.head(n)

Lấy dữ liệu theo tên thuộc tính

df.loc[feature_name]

Operating trên DataFrame

Áp dụng một hàm lên DataFrame

df["height"].apply(lambda height: 2 * height)

Đổi tên một cột

df.rename(columns = {df.columns[2]:'size'}, inplace=True)

Lấy những giá trị riêng biệt của một cột

df["name"].unique()

Tạo một DataFrame con từ DataFrame gốc

new_df = df[["name", "size"]]

với new_df gồm dữ liệu về 2 cột của df

Lấy các chỉ số tổng quát của dữ liệu

# Tổng tất cả phần tử                                                      
    df.sum()                                                                                                                   # Giá trị phần tử nhỏ nhất                                                               df.min()                                                                                                                    # Giá trị phần tử lớn nhất  df.max()                                                                                                                    # Vị trí của phần tử nhỏ nhất                                                                         df.idxmin()                                                                                                                  # Vị trí của phần tử lớn nhất                                                                                

df.idxmax()                                                                                                                # Thống kê các chỉ số cơ bản của dữ liệu
df.describe()                                                                                                           # Giá trị trung bình                                                                                        df.mean()                                                                                                                  # Giá trị Median                                                                               df.median()                                                                                                              # Ma trận tương quan giữa các cột                                                                       df.corr()                                                                                                                    # Lấy các chỉ số như trên nhưng chỉ cho 1 cột                             
df["size"].median()

Sắp xếp dữ liệu