23 đoạn code tuyệt vời của Pandas dành cho Data Scientists
Dưới đây là 23 đoạn code Pandas rất cần thiết cho các bạn trong quá trình phân tích dữ liệu
In các thông tin cơ bản của dữ liệu
Đọc file CSV
pd.DataFrame.from_csv(“csv_file”)
hoặc
pd.read_csv(“csv_file”)
Đọc file Excel
pd.read_excel("excel_file")
Ghi dữ liệu DataFrame vào file CSV
df.to_csv("data.csv", sep=",", index=False)
In các thông số cơ bản
df.info()
Thống kê dữ liệu
print(df.describe())
In dữ liệu trong DataFrame dưới dạng bảng
print(tabulate(print_table, headers=headers))
với print_table là dữ liệu và headers là mảng chứa tên của các cột
Lấy tên của các cột
df.columns
Thao tác với dữ liệu
Lọc các thông tin bị thiếu
df.dropna(axis=0, how='any')
với axis chỉ định chiều cần lọc và how chỉ định tiêu chí lọc
Kiểm tra NaN
pd.isnull(object)
Loại bỏ 1 thuộc tính của dữ liệu
df.drop('feature_variable_name', axis=1)
Chuyển đổi kiểu dữ liệu của đối tượng thành kiểu float
pd.to_numeric(df["feature_name"], errors='coerce')
Chuyển đổi DataFrame sang Numpy array
df.as_matrix()
Lấy n hàng đầu tiên của DataFrame
df.head(n)
Lấy dữ liệu theo tên thuộc tính
df.loc[feature_name]
Operating trên DataFrame
Áp dụng một hàm lên DataFrame
df["height"].apply(lambda height: 2 * height)
Đổi tên một cột
df.rename(columns = {df.columns[2]:'size'}, inplace=True)
Lấy những giá trị riêng biệt của một cột
df["name"].unique()
Tạo một DataFrame con từ DataFrame gốc
new_df = df[["name", "size"]]
với new_df gồm dữ liệu về 2 cột của df
Lấy các chỉ số tổng quát của dữ liệu
# Tổng tất cả phần tử                                                      
    df.sum()                                                                                                                   # Giá trị phần tử nhỏ nhất                                                               df.min()                                                                                                                    # Giá trị phần tử lớn nhất  df.max()                                                                                                                    # Vị trí của phần tử nhỏ nhất                                                                         df.idxmin()                                                                                                                  # Vị trí của phần tử lớn nhất                                                                                
df.idxmax()                                                                                                                # Thống kê các chỉ số cơ bản của dữ liệu
df.describe()                                                                                                           # Giá trị trung bình                                                                                        df.mean()                                                                                                                  # Giá trị Median                                                                               df.median()                                                                                                              # Ma trận tương quan giữa các cột                                                                       df.corr()                                                                                                                    # Lấy các chỉ số như trên nhưng chỉ cho 1 cột                             
df["size"].median()
Sắp xếp dữ liệu
df.sort_values(ascending = False)
Boolean indexing
df[df["size"] == 5]
chọn các hàng có thuộc tính "size" có giá trị 5
Lấy giá trị phần tử
df.loc([0], ['size'])
lấy giá trị của phần tử nằm ở hàng đầu tiên, cột "size"
 
Cảm ơn các bạn đã đọc bài viết :D
Nguồn: TowardsDataScience 23 great Pandas codes for Data Scientists
