Xin chào toàn thể anh em Mì ăn liền AI, hôm nay chúng ta sẽ cùng nhau đến với series mới về Data Analysis (DA) với Python.
Đây là một series mới hoàn toàn dành cho các bạn đang học về DA do một MOD nữ của Mì Ai Blog phụ trách, hi vọng các bạn sẽ tìm được nhiều thông tin bổ ích.
Series nhắm đến các bạn mới bắt đầu tìm hiểu về DA và Python nên các cao thủ có thể bỏ qua nhé!
Bài viết này muốn chia sẻ với các anh chị em (ace) dù là bắt đầu từ sinh viên kỹ thuật/ sinh viên các trường kinh tế, hay các anh chị em vừa đi làm, đã đi làm lâu năm muốn chuyển sang dùng Python để có thêm công cụ giúp ích cho việc phân tích số liệu (Data Analysis với Python) . Vì vậy trong bài đầu tiên này minh muốn đi vào việc giới thiệu cách thức cài đặt nhanh chóng trước khi bắt tay vào khai thác số liệu.
Đối với các anh em có base kỹ thuật việc triển khai một công cụ lập trình mới có lẽ không có nhiều vất vả, nhưng đối với các anh em làm Phân tích dữ liệu việc này có thể chưa quen thuộc. Do vậy nếu các bạn đã biết, đã cài đặt Python rồi thì có thể bỏ qua bài viết này nhé!
Ok, bắt đầu!
Phần 1 – Cài đặt Python
Về Python thì hiện đã có phiên bản 3.8 tuy nhiên theo kinh nghiệm của mình thì nên xài Python 3.7 cho nó lành, đỡ bị củ hành.
Để cài đặt Python các bạn tải luôn tại trang chủ của Python luôn, link bản 3.7 là: https://www.python.org/downloads/release/python-377/. Anh em chọn bản cài đặt đúng với OS của mình (MacOS, Window, ….)
Chi tiết cách cài đặt thì anh em tham khảo tại đây:
Sau khi cài đặt xong, các bạn restart máy và kiểm tra bằng cách gõ lệnh:
$ python3 --version
Python 3.7.0
Nếu hiển thị ra phiên bản là okie rồi, sang bước tiếp theo!
Phần 2 – Cài đặt IDE cho Python
Về nguyên tắc thì chúng ta có thể dùng Notepad để code Python vô tư nhưng code trên cửa sổ code ứng dụng đen trắng được thì phải phong là thánh vì quá khó code. Do đó nếu như có các công cụ lập trình (IDE) khác hỗ trợ các món như: auto complete, debug, trace… thì việc lập trình của anh em sẽ đơn giản hơn rất nhiều.
Việc cài đặt IDE nào tùy vào sở thích và nhu cầu của các bạn, mình thích Pycharm nên mình cài Pycharm (đơn giản thế thôi). Bạn nào muốn dùng Pycharm như mình thì tải tại đây nhé. Riêng thằng Pycharm này thì cứ bản mới nhất mà táng :D.
Vậy câu hỏi là : “Chỉ có Pycharm mới code được python phải không?” Không phải nhé, có rất nhiều các đồ chơi (tools) khác nhau giúp bạn làm việc viết code này!
Ví dụ một số công cụ để viết code trên Python như là
- Eclipse + Pydev
- Pycharm
- Sublime Text
- Visual Studio Code
- Vim
- GNU/Emacs
- Atom/Atom-IDE
- Cloud9
- Spyder
- Thonny
Các bạn có thể search trên Google “python code editor tools” để tìm hiểu về các điểm khác biệt giữa các công cụ này và lựa chọn cái phù hợp nhất với minh nhé!
Mình thì chọn Pycharm vì các lý do: mình thích màu sắc code của nó, nó có nhiều plugin hỗ trợ mở các file khác nhau và lý do mình thích nhất là nó tạo môi trường ảo riêng cho mỗi project một cách tự động, rất phê! (source code và cài cắm của bài toán A sẽ không bao giờ ảnh hưởng, gây lỗi cho bài toán B).
Bạn Quốc Anh có góp ý :”Cảm ơn a Thắng, bài viết rất bổ ích với các mem bắt đầu theo DA. Em xin bổ sung thêm 1 tí về cái IDE, nếu không muốn cài vào máy, mình có thể sử dụng Google Colab có trên Drive . Cách này vừa không cần cài nặng máy, vừa có chạy code mạnh mẽ, vừa là nơi lưu trữ code của mình luôn.”
Phần 3 – Đi sâu hơn với Pycharm và Data Analysis với Python
Cài đặt Pycharm
Cài đặt thằng Pycharm này khá đơn giản, như cài game, hahaa. Các bạn follow link này để cài: Tại đây.
Sau khi cài xong mở Pycharm thì cửa sổ nó sẽ như sau:
Khúc bên trái để hiện thị các file của Pycharm (mầu xanh lá cây). Khúc bên phải để viết code của ứng dụng (mầu đỏ). Khúc dưới cùng để chạy ứng dụng, xem kết quả (mầu xanh nước biển)
Tạo file Python đầu tiên
File Python là gì? Đây là file code để viết chương trình chạy phan tích dữ liệu. Nếu bạn làm việc với nhiều dữ liệu khác nhau có thể chia thành nhiều file code khác nhau để tiện lưu trữ, nó cũng như các file/ folder làm việc trên máy tính vậy.
Tại khúc bên trái của Pycharm, đứng ở thư mục venv (library root) –> Click chột phải, chọn New –> Chọn tiếp Python file –> Đặt tên File Name của ứng dụng –> nhấn Enter.
Sau khi tạo trên cửa sổ bên trái sẽ có thêm 1 file Python, trên cửa sổ bên phải sẽ có thêm 1 tab file Python để code.
Cài đặt các thư viện phục vụ Data Analysis
Vậy thư viện lập trình là gì? Là nơi chứa đựng các hàm sẵn có để chúng ta sử dụng trong quá trình khai thác dữ liệu. Dưới đây là một số thư viện chính sử dụng cho việc phân tích dữ liệu trong đó mình sử dụng nhiều nhất là thư viện Pandas và matplotlib.
Nói qua về một vài thư viện:
- Thư viện Pandas: Thư viện này sử dụng khái niệm DataFrame (df) để lưu trữ dữ liệu, có thể đọc/ghi dữ liệu với nhiều định dạng (như: csv, text, excel,…), thêm/sửa/xóa các trường dữ liệu, có thể nhóm dữ liệu (group), xoay chiều dữ liệu (pivot), tính toán (sum, count,…)… trong đó ấn tượng nhất là tốc độ xử lý dữ liệu nhanh hơn nhiều so với việc sử dụng các hàm của excel.
- Thư viện Matplotlib thì sao? Thư viện này lại chuyên dung cho mục đích biểu diễn lên thành đồ thị
Trong phạm vi bài viết sơ lược ban đầu này mình tạm dừng tại mức mô tả chung như trên. Các bài viết tiếp theo chúng ta sẽ cùng khai thác vào các bài toán cụ thể để xem việc sử dụng các thư viện như thế nào, ý nghĩa nhiều hơn của các thư viện này.
Vậy thì làm sao để cài được thư viện vào ứng dụng? Trên cửa sổ chạy ứng dụng (ở khúc mầu xanh nước biển phía trên, gõ lệnh cài đặt thư viện theo cú pháp như sau:
# Nếu cài một thư viện thì
pip install <tên thư viện>
# Nếu cài nhiều thư viện thì cách nhau bởi dấu cách
pip install <tên thư viện 1> <tên thư viện 2>
Code language: HTML, XML (xml)
Ví dụ dưới đây là install 2 thư viện Pandas và Matplotlib:
pip install pandas matplotlib
Sau khi gõ lệnh trên, hệ thống sẽ cài đặt thư viện và loading dữ liệu thư viện về, hình loading dữ liệu và cài đặt như sau:
Rồi xong con ong ! Thư viện cài cắm các kiểu con đà điểu rồi và bây giờ thì cùng viết code nào 😀
Phần 4 – Thử một bài Data Analysis với Python
Phần lý thuyết của bài hôm nay xin được dừng ở đây, tiếp theo chúng ta chuyển qua cùng thực hành một bài code nho nhỏ cho đỡ nhàm chán nhé!
Bài tập như sau:
- Đọc 1 file dữ liệu dạng csv, đưa dữ liệu vào DataFrame trong thư viện Pandas.
- Sau đó in file đã đọc được ra màn hình
Bài này khá đơn giản, chỉ với mục đích cho các bạn hiểu được cách viết một chương trình python như nào thôi.
# Đầu tiên import thư viện pandas để đọc file csv
import pandas as pd
# Tiếp theo ta mở file testData.csv
df = pd.read_csv('testData.csv')
# và in ra màn hình 10 dòng đầu tiên
print(df.head(10))
# hoặc in ra màn hình toàn bộ dữ liệu
print(df.head(10))
Code language: PHP (php)
Sau đó save lại thành file test.py chẳng hạn. Bây giờ các bạn nhìn xuống phần Terminal bên dưới cửa sổ Pycharm, bấm vào và gõ lệnh:
python test.py
Code language: CSS (css)
Kết quả sẽ được in ra màn hình:
Các bạn chú ý cấu trúc thư mục để chuyển đến thư mục tương ứng chứa file test.py cho chuẩn nhé (chuyển qua lại giữa các thư mục dùng lệnh cd thần thánh nhé)
OK! Bài Data Analysis với Python này đã dài, mình xin tạm dừng tại đây. Trong bài tiếp theo chúng ta sẽ cùng tìm hiểu nhiều bài toán khác nhau trong lĩnh vực Data Analysis nhé.
Ps: Mình có link sẵn 1 github bài này để các bạn thử nghiệm, kèm theo data csv luôn tại đây: https://github.com/thangnch/MiAI_DA_Start
Hẹn gặp lại các bạn! Chào tạm biệt và chúc các bạn thành công!
Hãy join cùng cộng đồng Mì AI nhé!
Fanpage: http://facebook.com/miaiblog
Group trao đổi, chia sẻ: https://www.facebook.com/groups/miaigroup
Website: https://miai.vn
Youtube: http://bit.ly/miaiyoutube
Cảm ơn a Thắng, bài viết rất bổ ích với các mem bắt đầu theo DA. Em xin bổ sung thêm 1 tí về cái IDE, nếu không muốn cài vào máy, mình có thể sử dụng Google Colab có trên Drive . Cách này vừa không cần cài nặng máy, vừa có chạy code mạnh mẽ, vừa là nơi lưu trữ code của mình luôn.
Thanks em. Anh sẽ bổ sung vào bài luôn nhé!
Cảm ơn Thắng!
Mình bổ sung thêm là Thắng nên nói rõ cần load tập tin test.data vào trong thư mục có chứa project hiện tại
Mình ko biết cứ tưởng nó nằm trong pandas nên thử gọi ra ko đc.
Dạ thanks bác nhiều. Để em bổ sung luôn!
Dòng cuối để in toàn bộ dữ liệu ra màn hình thì là print(df) chứ không phải là print(df.head(10))
vẫn đúng nha câu lệnh print(df.head(10)) này là in 10 dòng đầu tiên ra