Kaggleのタイタニック生存予測。特徴量エンジニアリングにより、テスト精度82.6%を達成。
KaggleのTitanic生存予測チャレンジを通して、データ分析における**「特徴量エンジニアリング」**の重要性を証明することを目的としました。
- 予測精度(テストデータ): 82.6% を達成 (目標80%クリア)。
- 独自ロジック: 敬称、客室デッキ、家族サイズといった当時の社会的背景を考慮した特徴量を構築。
ロジスティック回帰の係数分析により、当時の**「女性・子供優先」という社会的な救助ルール**が、データ分析によって明確に裏付けられました。
- Python, Pandas, Scikit-learn (Random Forest, Logistic Regression)
- Google Colab (分析環境), Gemini (分析サポート)
分析の全コードと考察(Chapter 1〜5)は、以下のNotebookファイルをご覧ください。 Titanic_Analysis.ipynb
(あなたのGitHub ID)