안녕하세요
저는 Computer Science 와 Data Science를 공부하며 다양한 프로젝트에 도전하고 있습니다.
💡 프로젝트
Wafer-Defect-Classification(준지도학습으로 웨이퍼 결함을 분류하는 이미지 인식 모델)
증강 데이터 생성과 반지도학습 기법을 결합해 다양한 웨이퍼 결함 유형을 분류하는 딥러닝 모델 구축
제한된 라벨 데이터를 효과적으로 활용하기 위해 준지도 학습 기법을 적용한 프로젝트로, FixMatch 알고리즘을 기반으로 pseudo-label 생성과 약한/강한 증강 전략, 특히 autoencoder를 통한 재구성 기법을 결합하여 반도체 제조 공정의 웨이퍼 결함 탐지 문제를 해결하였습니다. 간결한 CNN 모델을 활용해 지도학습 대비 약 2~3% 높은 테스트 정확도를 달성하며, 라벨이 없는 데이터를 활용해 준지도 학습의 효과를 극대화할 수 있음을 입증하였습니다.
EV Charging Infrastructure Optimizer
Demand Analysis Based on Traffic and Registration Data with K-Means Clustering for Additional Installation Identification
By integrating KEPCO's charging station deployment data, traffic volume, and EV registration statistics, this project proposes an optimized EV charging infrastructure. It calculates a normalized demand index by region, diagnoses infrastructure imbalances by determining the gap between existing installations and demand, and applies K-Means clustering to areas with a positive gap to identify 703 candidate locations for additional installations, supporting data-driven infrastructure policy.
Efficient-Semiconductor-Anomaly-Detection(반도체 센서 데이터를 활용한 불량 예측 머신러닝 모델)
반도체 불량 탐지 정확도 향상: 데이터의 클래스 불균형, 고차원성, 결측치 문제를 해결하는 SMOTE, PCA, 통계 기반 피처 선택 기반 파이프라인
본 연구는 SECOM 데이터셋을 활용하여 반도체 제조공정의 이상 탐지 문제를 해결하기 위한 통합 머신러닝 파이프라인을 제안합니다. 센서 신호 데이터를 전처리하여 결측치 보완, 불필요한 피처 제거 및 다중공선성 완화를 수행한 후, SMOTE 기법으로 클래스 불균형 문제를 극복하였습니다. 이어서 PCA와 통계 기반 피처 선택을 통해 고차원 데이터를 효과적으로 축소하여 노이즈를 줄이고 모델 학습의 효율성을 높였으며, 최종적으로 GridSearchCV를 통해 다양한 분류기의 하이퍼파라미터를 최적화하여 높은 예측 정확도와 낮은 오탐률(FPR)을 달성하였습니다.
SLDT (딥러닝 기반 수화 감지 음성 번역기)
본 프로젝트는 깊이 있는 학습 기법 중 하나인 LSTM(Long Short-Term Memory) 신경망을 활용하여, 수화 제스처를 실시간 음성으로 변환하는 시스템을 개발하는 것을 목표로 합니다. 이를 통해 청각 장애인과 비장애인 사이의 소통 격차를 줄이고, 모두가 보다 원활하게 소통할 수 있도록 돕고자 합니다.
Climate-Driven Incident-Prediction-Framework
기후 및 지역 데이터 기반 사고 유형 예측: 전처리 자동화, 신경망 모델 최적화 및 실시간 API 서비스를 통한 종단간 머신러닝 시스템
기상 데이터와 지역 정보를 활용해 산불, 홍수, 폭풍 등 사고 유형을 예측하는 딥러닝 솔루션입니다. 범주형 변수 인코딩, 특성 스케일링, 상태별 기후 패턴 분석을 통한 데이터 강화를 수행하고, TensorFlow 기반의 심층 신경망을 구축하였습니다. 또한 사용자가 지역, 날짜, 날씨 정보를 입력하면, 학습된 모델이 이를 바탕으로 예측 가능한 재난 유형과 그 위험도(확률값)를 반환합니다. 이 기능은 FastAPI로 구현된 실시간 추론 API와 연동되어 있으며, 모델 버저닝 시스템을 통해 안정적인 운영 환경 배포가 가능하도록 설계되어 있습니다.
Impact-of-Age-Height-Handedness-on-Tennis-Match-Outcomes
테니스 경기 결과에 미치는 연령·신장·주 사용 손 영향 분석: ATP 2022 데이터 기반 다변량 통계 분석
ATP 2022 경기 데이터를 기반으로, 테니스 선수들의 나이, 키, 그리고 손잡이 여부가 승리 확률에 미치는 영향을 단순 및 다중 회귀분석, 상관 분석 등 다양한 통계 기법을 활용해 평가한 프로젝트입니다. 본 분석은 회귀모델과 신뢰구간 분석을 통해 나이와 키의 유의미한 영향력을 정량화하고, 손잡이 여부에 따른 승리 확률 차이를 도출하여 경기 결과에 미치는 주요 요인들을 심도 있게 파악하였습니다.
Probabilistic-Language-Identification
베이즈 추론을 활용해 텍스트가 영어인지 스페인어인지 판별하는 시스템
UW-Path-Finder
위스콘신 대학교 매디슨 캠퍼스 내 건물 간 최단 경로를 다익스트라 알고리즘으로 찾는 Java 기반 애플리케이션