안녕하세요
저는 Computer Science 와 Data Science를 공부하며 다양한 프로젝트에 도전하고 있습니다.
💡 프로젝트
Wafer-Defect-Classification
증강 데이터 생성과 반지도학습 기법을 결합해 다양한 웨이퍼 결함 유형을 분류하는 딥러닝 모델 구축
제한된 라벨 데이터를 효과적으로 활용하기 위해 준지도 학습 기법을 적용한 프로젝트로, FixMatch 알고리즘을 기반으로 pseudo-label 생성과 약한/강한 증강 전략, 특히 autoencoder를 통한 재구성 기법을 결합하여 반도체 제조 공정의 웨이퍼 결함 탐지 문제를 해결하였습니다. 간결한 CNN 모델을 활용해 지도학습 대비 약 2~3% 높은 테스트 정확도를 달성하며, 라벨이 없는 데이터를 활용해 준지도 학습의 효과를 극대화할 수 있음을 입증하였습니다.
Efficient-Semiconductor-Anomaly-Detection
반도체 센서 데이터를 활용한 결함 예측: 데이터 전처리, SMOTE, 차원 축소 및 최적화 기법을 활용한 통합 머신러닝 솔루션
본 연구는 SECOM 데이터셋을 활용하여 반도체 제조공정의 이상 탐지 문제를 해결하기 위한 통합 머신러닝 파이프라인을 제안합니다. 센서 신호 데이터를 전처리하여 결측치 보완, 불필요한 피처 제거 및 다중공선성 완화를 수행한 후, SMOTE 기법으로 클래스 불균형 문제를 극복하였습니다. 이어서 PCA와 통계 기반 피처 선택을 통해 고차원 데이터를 효과적으로 축소하여 노이즈를 줄이고 모델 학습의 효율성을 높였으며, 최종적으로 GridSearchCV를 통해 다양한 분류기의 하이퍼파라미터를 최적화하여 높은 예측 정확도와 낮은 오탐률(FPR)을 달성하였습니다.
Climate-Driven Incident-Prediction-Framework
기후 및 지역 데이터 기반 사고 유형 예측: 전처리 자동화, 신경망 모델 최적화 및 실시간 API 서비스를 통한 종단간 머신러닝 시스템
기상 데이터와 지역 정보를 활용해 산불, 홍수, 폭풍 등 사고 유형을 예측하는 딥러닝 솔루션입니다. 범주형 변수 인코딩, 특성 스케일링, 상태별 기후 패턴 분석을 통한 데이터 강화를 수행하고, TensorFlow 기반의 심층 신경망을 구축하였습니다. FastAPI로 구현된 추론 API 서비스와 모델 버저닝 시스템을 결합하여 실제 운영 환경에 즉시 배포 가능한 architecture를 제안했습니다.
SLDT (Sign Language Detection Translator)
본 프로젝트는 깊이 있는 학습 기법 중 하나인 LSTM(Long Short-Term Memory) 신경망을 활용하여, 수화 제스처를 실시간 음성으로 변환하는 시스템을 개발하는 것을 목표로 합니다. 이를 통해 청각 장애인과 비장애인 사이의 소통 격차를 줄이고, 모두가 보다 원활하게 소통할 수 있도록 돕고자 합니다.
Impact-of-Age-Height-Handedness-on-Tennis-Match-Outcomes
테니스 경기 결과에 미치는 연령·신장·주 사용 손 영향 분석: ATP 2022 데이터 기반 다변량 통계 분석
ATP 2022 경기 데이터를 기반으로, 테니스 선수들의 나이, 키, 그리고 손잡이 여부가 승리 확률에 미치는 영향을 단순 및 다중 회귀분석, 상관 분석 등 다양한 통계 기법을 활용해 평가한 프로젝트입니다. 본 분석은 회귀모델과 신뢰구간 분석을 통해 나이와 키의 유의미한 영향력을 정량화하고, 손잡이 여부에 따른 승리 확률 차이를 도출하여 경기 결과에 미치는 주요 요인들을 심도 있게 파악하였습니다.
Probabilistic-Language-Identification
베이즈 추론을 활용해 텍스트가 영어인지 스페인어인지 판별하는 시스템
UW-Path-Finder
위스콘신 대학교 매디슨 캠퍼스 내 건물 간 최단 경로를 다익스트라 알고리즘으로 찾는 Java 기반 애플리케이션