[3주차]데이터 세트 분류, 로지스틱 회귀과 단일층 신경망 관계
유방암 데이터 세트 cancer에는 569개의 샘플과 30개의 특성이 이며, 데이터는 실수 범위의 값이고, 양수이다. 박스 플롯으로 그림을 그려보면 위와 같다. 4, 14, 23, 24번째 값이 다른 값들에 비해 분포가 크다. 4, 14, 23, 24번째 특성의 인덱스를 리스트로 묶어 전달하여 특성을 살펴보니 area와 관련된 특성임을 알 수 있다. 타깃 데이터에는 212개의 음성값과 357개의 양성값이 있다는 것을 알 수 있다. 일반화 성능 : 훈련된 모델의 실전 성능 훈련 데이터 세트, 테스트 세트로 나누는 규칙 1. 테스트 세트보다 훈련 세트가 많아야 한다. 2. 훈련 데이터 세트를 나누기 전 양성, 음성 클래스가 한쪽에 몰리지 않도록 한다. 훈련 세트와 테스트 세트로 나누기 cancer 데이터 셋..