ML in Action.. Ch. 1

올해 6월에 쓰고는 처음 포스팅이네요. 그간 직장을 옮기고, 자바 / 클로져 공부하고, 빅데이터 좀 파보고.. 300 줄 이내의 안드로이드 앱 하나 만드니 반년이 갔네요..

12월부터는 머신 러닝 살짝 파보려고 합니다.

매닝의 인 액션 시리즈..  참 좋은 것 같네요..

Part 1   Classification

이 책의 첫 두 파트는 supervised learning.  관리된 러닝은 목표 변수를 규정하고 데이터로부터 배우도록 지시한다.
목표 값의 두 경우.  노미널 : 참/거짓, 물고기, 포유류, 식물 …
실수 : 이 경우 ‘회기’ 라고 불림.  이것은 파트 2 에서 공부한다.
첫번째 파트는 분류 .. 에 촛점을 맞춘다.

7장의 분류 불균형으로 마무리. 다른 클래스들보다 한 클래스의 데이터가 더 많을 경우… 실세계의 문제.

Ch. 1 … Machine learning basics

머신 러닝의 여러 사례. 스팸 필터, 제품 추천, 얼굴 인식..

파이썬 : 머신러닝에 적합.  NumPy : 매트릭스 연산 등 제공.

1.1   What is ML ?

스팸 메일을 제목의 한 단어만 갖고 판단하기는 힘들다. 하지만, 여러 단어의 조합을 보고, 메일 전체의 길이 등 여러 요소를 같이 보면 더 잘 판단할 수 있다. 머신 러닝은 데이터를 정보로 바꾼다.

머신러닝은 컴퓨터 공학, 엔지니어링, 통계, 기타 다른 분야 등의 교차점에 놓여있다. 정치학, 지질학에 적용되기도 한다.

머신러닝은 통계학을 사용한다. 통계학은 회사가 소비자를 속이기 위해 악용되기도 한다.
인간의 동기는 모델링하기 어렵다.  사회 과학에서 60% 가 맞으면 성공적으로 간주된다. 사람 행동의 60%만 예측하면 잘 한 것이다.
항상 맞을 수는 없나?

완전한 모델링이 불가능한 예. 인간은 행복을 최대화 하기 위해 행동하지 않는가? 이것에 근거해 행동을 예측할 수 있는가?  아마도,  하지만 모든 사람의 행복은 다르기 때문에 어렵다.  그러므로, 사람의 행복을 극대화하는 것에 대한 가정이 옳을 지라도 행복의 정의는 너무 복잡하다.
인간 행동을 결정론적으로 모델링하기 어려운 다른 예들이 많다. 이런 문제에 대해서 통계의 몇몇 도구를 사용할 필요가 있다.

1.1.1 Sensors and the data deluge

웹에는 인간으로 부터의 데이터가 있는데, 요즘은 그 외의 데이터가 더 쌓이고 있다. 센서의 기술은 새롭지 않지만, 그것을 웹에 연결하는 것은 새롭다.

지진의 예.  센서.. 핸드폰..  의 3축 magnetometers.  지진 예측에 사용 가능.. 최소 비용.

1.1.2 ML will be more important in the future

향후 10년간 가장 매력적인 직업은 ‘통계학자’ 일 것이다.

1.2   Key terminology

새 분류 시스템. 엑스퍼트 시스템.    분류..

알고리즘을 만들고는.. 훈련시켜야..  또는 배우는 것을 허락해야..  이를 위해 training set 이라는 데이터를 먹여야 한다.
분류에서 타겟 변수는 노미널 값을 받고 회기 작업에서 값은 연속적일 수 있다.
트레이닝 셋트에서 타겟은 알려져 있다. 기계는 특징과 타겟 변수사이의 관계를 찾음으로 학습한다.
타겟 변수는 ‘종’ 이고 노미널 값을 취함으로 이것을 줄일 수 있다.
분류에서 타겟 값은 classes 로 불리고 유한한 개수의 클래스가 있다고 가정한다.

보통은 트레이닝 셋트와 별개의 테스트 세트가 있다. 초기엔 트레이닝 예제가 먹여진다. 이것이 기계학습이 일어날 때이다.
다음에 테스트 셋을 적용한다.  알고리즘이 얼마나 정확한지 추정.

새 분류작업을 한 후 기계가 뭘 학습했는지 알 수 있나?  이것이 knowledge representation 이다.
답은 ‘경우에 따라 다름’ 이다. 어떤 알고리즘은 사람이 읽기 더 좋은 KR 을 갖는다. 이것은 몇개의 법칙으로 표현될 수 있다.
어떤 것은 가능성의 분포 또는 트레이닝 세트로부터의 예 일 수도 있다.
어떤 경우 우리는 엑스퍼트 시스템을 만드는 것 보다 오직 ‘인지 표현’ 에만 관심이 있을 수도 있다.

1.3   Key tasks of ML

이전 예제는 ‘분류’ 에 관한 것.  인스턴스가 어떤 클래스에 들어갈 것이냐.  기계학습의 다른 분야는 ‘회기’ 임.
이것은 수치 예측이다.  이 두가지는 감독된 학습의 예임. 뭘 예측할 지 주어지기 때문에 ‘감독’ 된 것임.
이 반대는 ‘비감독 학습’.  여기선 데이터에 주어진 라벨이나 목표 값이 없다.
비슷한 아이템을 그루핑하는 작업은 ‘클러스터링’ 이라 한다.  비감독 학습에서 데이터를 설명하는 통계학적 값을 찾길 원할 수 있다.
이것은 density estimation 으로 알려져 있다.
다른 예는 많은 특성에서 데이터를 단순화시켜 2, 3차원 형태로 시각화하는 것이다.

1.4  How to choose the right algorithm

노미널, 목표값?. missing value 가 있나? outliers ?  needle in a haystack. ..

1.5  Steps in developing a ML application

> Collect data.
> Prepare the input data.
> Analyze the input data
> Human involvement
> Train and algorithm.  ML
> Test the algorithm
> Use it.

1.6   Why Python?

clear syntax. easy text manipulation

1.6.1 Executable pseudo-code

풍부한 기본 자료형, 객체 지향, procedual, 함수형 형태로 가능.  정규식 없이 텍스트 다루기.  …

1.6.2 Python is popular

NumPy, SciPy, Matplotlib ==>  Pylab

1.6.3 What Python has that other languages don’t have

Matlab, Mathmatica .. expensive.  Java, C … too many ceremony.

1.6.4 Drawbacks

Not as fast as Java or C.
Boost C++ library,  Python, PyPy.

1.7  Getting started with the NumPy library

Advertisements

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중