'Data Science' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

목록Data Science (12)

민듀키티

핸즈온 머신러닝 (Chapter 6. 결정트리)

- 결정트리는 분류, 회귀, 다중출력 작업까지 가능한 다재다능한 머신러닝 알고리즘임 - 복잡한 데이터 셋도 학습할 수 있다는 장점을 가지고 있음 - 랜덤 포레스트의 기본구성요소이기도 함 1. 결정 트리 학습과 시각화 [붓꽃 데이터셋에 DecisionTreeClassifier를 훈련시키는 코드] from sklearn.datasets import load_iris from sklearn.tree import DecisionTreeClassifier iris = load_iris() X = iris.data[:, 2:] # 꽃잎 길이와 너비 y = iris.target tree_clf = DecisionTreeClassifier(max_depth=2, random_state=42) tree_clf.fit(X..

Data Science/핸즈온 머신러닝 2022. 4. 6. 17:04

핸즈온 머신러닝 (Chapter 5. 서포트 벡터 머신)

1. 선형 SVM 분류 - SVM : 강력하고 선형이나 비선형 분류, 회귀, 이상치 탐색에도 사용할 수 있는 다목적 머신러닝 [SVM의 기본원리] - 선형 SVM분류 : 두 클래스가 직선으로, 선형적으로 구분됨 - 결정경계 : 오른쪽 그래프에 있는 실선 - 서포트 벡터 :도로 바깥쪽에 훈련 샘플을 더 추가해도 결정경계에는 전혀 영향을 미치지 않는 샘플 (1) 소프트 마진 분류 & 하드 마진 분류 - 하드 마진 분류 : 모든 샘플이 도로 바깥쪽에 올바르게 분류되어 있는 것 - 오른쪽 그래프의 결정계계는 하드마진을 찾을 수 없음 - 그렇기 때문에, 유연한 모델이 필요함 - 소프트 마진오류 : 도로의 폭을 가능한 넓게 유지하는 것과 마진오류 사이에 적절한 균형을 찾는 것 하이퍼 파라미터 설정 - C (하이퍼 ..

Data Science/핸즈온 머신러닝 2022. 4. 6. 15:28

핸즈온 머신러닝 (Chapter 4. 모델훈련)

1. 선형회귀 간단한 선형회귀 모델의 예시 ▶ θ : 모델의 파라미터 ▶ 가중치의 합과 편향이라는 상수를 더해 예측을 만듬 이를 벡터형태로 표기한다면 ? ▶ θ와 x의 점곱으로 표현할 수 있으며, 벡터는 주로 열 벡터로 표기하기 때문에 θ를 전치시켜서 선형회귀 식을 표현 그러면, 최적의 θ을 찾는 방법은 ? ▶ RMSE를 최소화하는 θ를 찾아야 함 (1) 정규방정식 비용함수를 최소화하는 θ를 찾기 위한 해석적인 방법으로, 이를 정규방정식이라고 함 정규방정식 공식을 테스트하기 위한 코드 1) 데이터 생성하기 import numpy as np # 0에서 2까지의 크기의 행렬을 생성함 X = 2 * np.random.rand(100, 1) # noise 까지 더해주기위해 np.random.randn을 해줌..

Data Science/핸즈온 머신러닝 2022. 4. 5. 23:04

핸즈온 머신러닝 (Chapter 3. 분류)

1. MNIST - 딥러닝, 머신러닝 분야에서 예제 데이터 셋으로 많이 사용하는 것 중에 하나 - 손으로 쓴 70000개의 작은 숫자 이미지를 모은 데이터 셋임 (1) 사이킷런으로 데이터 읽기 : MNIST의 구조 from sklearn.datasets import fetch_openml mnist = fetch_openml('mnist_784', version=1, as_frame=False) mnist.keys() >>> dict_keys(['data', 'target', 'frame', 'categories', 'feature_names', 'target_names', 'DESCR', 'details', 'url']) data : 행,열로 구성된 data DESCR : 데이터셋을 설명하는 DESCR..

Data Science/핸즈온 머신러닝 2022. 3. 20. 23:50

한 번에 끝내는 딥러닝/인공지능 (Numpy Tutorial)

1. List 와 비교 (1) list와 numpy 만들기 L = [1, 2, 3] A = np.array([1, 2, 3]) print(L) print(A) >>> [1, 2, 3] [1 2 3] (2) 더하기 # 리스트 L = L + [5] print(L) >>> [1, 2, 3, 5] # 넘파이 A = A + np.array([5]) print(A) >>> [6 7 8] (3) 곱하기 # list의 모든 원소를 2배로 만들기 L = [1, 2, 3] L2 = [] for item in L: L2.append(item*2) print(L2) >>> [2, 4, 6] # ndarray의 모든 원소 2배로 만들기 A = np.array(L) A2 = A*2 print(A2) >>> [1, 2, 3, 1,..

Data Science/한번에 끝내는 딥러닝&인공지능 2022. 2. 21. 21:20

한 번에 끝내는 딥러닝/인공지능 (Convolutional Neural Networks)

지금까지 배운 내용을 다 정리하는 부분 1. Modules of Classifier 사람의 손글씨 모델을 만든다라고 했을 때, 사람의 손글씨를 그대로 사용한다면 모델의 성능이 떨어진다. 그래서 중요한 정보를 담은 Feature vector가 필요하게 된다. 그래서 만들어진 Feature vector를 classifier 모델에 넣는다. Feture Extraction을 하고, 이것을 flatten 시켜줘서 classifier 모델에 넣어주게 된다. classifier 는 앞에서 배운 것과 같이 Dense layer로 구성이 된다. 2. LeNet 향후 보고서를 작성할 때, 아래와 같이 표를 명시해서 다른 사람들에게 모델을 설명할 수 있어야 한다.

Data Science/한번에 끝내는 딥러닝&인공지능 2022. 2. 21. 21:11

한 번에 끝내는 딥러닝/인공지능 (Pooling Layers)

1. Max / Average Pooling Pooling을 사용하는 이유 ? Feature map 들의 특징을 가지면서, 차원을 감소시키기 위해 풀링을 사용함 사진에서도 알 수 있드시, Max Pooling : 가져온 윈도우에서 가장 큰 값을 선택하는 것 Average Pooling : 가져온 윈도우의 값들을 평균내는 것 (1) Max Pooling Layers 윈도우를 뽑고, 최대값을 뽑는 방식으로 Max Pooling 과정이 진행된다. (2) Average Pooling Layers 윈도우를 뽑고, 윈도우 평균을 계산하는 방식으로 Average Pooling 과정이 진행된다. 2. Padding padding은 여백의 정보를 채우는 것을 의미한다. 이미지를 분석하는 경우, 모서리의 정보가 중요한 이..

Data Science/한번에 끝내는 딥러닝&인공지능 2022. 2. 8. 18:23

한 번에 끝내는 딥러닝/인공지능 (Conv Layers)

1. Image Tensors Conv Layers는 Image 처리시 많이 사용되는 것으로, 위와 같이 사진을 픽셀로 나누어 image tensor를 만들게 된다. 컴퓨터 상에서 이미지는 R, G, B로 표현이 된다. 그래서 위의 그림과 같이 3개의 RGB 채널이 모여 3차원의 텐서가 만들어지게 된다. 그리고 이를 이용해 컬러 이미지 N개를 만들면, 4차원의 텐서가 만들어지게 된다. 2. Correlation correlation은 두 신호 사이에 유사성을 측정해주는 도구이다. 사진과 필터의 크기가 같은 사이즈라고 가정할 때의 그림으로, 딥러닝에서 correlation 계산공식은 그림과 같다. x,f는 앞에서 배운 weight의 역할과 같다. 3*3 크기의 사진과 필터를 flatten을 시켜주면 위와 ..

Data Science/한번에 끝내는 딥러닝&인공지능 2022. 2. 8. 18:12

한 번에 끝내는 딥러닝/인공지능 (Loss Functions)

0. Loss Function의 종류 Mean Squared Error 값이 실수 형태 Binary Cross Entropy Error 값이 0,1 과 같은 이진분류 형태 Categorical Cross Entropy Error 값이 여러개 클래스와 같은 다중분류 형태 1. Mean Squared Error v[0] layer에서 activation 함수를 사용하지 않고, 다음 layer로 보내주게 됨 그래서 실제값(실수)와 예측값(실수)의 차를 구하게 되고, 이것을 평균을 내어 Mean Squared Error을 구하게 된다. 이렇게 Mean Squared Error(MSE)를 정의할 수 있고, 아래로 볼록한 2차 함수의 형태를 가진다. 2. Binary Cross Entropy Binary Cross..

Data Science/한번에 끝내는 딥러닝&인공지능 2022. 2. 8. 18:12

한 번에 끝내는 딥러닝/인공지능 (Sigmoid and Softmax)

1. Odds (오즈) 오즈는 확률을 표현하는 또 다른 방법으로 p / (1 - p) 로 정의할 수 있다. 예를 들어 망치로 꼬부러진 동전이 있다고 할 때, 앞면이 나올 확률이 0.3, 뒷면이 나올 확률이 0.7 이라고 가정하면, 오즈 > 0 : 앞면이 나올 확률 > 뒷면이 나올 확률 오즈 앞면이 나올 확률 이렇듯, 그냥 확률을 표현하는 또 다른 방법이다. 2. Logit 로짓은 앞선 오즈에 log를 취한 식으로 대칭적인 구조를 가진다. log ( p / (1 - p) ) Logit의 대표적인 특징 2가지 1) 확률의 범위는 [0,1][0,1] 이나, 로짓의 범위는 [−∞,∞] 2) 대칭적인 구조를 가짐 3. Logit and Sigmoid 로짓과 시그모이드의 관계는 다음..

Data Science/한번에 끝내는 딥러닝&인공지능 2022. 2. 7. 01:08

이전 Prev 1 2 Next 다음

목록Data Science (12)

민듀키티

티스토리툴바