머신러닝 9

Machine Learning - <1> Basics of Machine Learning

향후 머신러닝 기초부터 심화개념, 다양한 모델들, 실제 금융데이터에 적용한 사례들 및 딥러닝, 강화학습 개념 및 적용사례들을 차례로 정리해나가고자 한다. 머신러닝의 필요성 머신러닝이 필요한 이유는, 머신러닝은 복잡한 문제를 데이터를 기반으로 숨겨진 패턴을 인지하여 해결한다. 머신러닝 알고리즘은 데이터를 기반으로 통계적인 신뢰도를 강화하고 예측 오류를 최소화하기 위해 다양한 수학적 기법을 적용해 데이터 내의 패턴을 스스로 인지, 신뢰도 있는 예측결과를 도출해 내게 된다.   머신러닝의 분류 (1) 지도학습 (2) 비지도학습 (3) 강화학습  (1) 지도학습 - 명확한 결정값이 주어진 데이터를 학습하는 것 (분류, 회귀) (2) 비지도학습 - 결정값이 주어지지 않는 데이터를 학습하는 것 (군집화, 차원축소)..

머신러닝 2024.09.05

머신러닝 Scikit-Learn 사용법 요약

Scikit-learn : 머신러닝에 사용되는 지도/비지도 학습 알고리즘 제공하는 파이썬 라이브러리 내부 구조: Numpy, pandas, Matplotlib 등의 기술을 기반 학습 알고리즘(API) : 라이브러리 import 및 모델 생성 -> 피팅 -> 예측 API 사용방법 1. Scikit-Learn으로부터 적절한 estimator 클래스를 임포트해서 모델의 클래스 선택 2. 클래스를 원하는 값으로 인스턴스화해서 모델의 하이퍼파라미터 선택 3. 데이터를 특징 배열과 대상 벡터로 배치 4. 모델 인스턴스의 fit() 메세드를 호출해 모델을 데이터에 적합 5. 모델을 새 데이터에 대해서 적용 지도 학습: 대체로 predict() 메서드를 사용해 알려지지 않은 데이터에 대한 레이블 예측 비지도 학습: 대..

머신러닝 2023.03.24

Logistic Regression

Logistic Regression? In statistics, the logistic model (or logit model) is a statistical model that models the probability of an event taking place by having the log odds for the event be a linear combination of one or more independent variables. (Wikipedia) 위와 같이 Y = label (discrete values) & X1, X2 = features 인경우, X1, X2와 Y (label)간의 관계를 어떻게 구할 수 있을까? 먼저 Classification (분류)에 대해서 들여다보자. [Classi..

머신러닝 2023.02.24

Regression

Regression? 통계학에서 회귀 분석은 관찰된 연속형 변수들에 대해 두 변수 사이의 모형을 구한 뒤 적합도를 측정해 내는 분석 방법이다. 회귀분석은 시간에 따라 변화하는 데이터나 어떤 영향, 가설적 실험, 인과 관계의 모델링등의 통계적 예측에 이용 (위키백과) [Regression model] Regression means finding a relationship between independent variables Xi and dependent variables Y through model f. For the relationship, we want to see how strong the relationship is between each of the independent variables X wi..

머신러닝 2023.02.24

Sklearn (library)

Sklearn은 POO (Object Oriented Programming); 객체 지향 프로그래밍으로써, 객체들로 쉽게 데이터를 처리할 수 있는 프로그래밍 라이브러리이다. (위키백과) python은 Objects 기반의 programming language이다. 여기서 objects란 크게 attributes와 behavior 두가지로 나뉜다. attributes는 특성으로서 class 함수가 갖는 특성이고, behavior은 class 함수의 객체가 갖는 행동이다. class? In object-oriented programming, a class is an extensible program code template for creating objects, providing initial values ..

머신러닝 2023.02.23

Class, Object, POO (Object Oriented Programming), Inheritance

python은 Objects 기반의 programming language이다. 여기서 objects란 크게 attributes와 behavior 두가지로 나뉜다. attributes는 특성으로서 class 함수가 갖는 특성이고, behavior은 class 함수의 객체가 갖는 행동이다.  class? In object-oriented programming, a class is an extensible program code template for creating objects, providing initial values for state (member variables) and implementations of behavior (member functions or methods); (Wikipedia)..

머신러닝 2023.02.22

Trend-Filtering/ L1, L2 Regulation

금융데이터의 경우 시계열인 경우가 많다. 금융 시계열 모델은 노이즈 값이 많은 경향이 있으며, 분기별 국면파악을 위하여 노이즈를 줄일 수 있는 트렌드 필터링을 진행하였다. 추세파악을 위하여 노이즈를 필터링하여 금융 시계열 데이터를 매끄럽게 해준다. Trend-filtering이란 time-series data에서 regime (state)를 구하기 위해 노이즈를 제거하고 trend를 구하는 방법이다. 이는 노이즈가 많은 time-series data를 piecewise linear graph로 그래프로 바꾸어줌. Trend-filtering은 Second-order difference (2계 제차 선형 미분방정식)을 이용하여 noise를 제거하는 방법이다. second-order difference? 2..