본문 바로가기

AI/Machine Learning

(8)
FM (Factorization Machine) 1. FM (Factorization Machine) 위의 그림은 MF에 대한 내용 MF는 user, item, rating의 data를 이용하는 추천 시스템 하지만 sparse한 환경이 존재하는 상황에서는 사용하지 못함 이러한 한계점을 해결하기 위해 FM 이 개발되었음 FM은 user, item, rating을 categorical 하게 분할 categorical feature는 one-hot 형태로 표현 따라서 sparse한 벡터는 일반적인 경우 2. Objective Function 다항회귀식으로 추천시스템의 목적 함수를 나타냄 첫번째 식은, 각 사용자에 weight를 부여한 식 두번째 식은, 사용자의 row 간의 weigh를 부여한 식 row 들간의 관계를 파악하기 위함 세번째 식은, b는 bia..
MF (Matrix Factorization) with SGD 더보기 추천 시스템 관련 논문 읽어 보다가 개념 정리가 잘 안되어 있다고 판단되서 글 작성해봅니당 :) !! 1. MF (Matrix Factorization) 선형대수학의 SVD(Singular Value Decomposition)를 응용한 방법론 하나의 행렬을 여러 행렬로 분할한다는 관점 기존의 분할된 행렬에서 핵심 정보만을 사용한다는 효율적인 개념 Full SVD에서 특이값이 높은 상위 k개 를 사용하여 Truncated SVD 구현 Full SVD의 도출값인 A는 Truncated SVD의 도출값과 유사할 것이라는 관점 MF는 Truncated SVD의 왼쪽 두 행렬을 user latent matrix로 사용 MF는 Truncated SVD의 오른쪽 한 행렬을 item latent matrix로 ..
[Practical Time Series Analysis (실전 시계열 분석)] Chapter 06 시계열의 통계 모델 Chapter06 시계열의 통계 모델 들어가며 6장에서 다루게 될 모델 자기회귀(AR) 모델, 이동평균(MA) 모델, 자기회귀누적이동평균(ARIMA) 모델 벡터자기회귀(VAR) 계층형 모델 6.1 선형회귀를 사용하지 않는 이유 선형회귀 분석은 독립 항등 분호 데이터가 있다는 것을 가정한다. 하지만 시계열 데이터는 해당되지 않는다. 6.2 시계열을 위해 개발된 통계 모델 6.2.1 자기회귀 모델 자기회귀(AR) 모델은 과거가 미래를 예측한다는 직관적인 사실에 의존한다. 6.2.2 이동평균 모델 이동평균 (MA) 모델은 각 시점의 데이터가 푀근의 과거 값에 대한 '오차' 항으로 구성된 함수로 표현된 과정에 의존한다. 이때 각 오차항은 서로 독립적이다. 6.2.3 자기회귀누적이동평균 모델 시계열이 AR 및 M..
[Practical Time Series Analysis (실전 시계열 분석)] Chapter 05 시간 데이터 저장 Chapter05 시간 데이터 저장 들어가며 시계열 스토리지 크기에 따른 성능 확장 방법에 대한 중요성 데이터 접근에 대한 무작위적인 방식 대 순차적 방식의 중요성 자동화 스트립트의 중요성 현재 가용 기술 SQL 데이터베이스 NoSQL 데이터베이스 단층 파일 형식 5.1 요구 사항 정의 5.1.1 실시간 데이터와 저장된 데이터 정보의 유실 없이 데이터를 줄일 수 있는 경우 천천히 변하는 변수 상태 변수를 저장한다면 값이 변한 데이터만 기록한다. 노이즈가 낀 높은 빈도의 데이터 높은 수준의 노이즈는 각 개별 측정의 가치를 떨어뜨린다. 사전에 데이터의 종합 집계를 고려해야 한다. 오래된 데이터 오래된 데이터일수록 활용가능성이 줄어든다. 5.2 데이터베이스 솔루션 5.2.1 SQL과 NoSQL 원래의 SQL ..
[Practical Time Series Analysis (실전 시계열 분석)] Chapter 04 시계열 데이터의 시뮬레이션 더보기 [목차] 4.1 시계열 시뮬레이션의 특별한점 - 4.1.1 시뮬레이션과 예측 4.2 코드로 보는 시뮬레이션 - 4.2.1 스스로 직접 만들어보기 - 4.2.2 스스로 실행하는 시뮬레이션 세계 구축 - 4.2.3 물리적인 시뮬레이션 4.3 시뮬레이션에 대한 마지막 조언 - 4.3.1 통계적인 시뮬레이션 - 4.3.2 딥러닝 시뮬레이션 4.4 보충 자료 Chapter 04 시계열 데이터의 시뮬레이션 들어가며 1) 이 장은 크게 세 부분으로 나뉜다. 첫째, 시계열 데이터 시뮬레이션과 다른 종류의 데이터 시뮬레이션을 비교한다. 그러면서 시간의 흐름을 처리할 때 새로운 분야에서 특별히 고려해야할 사항에 집중한다. 둘째, 실제 코드 기반으로 시뮬레이션의 몇 가지 예를 살펴본다. 셋째, 시계열 시뮬레이션의 동..
[Practical Time Series Analysis (실전 시계열 분석)] Chapter 03 시계열의 탐색적 자료 분석 Chapter03 시계열의 탐색적 자료 분석¶ 경로 지정¶ In [1]: from google.colab import drive drive.mount('/content/drive') Mounted at /content/drive In [2]: %cd /content/drive/MyDrive/KHUDA/KHUDA_Chap03/ /content/drive/MyDrive/KHUDA/KHUDA_Chap03 필요한 라이브러리 불러오기¶ In [3]: import rpy2 %load_ext rpy2.ipython import numpy as np import pandas as pd import matplotlib.pyplot as plt import statsmodels.graphics.tsaplots as sgt..
[DACON] 문화 | 영화 관객수 예측 모델 개발 더보기 https://dacon.io/competitions/open/235536/overview/description [문화] 영화 관객수 예측 모델 개발 - DACON 좋아요는 1분 내에 한 번만 클릭 할 수 있습니다. dacon.io 영화 관객 수 데이터를 활용한 데이터 분석¶ 1. 라이브러리 및 데이터¶ Library & Data¶ In [3]: # 패키지 불러오기 import pandas as pd import lightgbm as lgb In [11]: # train, test, submission dara 불러오기 train = pd.read_csv('data/movies_train.csv') test = pd.read_csv('data/movies_test.csv') submission =..
[DACON] 영화 데이터를 활용한 데이터 분석1 (EDA) 1. 라이브러리 및 데이터¶Library & Data¶ In [2]: # 코랩 드라이브 마운트 하기 from google.colab import drive drive.mount("/content/drive") Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True). In [3]: # 판다스 패키지 불러오기 import pandas as pd import lightgbm as lgb In [4]: # 데이터 불러오기 train = pd.read_csv('/content/drive/MyDrive/DACON/movies/data/m..