[Python] Perceptron 학습 알고리즘 구현하기 (퍼셉트론)
※ Perceptron ■ 퍼셉트론 학습 알고리즘 구현 # 퍼셉트론 > import numpy as np > epsilon = 0.0000001 # 부동소수점 오차 방지 # 활성화 함수: step function > def step_func(t): i...
※ Perceptron ■ 퍼셉트론 학습 알고리즘 구현 # 퍼셉트론 > import numpy as np > epsilon = 0.0000001 # 부동소수점 오차 방지 # 활성화 함수: step function > def step_func(t): i...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ QR Decomposition (QR 분해) [A = QR] > import numpy as np > A = np.array([[1, 0, 1], [0, 1, 1], [1, 2, 0]]) > print(A) [[1 0 1] [0 1 1] [1 2...
※ 고유값 / 고유벡터 # numpy 활용 > import numpy as np > A = np.array([[3, 0], [8, -1]]) > A [[ 3 0] [ 8 -1]] > e, v = np.linalg.eig(A) > print(e) ...
※ 정규표현식 문자열을 처리할 때 사용하는 기법 메타 문자(meta characters)를 사용 ■ Meta Characters (메타 문자) 원래 그 문자가 가진 뜻이 아니라 특별한 의미를 가진 문자 ...
※ Closure (클로저) 함수 안에 내부 함수를 구현하고, 그 내부 함수를 리턴하는 함수 ■ Closure 예시 # e.g. # 일반적인 class를 이용한 함수 > class Mul: def __init__(self, m): self...
※ Time 시간 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import time ■ time □ .time() UTC 사용, 현재 시간을 실수 형태로 출력 # e.g. > time.time() # 1726664815.186217 ...
※ Random 난수를 생성하는 라이브러리 ■ 라이브러리 호출 > import random ■ random □ .random() 0과 1사이의 실수인 난수 출력 # e.g. > random.random() # 0.61997310596089...
※ Math 수학 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import math ■ math □ .gcd 최대 공약수 (greatest common divisor) 출력 # e.g. > math.gcd(60, 100, 80) # 2...
※ Itertools 순열, 조합 등의 계산이 가능한 라이브러리 ■ 라이브러리 호출 > import itertools ■ itertools □ .zip_longest() zip 함수와 동일하나, 길이가 다른 경우에도 사용이 가능 길이가 다른 경...
※ Datetime 날짜를 계산하기 위한 라이브러리 ■ 라이브러리 호출 > import datetime ■ datetime.date □ .days 일수 계산 # e.g. > day1 = datetime.date(2024, 1, 1) >...
모든 문제 출처: https://www.acmicpc.net # 킹, 퀸, 룩, 비숍, 나이트, 폰 # 체스는 총 16개의 피스를 사용하며, 킹 1개, 퀸 1개, 룩 2개, 비숍 2개, 나이트 2개, 폰 8개로 구성되어 있다. # 피스의 개수가 주어졌을 때, 몇 개를 더하...
※ Tensorflow
※ Vector (벡터) ■ 벡터의 덧셈 ## 직접 정의하기 def add(u, v): n = len(u) w = [] for i in range(0, n): value = u[i] + v[i] w.append(value) ...
from torch_geometric.data import InMemoryDataset 주로 그래프 데이터를 다룰 때 사용됩니다. 이 클래스는 데이터셋을 메모리에 한 번에 로드하여, 이후 빠르게 접근할 수 있도록 하는 역할을 합니다. 일반적인 사용 패턴 InMemoryDatas...
rdkit smiles를 통해 분자구조를 표현 !pip install rdkit > import rdkit # 분자 구조 표현 Chem.MolFromSmiles('SMILES data') 분자구조에 인덱스 추가 > IPythonConsole.drawOpti...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Hydra to override default parameters main.py에는 import 해주고, main function위에다가 hydra 호출해야함 configuratiuon load가 필요하다는걸 알려주기 위해 e.g. import hydra @hydr...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Package (패키지) 서로 관련있는 모듈들의 집합 모듈을 디렉터리 구조로 관리할 수 있게 함 ■ Package 사용법 □ 패키지가 다음과 같이 설치되어 있다고 가정 package_test/ game/ __init__.py s...
※ Module 함수나 변수 또는 클래스를 모아 놓은 파이썬 파일 # 기본 사용법 > import 모듈이름 > from 모듈이름 import 모듈함수 > from 모듈이름 import * # 모듈 안의 모든 함수 호출 ■ Module 활용 □ M...
■ sklearn ■ metrics □ 라이브러리 호출 > from sklearn import metrics > metrics.r2_score > metrics.mean_absolute_error > metrics.mean_squared_error
※ linear_model ■ LinearRegression □ 라이브러리 호출 > from sklearn.linear_model import LinearRegression □ Linear Regression # 기본 구조 # 인스턴스화 > LR_mo...
※ ensemble ■ RandomForestRegressor □ 라이브러리 호출 > from sklearn.ensemble import RandomForestRegressor as RFR # 기본 구조 # 인스턴스화 > RF_model = RFR() >...
Data 전처리 Data EDA Data Readiness Check Feature Engineering numerical features categorical features Modeling ```py pd.set_...
※ bayes_opt ■ BayesianOptimization □ 라이브러리 호출 > from bayes_opt import BayesianOptimization rom sklearn.model_selection import cross_val_score def mo...
※ preprocessing ■ MinMaxScaler (Min Max 스케일링) 데이터 feature의 값을 특정 범위로 변환하기 위한 라이브러리 default는 각 feature의 값을 0과 1사이로 변환함 □ 라이브러리 호출 > from sklearn...
※ neighbors ■ KNeighborsClassifier K-Nearest Neighbor 방법 □ 라이브러리 호출 > from sklearn.neighbors import KNeighborsClassifier as KNN □ K-Nearest...
※ decomposition ■ PCA (Principal Component Analysis, 주성분 분석) 차원축소(dimension reduction) 기법 고차원 데이터 집합이 주어졌을 때 원래의 데이터와 가장 비슷하면서 더 낮은 차원 데이터를 찾아내는 방법 ...
※ under_sampling ■ NearMiss 불균형한 데이터셋에서 다수 클래스의 샘플 수를 줄여서 클래스 간의 균형을 맞추기 위해 사용 소수 클래스의 근처에 있는 다수 클래스 샘플을 선택하여 유지하고, 나머지 다수 클래스 샘플을 제거하는 방법 가장 가까운 n개의...
※ over_sampling ■ SMOTE Synthetic Minority Over_sampling Technique 소수 클래스의 샘플을 증가시키기 위해 사용 소수 클래스 샘플을 임의로 선택하고, 선택된 샘플의 이웃 가운데 하나의 샘플을 또 임의로 선택하여 그 중...
※ model_selection ■ train_test_split (데이터 분할) 학습에 사용할 데이터와, 평가를 할 때 사용할 데이터로 나누기 위한 라이브러리 (train data / test data) □ 라이브러리 호출 > from sklearn.mode...
※ impute 데이터 안의 NA값을 대치하는 데 사용 하나의 데이터프레임 안에 연속형변수와 범주형변수 둘 다 있을 경우 데이터를 따로 나누어 진행. e.g. 범주형변수에는 most_frequent, 연속형변수에는 mean 적용… 사용...
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...
※ NA handling ■ .dropna() NA값이 있는 행 또는 열 제거 parameter axis 1: 열 삭제 0: 행 삭제 how ...
※ spatial.distance ■ cdist 두 개의 행렬을 바탕으로 거리 행렬을 출력 ■ 라이브러리 호출 > from scipy.spatial.distance import cdist □ 거리 계산 parameter XA: ...
※ encoding ■ OneHotEncoder 변수를 더미화하기 위한 함수 □ 라이브러리 호출 > from feature_engine.encoding import OneHotEncoder as OHE □ Encoding parameter ...
※ filein / fileout storage와 프로그램 사이의 I/O를 file I/O라고 함 스토리지로부터 파일을 불러오는 것은 input, 결과를 스토리지에 저장하는 것은 output 다른 타입의 파일을 열기 위해선 다른 라이브러리가 필요 e...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
□ 사칙연산 a ** b : a^b a // b : 몫 a % b : 나머지 # e.g. > 5**2 # 25 > 5//2 # 2 > 5%2 # 1 □ 이스케이프 코드 \n: 줄 바꿈 \t: 탭 \: \ 표현 \r \f ...
Mlxtend Library apriori 함수를 이용한 빈발 아이템 집합 탐색과, association_rules 함수를 이용하여 연관규칙을 탐색하는 두 단계로 수행 ■ 라이브러리 호출 > from mlxtend.frequent_patterns import...
Assocication Rule analysis in Python > df # 주문당 제품 리스트 > product_list_per_order = df.groupby('order_id')['product_id'].apply(list).tolist() # 주문당 제품...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
※ Chi-Square Test in Python # 기본 사용법 > from scipy.stats import * > chi2_contingency(observed, correction = True, lambda = None) > chi2_contingenc...
※ 상관분석 # 기본 사용법 > from scipy.stats import * # 피어슨 상관계수 > pearsonr(x, y, alternative='two-sided', ...) > df.corr(method = 'pearson') # 스피어만 상관계수 &...
※ ANOVA in Python Analysis of Variance # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > f_oneway(sample1, sample2, sampl...
※ 튜플 (Tuple) list와 거의 비슷 생성 후 변경이 불가능함 (immutable) 프로그램 실행 중 변하지 않거나 변해서는 안되는 값들이 있을 때 튜플로 저장하면 좋음 리스트에서 사용한 append() / insert() / exte...
※ 집합 (Set) 교집합, 합집합, 차집합 지원 원소의 중복을 허용하지 않음 > 원소의 종류를 나타내기 좋음 원소의 순서가 존재하지 않음 > index가 없음 ■ 집합 생성방법 { } 사용 공집합 생성 시 set() 사용 > s =...
※ 사전 (Dictionary) key : value 방법을 통해 저장 key값을 통해 value에 access함 key는 중복될 수 없음 리스트는 key가 될 수 없으나 튜플은 key가 될 수 있음 위치로 인덱싱이 되지 않음 순서가 아닌 의미가 있는 값을 ...
df.plot() 매개 kind: 그래프 종류 (line, .scatter, bar, pie, …) x: x축에 들어갈 컬럼명 / default는 index값이 들어감 y: y축에 들어랑 컬럼명 박스플랏 df.boxplot() 매개 column: box plot을 그릴 컬...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
※ t-test in Python ■ 단일 표본 t-검정 # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > ttest_1samp(data, mu) # 사용 예시 > fro...
※ Chained Assignment와 Hidden Chaining Assignment 특정 셀에 값을 할당하거나 특정 컬럼에 배열을 할당하는 것 Setting 또는 Set연산의 의미를 가짐 > df = pd.DataFra...
# 시험 점수를 입력받아 # 90 ~ 100점은 A, 80 ~ 89점은 B, # 70 ~ 79점은 C, 60 ~ 69점은 D, # 나머지 점수는 F를 출력 # e.g. # 입력: 65 # 출력: D # 입력: 99 # 출력: A # 일반적인 coding > A = int(...
※ stack / unstack / melt ■ stack / unstack stack : 컬럼 레벨에서 인덱스 레벨로 데이터프레임을 변경 unstack : 인덱스 레벨에서 컬럼 레벨로 데이터프레임을 변경 # e.g. 데이터 > data = pd.DataFram...
※ 문자열 다루기 ■ contains() .str.contains(문자열) : 문자열을 포함하고 있는지의 유무 # 사용 예시 > df['Name'].str.contains('Mrs') # 컬럼 'Name'에서 'Mrs' 문자열을 포함하고 있는지 T/F 반환 &g...
※ Group by / Cross Tab ■ group by 같은 값을 한 그룹으로 묶어서 여러 가지 연산을 하는 함수. parameter as_index: 그룹으로 묶을 컬럼을 인덱스로 해서 시리즈형태로 출력할건지 / 데이터프레임으로 출력할건지 {T...
※ Apply 함수 ■ apply 사용자 정의 함수를 데이터에 적용하고 싶을 때 사용 df.apply(함수, axis) {axis = 0 : 행방향, axis = 1 : 열방향} # e.g.1 > def function_name(x): if x['colA...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
※ Fancy Indexing # Column Indexing > df['컬럼명'] # series 형식으로 출력 > df.컬럼명 ## 데이터프레임 형식으로 출력 > df.컬럼명.to_frame() > df[['컬럼명']] # Slicing ## 기본적으...
※ 데이터 정렬 sort_values() pandas 라이브러리 series와 data frame을 정렬할 수 있음 매개변수 by : data frame을 정렬할 때 기준이 될 컬럼 ascending : 오름/내림차순 정렬 {True(d...
※ DataFrame 불러오기 / 저장하기 ■ csv File file path: 파일 경로 및 이름 sep: 구분자 (default: ‘,’) header: 헤더의 위치. None일 입력하면 컬럼명이 0, 1, 2, …로 자동 부여됨 (default: ‘infer’)...
※ Pivot Table 데이터를 조건에 따른 변수들의 통계량을 요약한 테이블 엑셀의 피벗테이블처럼 인덱스별, 컬럼별 값의 연산 가능 pivot table 계산 시, 비어있는 값은 fill_value=0을 통해 가능 # 기본 구조 > pd.pivot_table...
※ 결측값 처리 isna() : 결측값을 True로 반환 notna() : 결측값을 False로 반환 # 사용 예시 > df.isna() > df.isna().sum() # 결측값이 있는 행의 개수 > df.notna().sum() # 결측값이 없는 행...
※ DataFrame 합치기 ■ merge() 두 개의 데이터를 특정 컬럼을 기준으로 합침 parameter on: 통합의 기준이 될 key 변수 left_on: df1의 key 변수 right_on: df2의 key 변수 ...
※ 날짜 데이터 ■ 문자형데이터를 날짜데이터로 변환하기 문자형 데이터를 날짜형 데이터로 변경을 해야 날짜 계산이 가능함 형식 %Y : 4자리 연도 %y : 0을 채운 2자리 연도 %m : 0을 채운 월 %d : 0을 채...
※ folium 지도 시각화 라이브러리 ■ 라이브러리 호출 > import folium ■ folium method □ 기초 method 지도 크기 지정 지도 만들기 지도 출력 파일로 저장 > f = folium.Figure(...
※ 웹 크롤링 ■ Pandas 활용 / 표 형태 데이터 크롤링 # 사용 예시 > url = 'https://…' > table_df_list = pd.read_html(url, encoding = 'euc-kr') > table_df = table_df_list...
※ plotly.express 반응형 그래프를 그릴 수 있는 라이브러리 html로 저장하기 용이함 ■ 라이브러리 호출 > import plotly.express as px ■ 기초 method > fig = px.그래프종류(data_frame,...
※ Comprehension ■ List Comprehension 리스트를 생성하는 방법 중의 하나 [] 안에 for문 또는 if문을 사용 # 기본 구조 > [output for iterator in iterable_object if 조건] # e.g. ...
※ Scikit-Learn 머신러닝에 특화된 라이브러리 # e.g. # sklearn을 사용하여 분류 모델을 학습, 평가하는 예시 # 모델 불러오기 > from sklearn.ensemble import RandomForestClassifier > from s...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Seaborn Statisctical Data Visualization library based on matplotlib ■ 라이브러리 호출 > import seaborn as sns ■ Plot □ Histogram multiple = “st...
※ matplolib.pyplot 차트나 플랏으로 데이터를 시각화하기 위한 모듈 ■ 라이브러리 호출 > import matplotlib.pyplot as plt ■ 기본 구조 plt.figure() : plot의 밑바탕 plt.plot() : 만들고...
※ 클래스 (Class) 객체(object)들이 공유하는 속성을 정의한 것 구현하려는 대상의 특성을 Class variable로, 대상이 수행해야 하는 일을 Class method로 구현해야 함. Constructor(생성자)를 통해서 객체를 찍어내는 틀을 정의할 수 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ I/O (Input / Output) 컴퓨터가 데이터를 입력받고 출력하는 모든 작업 source: https://en.wikiversity.org/wiki/Hardware#/media/File:Computer1.png ■ stdin stdin(standa...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ 조건문 (IF) :(콜론)을 사용하여 조건을 나눔 ■ 기본 구조 > if condition: <statement> <statement> ... elif condition: <statement> ...
■ .copy() # e.g. .copy() 사용안했을 때 > a = [1, 2, 3] > b = a > print(a) # [1, 2, 3] > print(b) # [1, 2, 3] > a[2] = 4 > print(a) # [1, 2, 4] ...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ 함수 (Function) input(parameter 또는 argument)을 받아 output을 return 한 가지 기능을 하는 코드 묶음 똑같은 구조가 반복되는 것을 막기 위해 사용 input — (Function) — output의 구조 sourc...
출처: https://arxiv.org/pdf/2209.14734 ※ DiGress a discrete denoising diffusion model for generating graphs with categorical node and edge attributes ...
※ Perceptron 이란? Neural Net(신경망)의 기본 구성 요소 input과 output을 제외한 (hidden) layer에서의 특정한 하나의 노드 ■ 퍼셉트론의 구성 요소 Input (입력) Weight (가중치) Bias (편향 / 바...
Homogeneous Graphs 모든 노드의 종류가 동일한 그래프 Heterogeneous Graphs 여러 종류(type)의 노드(node) 및 엣지(edge)로 구성된 그래프 더 ...
출처: https://arxiv.org/pdf/1703.10593 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks Goal learning to translate an imag...
출처: https://arxiv.org/pdf/1710.10903 Paper 직역 ABSTRACT 그래프 컨볼루션 또는 근사치를 기반으로 한 이전 방법들의 단점을 해결하기 위해 Graph Attention Network를 소개한다. 레이어를 쌓음으로써 노드가 그들의 이웃들의 ...
※ Artificial Neural Network ■ Forward Propagation (순전파) 입력층 - 은닉층 - 출력층 순서대로 흘러가는 것 ■ Back Propagation (역전파) Update weights recursively 다층 퍼셉트...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Graph Neural Network 그래프에 직접 적용할 수 있는 신경망 그래프 구조를 활용하여 특징을 추출하여 작업을 수행 ■ Graph (그래프) 점(Node)들을 잇는 선(Edge)으로 이루어진 데이터 구조 일반적으로 G=(V, E)로 정의 ...
※ Convolutional Neural Network 이미지 처리와 패턴 인식에 탁월한 성능을 보여주는 신경망 이미지 데이터의 공간적 특징을 추출하여 학습하고 이를 기반으로 패턴을 인식하는데 사용 구성 Convolution Layer (합성곱 층)...
※ 딥러닝의 정의 deep learning = machine learning + deep neural network e.g. CNN, RNN DL이 ML보다 좋은 이유는 성능이 좋아서. > feature extraction 때문에 성능이 좋음 ML - 전문가가 feature...
※ Data Binning (데이터 비닝) 또는 Data Bucketing, Data Discrete Binning이라 불림 데이터를 구간별로 나누어 각 구간을 대표하는 값으로 나타내는 방법 연속형 변수를 특정 구간으로 나누어 범주형 또는 순위형 변수로 변환하는 방법 ...
※ Diffusion Probabilistic Models 이미지에 노이즈를 추가하여 이미지를 파괴 (forward diffusion process) 파괴된 이미지로부터 노이즈를 제거하여 이미지를 복구 (reverse diffusion process) ※ DiGr...
■ sklearn ■ metrics □ 라이브러리 호출 > from sklearn import metrics > metrics.r2_score > metrics.mean_absolute_error > metrics.mean_squared_error
※ linear_model ■ LinearRegression □ 라이브러리 호출 > from sklearn.linear_model import LinearRegression □ Linear Regression # 기본 구조 # 인스턴스화 > LR_mo...
※ ensemble ■ RandomForestRegressor □ 라이브러리 호출 > from sklearn.ensemble import RandomForestRegressor as RFR # 기본 구조 # 인스턴스화 > RF_model = RFR() >...
※ Naive Bayes (나이브 베이즈) ■ 모델 구조 베이즈 정리를 사용하고, 특징 간 독립을 가정하여 사후 확률 $\Pr(y \mid x)$ $\Pr(y \mid x) \propto \Pr(y) \times \prod_{j=1}^{d} \Pr(x_{j} \mid y...
※ Anomaly Detection (이상치 탐지) ■ 목표 정상적인 동작 또는 패턴과 다른 이상한 동작을 식별하는 것 ■ 원리 통계적 방법 평균, 분산, 이상치 점수 등을 계산하여 정상 범위를 설정하고, 벗어난 데이터를 이상으로 간주 ...
※ preprocessing ■ MinMaxScaler (Min Max 스케일링) 데이터 feature의 값을 특정 범위로 변환하기 위한 라이브러리 default는 각 feature의 값을 0과 1사이로 변환함 □ 라이브러리 호출 > from sklearn...
※ neighbors ■ KNeighborsClassifier K-Nearest Neighbor 방법 □ 라이브러리 호출 > from sklearn.neighbors import KNeighborsClassifier as KNN □ K-Nearest...
※ decomposition ■ PCA (Principal Component Analysis, 주성분 분석) 차원축소(dimension reduction) 기법 고차원 데이터 집합이 주어졌을 때 원래의 데이터와 가장 비슷하면서 더 낮은 차원 데이터를 찾아내는 방법 ...
※ under_sampling ■ NearMiss 불균형한 데이터셋에서 다수 클래스의 샘플 수를 줄여서 클래스 간의 균형을 맞추기 위해 사용 소수 클래스의 근처에 있는 다수 클래스 샘플을 선택하여 유지하고, 나머지 다수 클래스 샘플을 제거하는 방법 가장 가까운 n개의...
※ over_sampling ■ SMOTE Synthetic Minority Over_sampling Technique 소수 클래스의 샘플을 증가시키기 위해 사용 소수 클래스 샘플을 임의로 선택하고, 선택된 샘플의 이웃 가운데 하나의 샘플을 또 임의로 선택하여 그 중...
※ model_selection ■ train_test_split (데이터 분할) 학습에 사용할 데이터와, 평가를 할 때 사용할 데이터로 나누기 위한 라이브러리 (train data / test data) □ 라이브러리 호출 > from sklearn.mode...
※ impute 데이터 안의 NA값을 대치하는 데 사용 하나의 데이터프레임 안에 연속형변수와 범주형변수 둘 다 있을 경우 데이터를 따로 나누어 진행. e.g. 범주형변수에는 most_frequent, 연속형변수에는 mean 적용… 사용...
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...
※ spatial.distance ■ cdist 두 개의 행렬을 바탕으로 거리 행렬을 출력 ■ 라이브러리 호출 > from scipy.spatial.distance import cdist □ 거리 계산 parameter XA: ...
※ encoding ■ OneHotEncoder 변수를 더미화하기 위한 함수 □ 라이브러리 호출 > from feature_engine.encoding import OneHotEncoder as OHE □ Encoding parameter ...
Assocication Rule analysis in Python > df # 주문당 제품 리스트 > product_list_per_order = df.groupby('order_id')['product_id'].apply(list).tolist() # 주문당 제품...
※ Sequence Data (시퀀스 데이터) 각 요소가 (순서, 값) 형태로 구성된 데이터 분석 시 반드시 순서를 고려해야 함 로그 데이터 대부분이 순서가 있는 시퀀스 데이터임 e.g. 고객 구매 기록 / 고객 여정 / 웹 서핑 기록 ■ 시퀀스 데이터에서의 빈...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
※ Scikit-Learn 머신러닝에 특화된 라이브러리 # e.g. # sklearn을 사용하여 분류 모델을 학습, 평가하는 예시 # 모델 불러오기 > from sklearn.ensemble import RandomForestClassifier > from s...
※ Classification (분류) Supervised Learning (지도학습) 방법 주어진 데이터(X)를 분류하고자 하는 값(y)에 할당하는 방법 주어진 input data를 찾고자 하는 target value에 assign하는 것 input data는 일...
※ Hierarchical Clustering in R (계층적 군집분석) ■ 유사도 행렬 생성 parameter method : 거리 측정 방식 (“euclidean” / “maximum” / “manhattan” / “canberra” / “bin...
※ Association Analysis in R (연관분석) ■ 연관분석 패키지 arules : 연관분석 패키지 arulesViz : 연관분석 시각화용 패키지 ■ 연관분석 □ transactions 형식의 data apriori()를 사용하기 위해 da...
※ Logistic Regression in R (로지스틱 회귀분석)
※ 머신러닝 패키지: caret 패키지 설치 dependencies : “TRUE”로 해줘야함 caret은 다른 패키지와 연관성이 있는 패키지라서. > install.packages("caret", dependencies = TRUE) > library(caret...
※ Decision Tree in R (의사결정 나무)
※ SVM (Support Vector Machine) 중심선 경계선 : support vector 여백(margin) : 중심선과 경계선 사이 ■ Projection (정사영) $\vec u를~ \vec v에~정사영$ : 수직으로 내리는 것 \(...
※ KNN (K-Nearest Neighbor, K-최근접 이웃) 가장 가까이 있는 데이터 클래스에 속한다고 보는 방법 가까이 있는 데이터 1개를 보면 1-최근접 이웃 가까이 있는 데이터 k개를 보면 k-최근접 이웃 유클리디안 거리를 사용하므로 피쳐는 연속형 변수여...
데이터에서 가장 중요한 성분을 순서대로 추출하는 기법 pc1 : 내 데이터의 분산을 가장 잘 설명해주는 축 pc2 : pc1에 직교하는 축이 주성분2 언제 사용? 쓸데없는 정보들이 많아 양을 줄이고 싶을때 잠재하는 변수latent variable을 확인하고 싶들때 의미없는 변...
※ Overfitting (과적합) 지도학습 모델은 학셉 데이터를 분류하고 예측하는 수준으로, 학습에 사용되지 않은 데이터도 정확히 분류하고 예측하리라 기대하며, 이러한 기대가 충족되는 경우 일반화되었다고 함 모델이 너무 복잡해서, 학습 데이터에 대해서만 정확히 분류,...
※ K-Means Clustering in Excel Example Data 구매정보 Data 고객정보 Data ■ 데이터전처리 1. 구매정보 Data를 피벗테이블로 만들기 2. 구매정보와 고객정보 병합 3. 필요없는 데이터 ...
※ Machine Learning 이란? 컴퓨터가 데이터를 학습해서 분류/예측 등의 모델을 만들게 하는 통계 알고리즘 컴퓨터가 명시적으로 프로그램되지 않고도 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 연구 분야 ■ 머신러닝의 핵심 개념 데이터: Fe...
※ Association Analysis (연관분석) 데이터에서 항목 간의 연관성을 찾아내는데 사용 “A가 발생하면 B도 발생한다”라는 형태의 규칙, 트랜잭선 데이터를 탐색하는데 사용 ■ 연관 규칙 A: 부모 아이템 집합 (antecedent) B: 자...
※ Clustering (군집화) Unsupervised learning (비지도 학습) Unsupervised Classification 유사한 개체들의 집단을 판별하는 방법론 데이터의 특징만으로 서로 유사한 특징을 가진 데이터들끼리 그룹화함으로써 cluster(...
※ Neural Network 데이터로부터 반복적인 학습과정을 거쳐 데이터에 숨어있는 패턴이나 연관관계를 찾아냄 Usage Pattern Recognition Classification Clustering Associative Memory Data Comp...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Regression 주어진 데이터(X)와 찾고자 하는 값(y) 사이의 관계를 찾는 방법 주어진 input data와 관심 있는 target value 사이의 관계를 모델링하는 것 input data는 일반적으로 벡터(feature vector), target val...
※ Decision Tree (의사결정 나무) source: https://scikit-learn.org/stable/auto_examples/tree/plot_iris_dtc.html ■ Tree Model (나무 모형) 발견된 변수의 규칙 혹은 조건문을 토대로 나무...
※ Data Binning (데이터 비닝) 또는 Data Bucketing, Data Discrete Binning이라 불림 데이터를 구간별로 나누어 각 구간을 대표하는 값으로 나타내는 방법 연속형 변수를 특정 구간으로 나누어 범주형 또는 순위형 변수로 변환하는 방법 ...
※ Diffusion Probabilistic Models 이미지에 노이즈를 추가하여 이미지를 파괴 (forward diffusion process) 파괴된 이미지로부터 노이즈를 제거하여 이미지를 복구 (reverse diffusion process) ※ DiGr...
※ Naive Bayes (나이브 베이즈) ■ 모델 구조 베이즈 정리를 사용하고, 특징 간 독립을 가정하여 사후 확률 $\Pr(y \mid x)$ $\Pr(y \mid x) \propto \Pr(y) \times \prod_{j=1}^{d} \Pr(x_{j} \mid y...
※ Anomaly Detection (이상치 탐지) ■ 목표 정상적인 동작 또는 패턴과 다른 이상한 동작을 식별하는 것 ■ 원리 통계적 방법 평균, 분산, 이상치 점수 등을 계산하여 정상 범위를 설정하고, 벗어난 데이터를 이상으로 간주 ...
※ NA handling ■ .dropna() NA값이 있는 행 또는 열 제거 parameter axis 1: 열 삭제 0: 행 삭제 how ...
Assocication Rule analysis in Python > df # 주문당 제품 리스트 > product_list_per_order = df.groupby('order_id')['product_id'].apply(list).tolist() # 주문당 제품...
※ Sequence Data (시퀀스 데이터) 각 요소가 (순서, 값) 형태로 구성된 데이터 분석 시 반드시 순서를 고려해야 함 로그 데이터 대부분이 순서가 있는 시퀀스 데이터임 e.g. 고객 구매 기록 / 고객 여정 / 웹 서핑 기록 ■ 시퀀스 데이터에서의 빈...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
※ Classification (분류) Supervised Learning (지도학습) 방법 주어진 데이터(X)를 분류하고자 하는 값(y)에 할당하는 방법 주어진 input data를 찾고자 하는 target value에 assign하는 것 input data는 일...
※ 데이터시각화 패키지: plotly 반응형 그래프 plot_ly 기본 구조 plot_ly() : data와 x, y축 값을 넣어줌 parameter type : plot 종류 ( “scatter” / “b...
※ Hierarchical Clustering in R (계층적 군집분석) ■ 유사도 행렬 생성 parameter method : 거리 측정 방식 (“euclidean” / “maximum” / “manhattan” / “canberra” / “bin...
※ Association Analysis in R (연관분석) ■ 연관분석 패키지 arules : 연관분석 패키지 arulesViz : 연관분석 시각화용 패키지 ■ 연관분석 □ transactions 형식의 data apriori()를 사용하기 위해 da...
※ Logistic Regression in R (로지스틱 회귀분석)
※ 문자열 핸들링 패키지: stringr 텍스트전처리 / 텍스트마이닝 등 문자열 핸들링 패키지 함수명은 보통 str로 시작함 ■ str_length 문자열의 개수 반환 > str_length() ■ str_to_upper / str_to_low...
※ 머신러닝 패키지: caret 패키지 설치 dependencies : “TRUE”로 해줘야함 caret은 다른 패키지와 연관성이 있는 패키지라서. > install.packages("caret", dependencies = TRUE) > library(caret...
※ Decision Tree in R (의사결정 나무)
※ 데이터정제 패키지: tidyr > install.packages("tidyr") > library(tidyr) ■ Pivoting □ pivot_longer() untidy data를 tidy data 형식으로 변경 parameter ...
※ 날짜 데이터 핸들링 패키지: lubridate 날짜와 시간 데이터를 핸들링할 수 있는 패키지 ■ R 기본 내장함수 as.Date()함수는 기본적인 형식에 맞춰야 하는 불편함이 있음 반드시 ‘/’ 또는 ‘-‘로 구분되어야 함 년월일 순으로 년도는 4자...
※ 데이터전처리 패키지: dplyr chain function : %>% 파이프연산자를 사용하여 매우 직관적임 코드 가독성이 높음 코드 유지보수가 용이함 매우 빠른 속도 # 일반적인 코드 > 함수3(함수2(함수1(df,x),y,z))...
※ 데이터시각화 패키지: ggplot2 기본 구조 ggplot() : data와 x, y축 값을 넣어줌 target plot() : 만들고자 하는 plot / geom_point() / geom_line() / geom_bar() 등 ...
※ NA handling (결측치 처리) ◎ 사용할 패키지: tidyverse library(tidyverse) ◎ 예시 Data (df) name class math eng gender 1 Hwayoung 1 74.0 76 f 2 ...
※ SVM (Support Vector Machine) 중심선 경계선 : support vector 여백(margin) : 중심선과 경계선 사이 ■ Projection (정사영) $\vec u를~ \vec v에~정사영$ : 수직으로 내리는 것 \(...
※ KNN (K-Nearest Neighbor, K-최근접 이웃) 가장 가까이 있는 데이터 클래스에 속한다고 보는 방법 가까이 있는 데이터 1개를 보면 1-최근접 이웃 가까이 있는 데이터 k개를 보면 k-최근접 이웃 유클리디안 거리를 사용하므로 피쳐는 연속형 변수여...
데이터에서 가장 중요한 성분을 순서대로 추출하는 기법 pc1 : 내 데이터의 분산을 가장 잘 설명해주는 축 pc2 : pc1에 직교하는 축이 주성분2 언제 사용? 쓸데없는 정보들이 많아 양을 줄이고 싶을때 잠재하는 변수latent variable을 확인하고 싶들때 의미없는 변...
※ Overfitting (과적합) 지도학습 모델은 학셉 데이터를 분류하고 예측하는 수준으로, 학습에 사용되지 않은 데이터도 정확히 분류하고 예측하리라 기대하며, 이러한 기대가 충족되는 경우 일반화되었다고 함 모델이 너무 복잡해서, 학습 데이터에 대해서만 정확히 분류,...
※ K-Means Clustering in Excel Example Data 구매정보 Data 고객정보 Data ■ 데이터전처리 1. 구매정보 Data를 피벗테이블로 만들기 2. 구매정보와 고객정보 병합 3. 필요없는 데이터 ...
※ Machine Learning 이란? 컴퓨터가 데이터를 학습해서 분류/예측 등의 모델을 만들게 하는 통계 알고리즘 컴퓨터가 명시적으로 프로그램되지 않고도 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 연구 분야 ■ 머신러닝의 핵심 개념 데이터: Fe...
※ Association Analysis (연관분석) 데이터에서 항목 간의 연관성을 찾아내는데 사용 “A가 발생하면 B도 발생한다”라는 형태의 규칙, 트랜잭선 데이터를 탐색하는데 사용 ■ 연관 규칙 A: 부모 아이템 집합 (antecedent) B: 자...
※ Clustering (군집화) Unsupervised learning (비지도 학습) Unsupervised Classification 유사한 개체들의 집단을 판별하는 방법론 데이터의 특징만으로 서로 유사한 특징을 가진 데이터들끼리 그룹화함으로써 cluster(...
※ Outlier (이상치) 대부분의 데이터와 현저하게 다른 값을 가지는 값 데이터 내에서 통계적으로 특이한 값 데이터 분포를 왜곡할 수 있음 무작위 오류, 측정 오류, 실제로 특이한 사건에 의해 발생 ■ Outlier 탐지 방법 □ 통계적인 기법 활용 ...
※ Missing Value (결측치) 데이터에서 특정 변수의 일부 값이 누락된 상태 수집 및 저장 과정에서 정보가 누락된 경우 데이터가 부적절하게 기록되었을 경우 ■ Missing Value 처리 방법 □ 통계 자료를 통한 대치 수치형 변수의 결측치 ...
※ Curse of Dimensionality (차원의 저주) Refers to the problems associated with multivariate data analysis as the dimensionality increases 차원이 증가함에...
※ Convert in R # tidyverse 패키지 설치 및 불러오기 install.packages("tidyverse") library(tidyverse) 예시 1. # Untidy data 생성 stu1 <- data.frame(name = c('J...
※ Convert in Excel 1. Convert “Untidy Data” to “Tidy Data” Example Data 지역 인구 등급 가격 서울 1 ...
※ Tidy Data = Long Format Data(Table) 데이터 전처리에 걸리는 시간을 최소하하기 위한 표준화된 데이터 형태 데이터를 행 방향으로 구성하는 형식으로, 각 행은 하나의 데이터 관찰값을 나타냄 필요 조건 Each var...
※ Neural Network 데이터로부터 반복적인 학습과정을 거쳐 데이터에 숨어있는 패턴이나 연관관계를 찾아냄 Usage Pattern Recognition Classification Clustering Associative Memory Data Comp...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Regression 주어진 데이터(X)와 찾고자 하는 값(y) 사이의 관계를 찾는 방법 주어진 input data와 관심 있는 target value 사이의 관계를 모델링하는 것 input data는 일반적으로 벡터(feature vector), target val...
※ Decision Tree (의사결정 나무) source: https://scikit-learn.org/stable/auto_examples/tree/plot_iris_dtc.html ■ Tree Model (나무 모형) 발견된 변수의 규칙 혹은 조건문을 토대로 나무...
Predictive Modeling Applications Database marketing Financial risk management Fraud detection Process monitoring Pattern detection Predictive ...
※ SEMMA 데이터 마이닝을 위한 SAS에서 제공하는 일련의 과정 S: Sampling 분석비용과 시간 절약 효과적인 Modeling 작업을 위해 Data가 대량일 경우에 적합 언제나 필수적인것은 아님 1. Simple random sampling (단순...
※ KDD Process Knowledge Discovery in Database 1. Problem Formulation 1. Specific objectives - 문제 확인, 자세하게 정의 - 문제들간의 관계 이해 - 모호한 부분 해소 - 고객과 상담자의 정의가 다른지...
※ Data Mining Background Why data mining? - Traditional data collection methods Survery sampling (표본추출) Experiment (실험) Observational Study (관찰연구)...
※ Simple Linear Regression의 Parameter Estimation ■ 단순선형회귀 모형 [Y = \beta_{0}+\beta_{1}X+\epsilon] ■ 단순선형회귀직선의 계수(모수) 추정 주어진 데이터를 설명할 수 있는 다양한 선형 직선 중,...
※ Chi-Square Test in Python # 기본 사용법 > from scipy.stats import * > chi2_contingency(observed, correction = True, lambda = None) > chi2_contingenc...
※ 상관분석 # 기본 사용법 > from scipy.stats import * # 피어슨 상관계수 > pearsonr(x, y, alternative='two-sided', ...) > df.corr(method = 'pearson') # 스피어만 상관계수 &...
※ ANOVA in Python Analysis of Variance # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > f_oneway(sample1, sample2, sampl...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
※ t-test in Python ■ 단일 표본 t-검정 # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > ttest_1samp(data, mu) # 사용 예시 > fro...
변수 (Variable) 특정 조건에 따라 변하는 값 확률 변수 (Random Variable) 특정 값(범위)을 확률에 따라 취하는 변수 e.g. 주사위를 던졌을 때 나오는 결과를 나타내는 변수 ■ 변수의 치우침 변수의 치우침을 해결하는 기본 아이디...
※ Regression Analysis in Excel (회귀 분석) Example Data ■ 회귀분석 (1) 데이터 -> 데이터 분석 (2) 통계 데이터 분석 -> 회귀 분석 (3) 회귀 분석 (4) 회귀 분석 - 데이터 ...
※ Measuring the quality of fit (적합성 측정) \(Cor(Y,\hat Y) = \lvert Cor(X, Y) \rvert\) $X, Y$산점도와 $Y, \hat Y$산점도는 동일한 패턴, 상관계수도 같다. ■ SST / SSR / SSE 종...
※ Logistic Regression (로지스틱 회귀) 종속변수가 범주형인 경우에 보통 사용. 종속변수가 연속형인 경우에 사용할려면 y의 범위가 주어져야 함. linear regression을 분류 모델로써 확장한 모델 linear regression 결과에 ...
※ CLT (Central Limit Theorem, 중심극한정리) $X_{1}$, $X_{2}$, …, $X_{n}$이 서로 독립이며, 같은 분포를 따를때, $n$이 클수록(일반적으로 $n \ge 30$) 이 표본들의 평균은 모집단의 평균을 중심으로 하는 정규 분포를 따른다...
※ 가설검정 ■ 기울기 $\beta_{1}$에 대한 검정 □ $\hat \beta_{1}$의 분포 추정량 $\hat \beta_{1}$은 정규분포를 따르는 관측값 $y$들의 선형결합으로 이루어져 있으므로, 정규분포를 따른다 \(\hat \beta_{1} \sim N(...
※ Regression Analysis (회귀 분석) 종속변수 $y$와 여러 독립변수의 집합 $X$ 사이의 관계를 선형으로 가정하고, 해당 관계를 가장 잘 설명할 수 있는 모형을 찾는 분석 방법론 인과관계를 확인하기 위해 고안된 모델, 인과관계의 영향도를 ...
■ 다중선형회귀 종속변수 $y$와 여러 독립변수의 집합 $X$ 사이의 관계를 선형으로 추정하고 분석하는 것 모집단의 회귀 직선: $y ~=~ \beta_{0} ~+~ \beta_{1}x_{1} ~+~… ~+~ \beta_{p}x_{p} ~+~\epsilon$ ...
※ Covariance (공분산) 두 개의 확률변수 $X$, $Y$가 상호 어떤 관계를 가지며 변화하는가를 나타내주는 척도 두 개의 확률변수 $X$, $Y$의 선형 관계를 나타내는 값 $\mathbb{E}(X-\mu_{X})(Y-\mu_Y)$ 부호는...
※ ANOVA (분산분석) Analysis of Variance 셋 이상의 모집단 간의 평균을 비교하는데 사용 관측한 자료들이 다양하게 나타나는 것을 체계적으로 설명하려는 하나의 통계 기법 → 관측값들이 달라지는 것을 여러 요인으로 나누어 각 요인들이 얼마나 변화에...
※ F-분포 (F-distribution) $\chi^2(u)$, $\chi^2(v)$가 각각 자유도가 $u$, $v$인 독립적인 두 개의 카이제곱 확률 변수라면, \(F(u,v) = \cfrac{\cfrac{\chi^2(u)}{u}}{\cfrac{\chi^2(...
※ t-test in Excel ■ t-검정의 종류 단일 표본 t-검정 (one sample t-test) 대응 표본 t-검정 (paired samples t-test) - 짝비교 독립 표본 t-검정 (independent samples t-test) Exa...
※ Scatter Plot in Excel Example Data Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species ...
※ Correlation analysis in Excel Example Data price bedrooms bathrooms sqft_living sqft_lot floors wate...
※ Box Plot in Excel Example Data statezip 1st Floor 2nd Floor 3rd Floor 4th Floor 5th Floor ...
※ t-분포 (t-distribution) 표본의 크기가 작은 경우, $\sigma$를 $s$로 대체하게 되면, 표준화된 확률변수의 분포는 표준정규분포와 달라진다. 이런 경우에 그 변화된 분포를 말함. $Z$와 $\chi^{2}(k)$가 각각 독립인 표준정규확률변수와...
※ NA handling ■ .dropna() NA값이 있는 행 또는 열 제거 parameter axis 1: 열 삭제 0: 행 삭제 how ...
df.plot() 매개 kind: 그래프 종류 (line, .scatter, bar, pie, …) x: x축에 들어갈 컬럼명 / default는 index값이 들어감 y: y축에 들어랑 컬럼명 박스플랏 df.boxplot() 매개 column: box plot을 그릴 컬...
※ stack / unstack / melt ■ stack / unstack stack : 컬럼 레벨에서 인덱스 레벨로 데이터프레임을 변경 unstack : 인덱스 레벨에서 컬럼 레벨로 데이터프레임을 변경 # e.g. 데이터 > data = pd.DataFram...
※ 문자열 다루기 ■ contains() .str.contains(문자열) : 문자열을 포함하고 있는지의 유무 # 사용 예시 > df['Name'].str.contains('Mrs') # 컬럼 'Name'에서 'Mrs' 문자열을 포함하고 있는지 T/F 반환 &g...
※ Group by / Cross Tab ■ group by 같은 값을 한 그룹으로 묶어서 여러 가지 연산을 하는 함수. parameter as_index: 그룹으로 묶을 컬럼을 인덱스로 해서 시리즈형태로 출력할건지 / 데이터프레임으로 출력할건지 {T...
※ Apply 함수 ■ apply 사용자 정의 함수를 데이터에 적용하고 싶을 때 사용 df.apply(함수, axis) {axis = 0 : 행방향, axis = 1 : 열방향} # e.g.1 > def function_name(x): if x['colA...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
※ Fancy Indexing # Column Indexing > df['컬럼명'] # series 형식으로 출력 > df.컬럼명 ## 데이터프레임 형식으로 출력 > df.컬럼명.to_frame() > df[['컬럼명']] # Slicing ## 기본적으...
※ 데이터 정렬 sort_values() pandas 라이브러리 series와 data frame을 정렬할 수 있음 매개변수 by : data frame을 정렬할 때 기준이 될 컬럼 ascending : 오름/내림차순 정렬 {True(d...
※ DataFrame 불러오기 / 저장하기 ■ csv File file path: 파일 경로 및 이름 sep: 구분자 (default: ‘,’) header: 헤더의 위치. None일 입력하면 컬럼명이 0, 1, 2, …로 자동 부여됨 (default: ‘infer’)...
※ Pivot Table 데이터를 조건에 따른 변수들의 통계량을 요약한 테이블 엑셀의 피벗테이블처럼 인덱스별, 컬럼별 값의 연산 가능 pivot table 계산 시, 비어있는 값은 fill_value=0을 통해 가능 # 기본 구조 > pd.pivot_table...
※ 결측값 처리 isna() : 결측값을 True로 반환 notna() : 결측값을 False로 반환 # 사용 예시 > df.isna() > df.isna().sum() # 결측값이 있는 행의 개수 > df.notna().sum() # 결측값이 없는 행...
※ DataFrame 합치기 ■ merge() 두 개의 데이터를 특정 컬럼을 기준으로 합침 parameter on: 통합의 기준이 될 key 변수 left_on: df1의 key 변수 right_on: df2의 key 변수 ...
※ 날짜 데이터 ■ 문자형데이터를 날짜데이터로 변환하기 문자형 데이터를 날짜형 데이터로 변경을 해야 날짜 계산이 가능함 형식 %Y : 4자리 연도 %y : 0을 채운 2자리 연도 %m : 0을 채운 월 %d : 0을 채...
※ 웹 크롤링 ■ Pandas 활용 / 표 형태 데이터 크롤링 # 사용 예시 > url = 'https://…' > table_df_list = pd.read_html(url, encoding = 'euc-kr') > table_df = table_df_list...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ 데이터시각화 패키지: plotly 반응형 그래프 plot_ly 기본 구조 plot_ly() : data와 x, y축 값을 넣어줌 parameter type : plot 종류 ( “scatter” / “b...
※ Hierarchical Clustering in R (계층적 군집분석) ■ 유사도 행렬 생성 parameter method : 거리 측정 방식 (“euclidean” / “maximum” / “manhattan” / “canberra” / “bin...
※ Association Analysis in R (연관분석) ■ 연관분석 패키지 arules : 연관분석 패키지 arulesViz : 연관분석 시각화용 패키지 ■ 연관분석 □ transactions 형식의 data apriori()를 사용하기 위해 da...
※ Logistic Regression in R (로지스틱 회귀분석)
※ 문자열 핸들링 패키지: stringr 텍스트전처리 / 텍스트마이닝 등 문자열 핸들링 패키지 함수명은 보통 str로 시작함 ■ str_length 문자열의 개수 반환 > str_length() ■ str_to_upper / str_to_low...
※ 머신러닝 패키지: caret 패키지 설치 dependencies : “TRUE”로 해줘야함 caret은 다른 패키지와 연관성이 있는 패키지라서. > install.packages("caret", dependencies = TRUE) > library(caret...
※ Decision Tree in R (의사결정 나무)
※ 데이터정제 패키지: tidyr > install.packages("tidyr") > library(tidyr) ■ Pivoting □ pivot_longer() untidy data를 tidy data 형식으로 변경 parameter ...
※ 날짜 데이터 핸들링 패키지: lubridate 날짜와 시간 데이터를 핸들링할 수 있는 패키지 ■ R 기본 내장함수 as.Date()함수는 기본적인 형식에 맞춰야 하는 불편함이 있음 반드시 ‘/’ 또는 ‘-‘로 구분되어야 함 년월일 순으로 년도는 4자...
※ 데이터전처리 패키지: dplyr chain function : %>% 파이프연산자를 사용하여 매우 직관적임 코드 가독성이 높음 코드 유지보수가 용이함 매우 빠른 속도 # 일반적인 코드 > 함수3(함수2(함수1(df,x),y,z))...
※ 데이터시각화 패키지: ggplot2 기본 구조 ggplot() : data와 x, y축 값을 넣어줌 target plot() : 만들고자 하는 plot / geom_point() / geom_line() / geom_bar() 등 ...
※ NA handling (결측치 처리) ◎ 사용할 패키지: tidyverse library(tidyverse) ◎ 예시 Data (df) name class math eng gender 1 Hwayoung 1 74.0 76 f 2 ...
■ 지수표기법 변경 optins(scipen= 숫자) optins(scipen=100) ■ order 함수 order(DataFrame, decreasing = (T/F)) order(DataFrame, decreasing = (T/F)) ■ K-Means C...
※ Convert in R # tidyverse 패키지 설치 및 불러오기 install.packages("tidyverse") library(tidyverse) 예시 1. # Untidy data 생성 stu1 <- data.frame(name = c('J...
※ Perceptron ■ 퍼셉트론 학습 알고리즘 구현 # 퍼셉트론 > import numpy as np > epsilon = 0.0000001 # 부동소수점 오차 방지 # 활성화 함수: step function > def step_func(t): i...
출처: https://arxiv.org/pdf/2209.14734 ※ DiGress a discrete denoising diffusion model for generating graphs with categorical node and edge attributes ...
※ Perceptron 이란? Neural Net(신경망)의 기본 구성 요소 input과 output을 제외한 (hidden) layer에서의 특정한 하나의 노드 ■ 퍼셉트론의 구성 요소 Input (입력) Weight (가중치) Bias (편향 / 바...
Homogeneous Graphs 모든 노드의 종류가 동일한 그래프 Heterogeneous Graphs 여러 종류(type)의 노드(node) 및 엣지(edge)로 구성된 그래프 더 ...
출처: https://arxiv.org/pdf/1703.10593 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks Goal learning to translate an imag...
출처: https://arxiv.org/pdf/1710.10903 Paper 직역 ABSTRACT 그래프 컨볼루션 또는 근사치를 기반으로 한 이전 방법들의 단점을 해결하기 위해 Graph Attention Network를 소개한다. 레이어를 쌓음으로써 노드가 그들의 이웃들의 ...
※ Artificial Neural Network ■ Forward Propagation (순전파) 입력층 - 은닉층 - 출력층 순서대로 흘러가는 것 ■ Back Propagation (역전파) Update weights recursively 다층 퍼셉트...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Graph Neural Network 그래프에 직접 적용할 수 있는 신경망 그래프 구조를 활용하여 특징을 추출하여 작업을 수행 ■ Graph (그래프) 점(Node)들을 잇는 선(Edge)으로 이루어진 데이터 구조 일반적으로 G=(V, E)로 정의 ...
※ Convolutional Neural Network 이미지 처리와 패턴 인식에 탁월한 성능을 보여주는 신경망 이미지 데이터의 공간적 특징을 추출하여 학습하고 이를 기반으로 패턴을 인식하는데 사용 구성 Convolution Layer (합성곱 층)...
※ 딥러닝의 정의 deep learning = machine learning + deep neural network e.g. CNN, RNN DL이 ML보다 좋은 이유는 성능이 좋아서. > feature extraction 때문에 성능이 좋음 ML - 전문가가 feature...
■ sklearn ■ metrics □ 라이브러리 호출 > from sklearn import metrics > metrics.r2_score > metrics.mean_absolute_error > metrics.mean_squared_error
※ linear_model ■ LinearRegression □ 라이브러리 호출 > from sklearn.linear_model import LinearRegression □ Linear Regression # 기본 구조 # 인스턴스화 > LR_mo...
※ ensemble ■ RandomForestRegressor □ 라이브러리 호출 > from sklearn.ensemble import RandomForestRegressor as RFR # 기본 구조 # 인스턴스화 > RF_model = RFR() >...
※ preprocessing ■ MinMaxScaler (Min Max 스케일링) 데이터 feature의 값을 특정 범위로 변환하기 위한 라이브러리 default는 각 feature의 값을 0과 1사이로 변환함 □ 라이브러리 호출 > from sklearn...
※ neighbors ■ KNeighborsClassifier K-Nearest Neighbor 방법 □ 라이브러리 호출 > from sklearn.neighbors import KNeighborsClassifier as KNN □ K-Nearest...
※ decomposition ■ PCA (Principal Component Analysis, 주성분 분석) 차원축소(dimension reduction) 기법 고차원 데이터 집합이 주어졌을 때 원래의 데이터와 가장 비슷하면서 더 낮은 차원 데이터를 찾아내는 방법 ...
※ model_selection ■ train_test_split (데이터 분할) 학습에 사용할 데이터와, 평가를 할 때 사용할 데이터로 나누기 위한 라이브러리 (train data / test data) □ 라이브러리 호출 > from sklearn.mode...
※ impute 데이터 안의 NA값을 대치하는 데 사용 하나의 데이터프레임 안에 연속형변수와 범주형변수 둘 다 있을 경우 데이터를 따로 나누어 진행. e.g. 범주형변수에는 most_frequent, 연속형변수에는 mean 적용… 사용...
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...
※ Scikit-Learn 머신러닝에 특화된 라이브러리 # e.g. # sklearn을 사용하여 분류 모델을 학습, 평가하는 예시 # 모델 불러오기 > from sklearn.ensemble import RandomForestClassifier > from s...
※ Regression Analysis in Excel (회귀 분석) Example Data ■ 회귀분석 (1) 데이터 -> 데이터 분석 (2) 통계 데이터 분석 -> 회귀 분석 (3) 회귀 분석 (4) 회귀 분석 - 데이터 ...
※ K-Means Clustering in Excel Example Data 구매정보 Data 고객정보 Data ■ 데이터전처리 1. 구매정보 Data를 피벗테이블로 만들기 2. 구매정보와 고객정보 병합 3. 필요없는 데이터 ...
※ t-test in Excel ■ t-검정의 종류 단일 표본 t-검정 (one sample t-test) 대응 표본 t-검정 (paired samples t-test) - 짝비교 독립 표본 t-검정 (independent samples t-test) Exa...
※ Scatter Plot in Excel Example Data Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species ...
※ Correlation analysis in Excel Example Data price bedrooms bathrooms sqft_living sqft_lot floors wate...
※ Box Plot in Excel Example Data statezip 1st Floor 2nd Floor 3rd Floor 4th Floor 5th Floor ...
※ Convert in Excel 1. Convert “Untidy Data” to “Tidy Data” Example Data 지역 인구 등급 가격 서울 1 ...
※ 행/열 그룹 설정 그룹화하고 싶은 열 선택 Alt + Shift + 오른쪽 방향키(→) 표시된 바를 이용하여 열 숨기기 가능 여러개의 열을 그룹화할 수 있음 행도 그룹화가 가능함 ...
※ 빠른 실행 도구 모음 빠른 실행 도구 모음 사용자 지정 -> 기타 명령 명령 선택 -> 모든 명령 후 아래와 같이 추가 셀 선택 후 “Alt”키 입력 -> 원하는 동작 실행
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...
Assocication Rule analysis in Python > df # 주문당 제품 리스트 > product_list_per_order = df.groupby('order_id')['product_id'].apply(list).tolist() # 주문당 제품...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
※ Hierarchical Clustering in R (계층적 군집분석) ■ 유사도 행렬 생성 parameter method : 거리 측정 방식 (“euclidean” / “maximum” / “manhattan” / “canberra” / “bin...
※ Association Analysis in R (연관분석) ■ 연관분석 패키지 arules : 연관분석 패키지 arulesViz : 연관분석 시각화용 패키지 ■ 연관분석 □ transactions 형식의 data apriori()를 사용하기 위해 da...
※ K-Means Clustering in Excel Example Data 구매정보 Data 고객정보 Data ■ 데이터전처리 1. 구매정보 Data를 피벗테이블로 만들기 2. 구매정보와 고객정보 병합 3. 필요없는 데이터 ...
※ Machine Learning 이란? 컴퓨터가 데이터를 학습해서 분류/예측 등의 모델을 만들게 하는 통계 알고리즘 컴퓨터가 명시적으로 프로그램되지 않고도 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 연구 분야 ■ 머신러닝의 핵심 개념 데이터: Fe...
※ Association Analysis (연관분석) 데이터에서 항목 간의 연관성을 찾아내는데 사용 “A가 발생하면 B도 발생한다”라는 형태의 규칙, 트랜잭선 데이터를 탐색하는데 사용 ■ 연관 규칙 A: 부모 아이템 집합 (antecedent) B: 자...
※ Clustering (군집화) Unsupervised learning (비지도 학습) Unsupervised Classification 유사한 개체들의 집단을 판별하는 방법론 데이터의 특징만으로 서로 유사한 특징을 가진 데이터들끼리 그룹화함으로써 cluster(...
※ Simple Linear Regression의 Parameter Estimation ■ 단순선형회귀 모형 [Y = \beta_{0}+\beta_{1}X+\epsilon] ■ 단순선형회귀직선의 계수(모수) 추정 주어진 데이터를 설명할 수 있는 다양한 선형 직선 중,...
※ Regression Analysis in Excel (회귀 분석) Example Data ■ 회귀분석 (1) 데이터 -> 데이터 분석 (2) 통계 데이터 분석 -> 회귀 분석 (3) 회귀 분석 (4) 회귀 분석 - 데이터 ...
※ Measuring the quality of fit (적합성 측정) \(Cor(Y,\hat Y) = \lvert Cor(X, Y) \rvert\) $X, Y$산점도와 $Y, \hat Y$산점도는 동일한 패턴, 상관계수도 같다. ■ SST / SSR / SSE 종...
※ Logistic Regression (로지스틱 회귀) 종속변수가 범주형인 경우에 보통 사용. 종속변수가 연속형인 경우에 사용할려면 y의 범위가 주어져야 함. linear regression을 분류 모델로써 확장한 모델 linear regression 결과에 ...
※ 가설검정 ■ 기울기 $\beta_{1}$에 대한 검정 □ $\hat \beta_{1}$의 분포 추정량 $\hat \beta_{1}$은 정규분포를 따르는 관측값 $y$들의 선형결합으로 이루어져 있으므로, 정규분포를 따른다 \(\hat \beta_{1} \sim N(...
※ Regression Analysis (회귀 분석) 종속변수 $y$와 여러 독립변수의 집합 $X$ 사이의 관계를 선형으로 가정하고, 해당 관계를 가장 잘 설명할 수 있는 모형을 찾는 분석 방법론 인과관계를 확인하기 위해 고안된 모델, 인과관계의 영향도를 ...
■ 다중선형회귀 종속변수 $y$와 여러 독립변수의 집합 $X$ 사이의 관계를 선형으로 추정하고 분석하는 것 모집단의 회귀 직선: $y ~=~ \beta_{0} ~+~ \beta_{1}x_{1} ~+~… ~+~ \beta_{p}x_{p} ~+~\epsilon$ ...
※ Regression 주어진 데이터(X)와 찾고자 하는 값(y) 사이의 관계를 찾는 방법 주어진 input data와 관심 있는 target value 사이의 관계를 모델링하는 것 input data는 일반적으로 벡터(feature vector), target val...
※ Simple Linear Regression의 Parameter Estimation ■ 단순선형회귀 모형 [Y = \beta_{0}+\beta_{1}X+\epsilon] ■ 단순선형회귀직선의 계수(모수) 추정 주어진 데이터를 설명할 수 있는 다양한 선형 직선 중,...
※ Measuring the quality of fit (적합성 측정) \(Cor(Y,\hat Y) = \lvert Cor(X, Y) \rvert\) $X, Y$산점도와 $Y, \hat Y$산점도는 동일한 패턴, 상관계수도 같다. ■ SST / SSR / SSE 종...
※ Logistic Regression (로지스틱 회귀) 종속변수가 범주형인 경우에 보통 사용. 종속변수가 연속형인 경우에 사용할려면 y의 범위가 주어져야 함. linear regression을 분류 모델로써 확장한 모델 linear regression 결과에 ...
※ 가설검정 ■ 기울기 $\beta_{1}$에 대한 검정 □ $\hat \beta_{1}$의 분포 추정량 $\hat \beta_{1}$은 정규분포를 따르는 관측값 $y$들의 선형결합으로 이루어져 있으므로, 정규분포를 따른다 \(\hat \beta_{1} \sim N(...
※ Regression Analysis (회귀 분석) 종속변수 $y$와 여러 독립변수의 집합 $X$ 사이의 관계를 선형으로 가정하고, 해당 관계를 가장 잘 설명할 수 있는 모형을 찾는 분석 방법론 인과관계를 확인하기 위해 고안된 모델, 인과관계의 영향도를 ...
■ 다중선형회귀 종속변수 $y$와 여러 독립변수의 집합 $X$ 사이의 관계를 선형으로 추정하고 분석하는 것 모집단의 회귀 직선: $y ~=~ \beta_{0} ~+~ \beta_{1}x_{1} ~+~… ~+~ \beta_{p}x_{p} ~+~\epsilon$ ...
※ Simple Linear Regression의 Parameter Estimation ■ 단순선형회귀 모형 [Y = \beta_{0}+\beta_{1}X+\epsilon] ■ 단순선형회귀직선의 계수(모수) 추정 주어진 데이터를 설명할 수 있는 다양한 선형 직선 중,...
※ linear_model ■ LinearRegression □ 라이브러리 호출 > from sklearn.linear_model import LinearRegression □ Linear Regression # 기본 구조 # 인스턴스화 > LR_mo...
※ Measuring the quality of fit (적합성 측정) \(Cor(Y,\hat Y) = \lvert Cor(X, Y) \rvert\) $X, Y$산점도와 $Y, \hat Y$산점도는 동일한 패턴, 상관계수도 같다. ■ SST / SSR / SSE 종...
※ 가설검정 ■ 기울기 $\beta_{1}$에 대한 검정 □ $\hat \beta_{1}$의 분포 추정량 $\hat \beta_{1}$은 정규분포를 따르는 관측값 $y$들의 선형결합으로 이루어져 있으므로, 정규분포를 따른다 \(\hat \beta_{1} \sim N(...
※ Regression Analysis (회귀 분석) 종속변수 $y$와 여러 독립변수의 집합 $X$ 사이의 관계를 선형으로 가정하고, 해당 관계를 가장 잘 설명할 수 있는 모형을 찾는 분석 방법론 인과관계를 확인하기 위해 고안된 모델, 인과관계의 영향도를 ...
■ 다중선형회귀 종속변수 $y$와 여러 독립변수의 집합 $X$ 사이의 관계를 선형으로 추정하고 분석하는 것 모집단의 회귀 직선: $y ~=~ \beta_{0} ~+~ \beta_{1}x_{1} ~+~… ~+~ \beta_{p}x_{p} ~+~\epsilon$ ...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ QR Decomposition (QR 분해) [A = QR] > import numpy as np > A = np.array([[1, 0, 1], [0, 1, 1], [1, 2, 0]]) > print(A) [[1 0 1] [0 1 1] [1 2...
※ 고유값 / 고유벡터 # numpy 활용 > import numpy as np > A = np.array([[3, 0], [8, -1]]) > A [[ 3 0] [ 8 -1]] > e, v = np.linalg.eig(A) > print(e) ...
※ Vector (벡터) ■ 벡터의 덧셈 ## 직접 정의하기 def add(u, v): n = len(u) w = [] for i in range(0, n): value = u[i] + v[i] w.append(value) ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Chi-Square Test in Python # 기본 사용법 > from scipy.stats import * > chi2_contingency(observed, correction = True, lambda = None) > chi2_contingenc...
※ t-test in Python ■ 단일 표본 t-검정 # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > ttest_1samp(data, mu) # 사용 예시 > fro...
※ t-test in Excel ■ t-검정의 종류 단일 표본 t-검정 (one sample t-test) 대응 표본 t-검정 (paired samples t-test) - 짝비교 독립 표본 t-검정 (independent samples t-test) Exa...
※ t-분포 (t-distribution) 표본의 크기가 작은 경우, $\sigma$를 $s$로 대체하게 되면, 표준화된 확률변수의 분포는 표준정규분포와 달라진다. 이런 경우에 그 변화된 분포를 말함. $Z$와 $\chi^{2}(k)$가 각각 독립인 표준정규확률변수와...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ QR Decomposition (QR 분해) [A = QR] > import numpy as np > A = np.array([[1, 0, 1], [0, 1, 1], [1, 2, 0]]) > print(A) [[1 0 1] [0 1 1] [1 2...
※ 고유값 / 고유벡터 # numpy 활용 > import numpy as np > A = np.array([[3, 0], [8, -1]]) > A [[ 3 0] [ 8 -1]] > e, v = np.linalg.eig(A) > print(e) ...
※ Vector (벡터) ■ 벡터의 덧셈 ## 직접 정의하기 def add(u, v): n = len(u) w = [] for i in range(0, n): value = u[i] + v[i] w.append(value) ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Perceptron ■ 퍼셉트론 학습 알고리즘 구현 # 퍼셉트론 > import numpy as np > epsilon = 0.0000001 # 부동소수점 오차 방지 # 활성화 함수: step function > def step_func(t): i...
※ Perceptron 이란? Neural Net(신경망)의 기본 구성 요소 input과 output을 제외한 (hidden) layer에서의 특정한 하나의 노드 ■ 퍼셉트론의 구성 요소 Input (입력) Weight (가중치) Bias (편향 / 바...
※ Artificial Neural Network ■ Forward Propagation (순전파) 입력층 - 은닉층 - 출력층 순서대로 흘러가는 것 ■ Back Propagation (역전파) Update weights recursively 다층 퍼셉트...
※ Neural Network 데이터로부터 반복적인 학습과정을 거쳐 데이터에 숨어있는 패턴이나 연관관계를 찾아냄 Usage Pattern Recognition Classification Clustering Associative Memory Data Comp...
※ t-test in Python ■ 단일 표본 t-검정 # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > ttest_1samp(data, mu) # 사용 예시 > fro...
※ t-test in Excel ■ t-검정의 종류 단일 표본 t-검정 (one sample t-test) 대응 표본 t-검정 (paired samples t-test) - 짝비교 독립 표본 t-검정 (independent samples t-test) Exa...
※ t-분포 (t-distribution) 표본의 크기가 작은 경우, $\sigma$를 $s$로 대체하게 되면, 표준화된 확률변수의 분포는 표준정규분포와 달라진다. 이런 경우에 그 변화된 분포를 말함. $Z$와 $\chi^{2}(k)$가 각각 독립인 표준정규확률변수와...
※ NA handling ■ .dropna() NA값이 있는 행 또는 열 제거 parameter axis 1: 열 삭제 0: 행 삭제 how ...
※ 결측값 처리 isna() : 결측값을 True로 반환 notna() : 결측값을 False로 반환 # 사용 예시 > df.isna() > df.isna().sum() # 결측값이 있는 행의 개수 > df.notna().sum() # 결측값이 없는 행...
※ NA handling (결측치 처리) ◎ 사용할 패키지: tidyverse library(tidyverse) ◎ 예시 Data (df) name class math eng gender 1 Hwayoung 1 74.0 76 f 2 ...
※ Missing Value (결측치) 데이터에서 특정 변수의 일부 값이 누락된 상태 수집 및 저장 과정에서 정보가 누락된 경우 데이터가 부적절하게 기록되었을 경우 ■ Missing Value 처리 방법 □ 통계 자료를 통한 대치 수치형 변수의 결측치 ...
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
※ K-Means Clustering in Excel Example Data 구매정보 Data 고객정보 Data ■ 데이터전처리 1. 구매정보 Data를 피벗테이블로 만들기 2. 구매정보와 고객정보 병합 3. 필요없는 데이터 ...
※ Clustering (군집화) Unsupervised learning (비지도 학습) Unsupervised Classification 유사한 개체들의 집단을 판별하는 방법론 데이터의 특징만으로 서로 유사한 특징을 가진 데이터들끼리 그룹화함으로써 cluster(...
Mlxtend Library apriori 함수를 이용한 빈발 아이템 집합 탐색과, association_rules 함수를 이용하여 연관규칙을 탐색하는 두 단계로 수행 ■ 라이브러리 호출 > from mlxtend.frequent_patterns import...
Assocication Rule analysis in Python > df # 주문당 제품 리스트 > product_list_per_order = df.groupby('order_id')['product_id'].apply(list).tolist() # 주문당 제품...
※ Association Analysis in R (연관분석) ■ 연관분석 패키지 arules : 연관분석 패키지 arulesViz : 연관분석 시각화용 패키지 ■ 연관분석 □ transactions 형식의 data apriori()를 사용하기 위해 da...
※ Association Analysis (연관분석) 데이터에서 항목 간의 연관성을 찾아내는데 사용 “A가 발생하면 B도 발생한다”라는 형태의 규칙, 트랜잭선 데이터를 탐색하는데 사용 ■ 연관 규칙 A: 부모 아이템 집합 (antecedent) B: 자...
Mlxtend Library apriori 함수를 이용한 빈발 아이템 집합 탐색과, association_rules 함수를 이용하여 연관규칙을 탐색하는 두 단계로 수행 ■ 라이브러리 호출 > from mlxtend.frequent_patterns import...
Assocication Rule analysis in Python > df # 주문당 제품 리스트 > product_list_per_order = df.groupby('order_id')['product_id'].apply(list).tolist() # 주문당 제품...
※ Association Analysis in R (연관분석) ■ 연관분석 패키지 arules : 연관분석 패키지 arulesViz : 연관분석 시각화용 패키지 ■ 연관분석 □ transactions 형식의 data apriori()를 사용하기 위해 da...
※ Association Analysis (연관분석) 데이터에서 항목 간의 연관성을 찾아내는데 사용 “A가 발생하면 B도 발생한다”라는 형태의 규칙, 트랜잭선 데이터를 탐색하는데 사용 ■ 연관 규칙 A: 부모 아이템 집합 (antecedent) B: 자...
※ neighbors ■ KNeighborsClassifier K-Nearest Neighbor 방법 □ 라이브러리 호출 > from sklearn.neighbors import KNeighborsClassifier as KNN □ K-Nearest...
※ SVM (Support Vector Machine) 중심선 경계선 : support vector 여백(margin) : 중심선과 경계선 사이 ■ Projection (정사영) $\vec u를~ \vec v에~정사영$ : 수직으로 내리는 것 \(...
※ KNN (K-Nearest Neighbor, K-최근접 이웃) 가장 가까이 있는 데이터 클래스에 속한다고 보는 방법 가까이 있는 데이터 1개를 보면 1-최근접 이웃 가까이 있는 데이터 k개를 보면 k-최근접 이웃 유클리디안 거리를 사용하므로 피쳐는 연속형 변수여...
※ Machine Learning 이란? 컴퓨터가 데이터를 학습해서 분류/예측 등의 모델을 만들게 하는 통계 알고리즘 컴퓨터가 명시적으로 프로그램되지 않고도 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 연구 분야 ■ 머신러닝의 핵심 개념 데이터: Fe...
※ Simple Linear Regression의 Parameter Estimation ■ 단순선형회귀 모형 [Y = \beta_{0}+\beta_{1}X+\epsilon] ■ 단순선형회귀직선의 계수(모수) 추정 주어진 데이터를 설명할 수 있는 다양한 선형 직선 중,...
※ Measuring the quality of fit (적합성 측정) \(Cor(Y,\hat Y) = \lvert Cor(X, Y) \rvert\) $X, Y$산점도와 $Y, \hat Y$산점도는 동일한 패턴, 상관계수도 같다. ■ SST / SSR / SSE 종...
※ 가설검정 ■ 기울기 $\beta_{1}$에 대한 검정 □ $\hat \beta_{1}$의 분포 추정량 $\hat \beta_{1}$은 정규분포를 따르는 관측값 $y$들의 선형결합으로 이루어져 있으므로, 정규분포를 따른다 \(\hat \beta_{1} \sim N(...
※ Regression Analysis (회귀 분석) 종속변수 $y$와 여러 독립변수의 집합 $X$ 사이의 관계를 선형으로 가정하고, 해당 관계를 가장 잘 설명할 수 있는 모형을 찾는 분석 방법론 인과관계를 확인하기 위해 고안된 모델, 인과관계의 영향도를 ...
※ 문자열 핸들링 패키지: stringr 텍스트전처리 / 텍스트마이닝 등 문자열 핸들링 패키지 함수명은 보통 str로 시작함 ■ str_length 문자열의 개수 반환 > str_length() ■ str_to_upper / str_to_low...
※ 데이터정제 패키지: tidyr > install.packages("tidyr") > library(tidyr) ■ Pivoting □ pivot_longer() untidy data를 tidy data 형식으로 변경 parameter ...
※ 날짜 데이터 핸들링 패키지: lubridate 날짜와 시간 데이터를 핸들링할 수 있는 패키지 ■ R 기본 내장함수 as.Date()함수는 기본적인 형식에 맞춰야 하는 불편함이 있음 반드시 ‘/’ 또는 ‘-‘로 구분되어야 함 년월일 순으로 년도는 4자...
※ 데이터전처리 패키지: dplyr chain function : %>% 파이프연산자를 사용하여 매우 직관적임 코드 가독성이 높음 코드 유지보수가 용이함 매우 빠른 속도 # 일반적인 코드 > 함수3(함수2(함수1(df,x),y,z))...
※ Convert in R # tidyverse 패키지 설치 및 불러오기 install.packages("tidyverse") library(tidyverse) 예시 1. # Untidy data 생성 stu1 <- data.frame(name = c('J...
※ Convert in Excel 1. Convert “Untidy Data” to “Tidy Data” Example Data 지역 인구 등급 가격 서울 1 ...
※ Tidy Data = Long Format Data(Table) 데이터 전처리에 걸리는 시간을 최소하하기 위한 표준화된 데이터 형태 데이터를 행 방향으로 구성하는 형식으로, 각 행은 하나의 데이터 관찰값을 나타냄 필요 조건 Each var...
※ Convert in R # tidyverse 패키지 설치 및 불러오기 install.packages("tidyverse") library(tidyverse) 예시 1. # Untidy data 생성 stu1 <- data.frame(name = c('J...
※ Convert in Excel 1. Convert “Untidy Data” to “Tidy Data” Example Data 지역 인구 등급 가격 서울 1 ...
※ Tidy Data = Long Format Data(Table) 데이터 전처리에 걸리는 시간을 최소하하기 위한 표준화된 데이터 형태 데이터를 행 방향으로 구성하는 형식으로, 각 행은 하나의 데이터 관찰값을 나타냄 필요 조건 Each var...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
※ K-Means Clustering in Excel Example Data 구매정보 Data 고객정보 Data ■ 데이터전처리 1. 구매정보 Data를 피벗테이블로 만들기 2. 구매정보와 고객정보 병합 3. 필요없는 데이터 ...
※ Clustering (군집화) Unsupervised learning (비지도 학습) Unsupervised Classification 유사한 개체들의 집단을 판별하는 방법론 데이터의 특징만으로 서로 유사한 특징을 가진 데이터들끼리 그룹화함으로써 cluster(...
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...
※ Hierarchical Clustering in R (계층적 군집분석) ■ 유사도 행렬 생성 parameter method : 거리 측정 방식 (“euclidean” / “maximum” / “manhattan” / “canberra” / “bin...
※ Clustering (군집화) Unsupervised learning (비지도 학습) Unsupervised Classification 유사한 개체들의 집단을 판별하는 방법론 데이터의 특징만으로 서로 유사한 특징을 가진 데이터들끼리 그룹화함으로써 cluster(...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ 사전 (Dictionary) key : value 방법을 통해 저장 key값을 통해 value에 access함 key는 중복될 수 없음 리스트는 key가 될 수 없으나 튜플은 key가 될 수 있음 위치로 인덱싱이 되지 않음 순서가 아닌 의미가 있는 값을 ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ Chi-Square Test in Python # 기본 사용법 > from scipy.stats import * > chi2_contingency(observed, correction = True, lambda = None) > chi2_contingenc...
※ ANOVA in Python Analysis of Variance # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > f_oneway(sample1, sample2, sampl...
※ t-test in Python ■ 단일 표본 t-검정 # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > ttest_1samp(data, mu) # 사용 예시 > fro...
※ Chi-Square Test in Python # 기본 사용법 > from scipy.stats import * > chi2_contingency(observed, correction = True, lambda = None) > chi2_contingenc...
※ ANOVA in Python Analysis of Variance # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > f_oneway(sample1, sample2, sampl...
※ t-test in Python ■ 단일 표본 t-검정 # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > ttest_1samp(data, mu) # 사용 예시 > fro...
Mlxtend Library apriori 함수를 이용한 빈발 아이템 집합 탐색과, association_rules 함수를 이용하여 연관규칙을 탐색하는 두 단계로 수행 ■ 라이브러리 호출 > from mlxtend.frequent_patterns import...
Assocication Rule analysis in Python > df # 주문당 제품 리스트 > product_list_per_order = df.groupby('order_id')['product_id'].apply(list).tolist() # 주문당 제품...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Graph Neural Network 그래프에 직접 적용할 수 있는 신경망 그래프 구조를 활용하여 특징을 추출하여 작업을 수행 ■ Graph (그래프) 점(Node)들을 잇는 선(Edge)으로 이루어진 데이터 구조 일반적으로 G=(V, E)로 정의 ...
※ Decision Tree in R (의사결정 나무)
※ Decision Tree (의사결정 나무) source: https://scikit-learn.org/stable/auto_examples/tree/plot_iris_dtc.html ■ Tree Model (나무 모형) 발견된 변수의 규칙 혹은 조건문을 토대로 나무...
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...
※ Outlier (이상치) 대부분의 데이터와 현저하게 다른 값을 가지는 값 데이터 내에서 통계적으로 특이한 값 데이터 분포를 왜곡할 수 있음 무작위 오류, 측정 오류, 실제로 특이한 사건에 의해 발생 ■ Outlier 탐지 방법 □ 통계적인 기법 활용 ...
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...
※ Clustering (군집화) Unsupervised learning (비지도 학습) Unsupervised Classification 유사한 개체들의 집단을 판별하는 방법론 데이터의 특징만으로 서로 유사한 특징을 가진 데이터들끼리 그룹화함으로써 cluster(...
※ ANOVA in Python Analysis of Variance # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > f_oneway(sample1, sample2, sampl...
※ ANOVA (분산분석) Analysis of Variance 셋 이상의 모집단 간의 평균을 비교하는데 사용 관측한 자료들이 다양하게 나타나는 것을 체계적으로 설명하려는 하나의 통계 기법 → 관측값들이 달라지는 것을 여러 요인으로 나누어 각 요인들이 얼마나 변화에...
※ 상관분석 # 기본 사용법 > from scipy.stats import * # 피어슨 상관계수 > pearsonr(x, y, alternative='two-sided', ...) > df.corr(method = 'pearson') # 스피어만 상관계수 &...
※ Covariance (공분산) 두 개의 확률변수 $X$, $Y$가 상호 어떤 관계를 가지며 변화하는가를 나타내주는 척도 두 개의 확률변수 $X$, $Y$의 선형 관계를 나타내는 값 $\mathbb{E}(X-\mu_{X})(Y-\mu_Y)$ 부호는...
※ 상관분석 # 기본 사용법 > from scipy.stats import * # 피어슨 상관계수 > pearsonr(x, y, alternative='two-sided', ...) > df.corr(method = 'pearson') # 스피어만 상관계수 &...
※ Covariance (공분산) 두 개의 확률변수 $X$, $Y$가 상호 어떤 관계를 가지며 변화하는가를 나타내주는 척도 두 개의 확률변수 $X$, $Y$의 선형 관계를 나타내는 값 $\mathbb{E}(X-\mu_{X})(Y-\mu_Y)$ 부호는...
※ decomposition ■ PCA (Principal Component Analysis, 주성분 분석) 차원축소(dimension reduction) 기법 고차원 데이터 집합이 주어졌을 때 원래의 데이터와 가장 비슷하면서 더 낮은 차원 데이터를 찾아내는 방법 ...
데이터에서 가장 중요한 성분을 순서대로 추출하는 기법 pc1 : 내 데이터의 분산을 가장 잘 설명해주는 축 pc2 : pc1에 직교하는 축이 주성분2 언제 사용? 쓸데없는 정보들이 많아 양을 줄이고 싶을때 잠재하는 변수latent variable을 확인하고 싶들때 의미없는 변...
※ neighbors ■ KNeighborsClassifier K-Nearest Neighbor 방법 □ 라이브러리 호출 > from sklearn.neighbors import KNeighborsClassifier as KNN □ K-Nearest...
※ KNN (K-Nearest Neighbor, K-최근접 이웃) 가장 가까이 있는 데이터 클래스에 속한다고 보는 방법 가까이 있는 데이터 1개를 보면 1-최근접 이웃 가까이 있는 데이터 k개를 보면 k-최근접 이웃 유클리디안 거리를 사용하므로 피쳐는 연속형 변수여...
※ neighbors ■ KNeighborsClassifier K-Nearest Neighbor 방법 □ 라이브러리 호출 > from sklearn.neighbors import KNeighborsClassifier as KNN □ K-Nearest...
※ KNN (K-Nearest Neighbor, K-최근접 이웃) 가장 가까이 있는 데이터 클래스에 속한다고 보는 방법 가까이 있는 데이터 1개를 보면 1-최근접 이웃 가까이 있는 데이터 k개를 보면 k-최근접 이웃 유클리디안 거리를 사용하므로 피쳐는 연속형 변수여...
※ plotly.express 반응형 그래프를 그릴 수 있는 라이브러리 html로 저장하기 용이함 ■ 라이브러리 호출 > import plotly.express as px ■ 기초 method > fig = px.그래프종류(data_frame,...
※ 데이터시각화 패키지: plotly 반응형 그래프 plot_ly 기본 구조 plot_ly() : data와 x, y축 값을 넣어줌 parameter type : plot 종류 ( “scatter” / “b...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 함수 (Function) input(parameter 또는 argument)을 받아 output을 return 한 가지 기능을 하는 코드 묶음 똑같은 구조가 반복되는 것을 막기 위해 사용 input — (Function) — output의 구조 sourc...
※ 튜플 (Tuple) list와 거의 비슷 생성 후 변경이 불가능함 (immutable) 프로그램 실행 중 변하지 않거나 변해서는 안되는 값들이 있을 때 튜플로 저장하면 좋음 리스트에서 사용한 append() / insert() / exte...
※ 함수 (Function) input(parameter 또는 argument)을 받아 output을 return 한 가지 기능을 하는 코드 묶음 똑같은 구조가 반복되는 것을 막기 위해 사용 input — (Function) — output의 구조 sourc...
※ Comprehension ■ List Comprehension 리스트를 생성하는 방법 중의 하나 [] 안에 for문 또는 if문을 사용 # 기본 구조 > [output for iterator in iterable_object if 조건] # e.g. ...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ 집합 (Set) 교집합, 합집합, 차집합 지원 원소의 중복을 허용하지 않음 > 원소의 종류를 나타내기 좋음 원소의 순서가 존재하지 않음 > index가 없음 ■ 집합 생성방법 { } 사용 공집합 생성 시 set() 사용 > s =...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ Itertools 순열, 조합 등의 계산이 가능한 라이브러리 ■ 라이브러리 호출 > import itertools ■ itertools □ .zip_longest() zip 함수와 동일하나, 길이가 다른 경우에도 사용이 가능 길이가 다른 경...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ spatial.distance ■ cdist 두 개의 행렬을 바탕으로 거리 행렬을 출력 ■ 라이브러리 호출 > from scipy.spatial.distance import cdist □ 거리 계산 parameter XA: ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ 사전 (Dictionary) key : value 방법을 통해 저장 key값을 통해 value에 access함 key는 중복될 수 없음 리스트는 key가 될 수 없으나 튜플은 key가 될 수 있음 위치로 인덱싱이 되지 않음 순서가 아닌 의미가 있는 값을 ...
※ Comprehension ■ List Comprehension 리스트를 생성하는 방법 중의 하나 [] 안에 for문 또는 if문을 사용 # 기본 구조 > [output for iterator in iterable_object if 조건] # e.g. ...
※ Datetime 날짜를 계산하기 위한 라이브러리 ■ 라이브러리 호출 > import datetime ■ datetime.date □ .days 일수 계산 # e.g. > day1 = datetime.date(2024, 1, 1) >...
※ 날짜 데이터 ■ 문자형데이터를 날짜데이터로 변환하기 문자형 데이터를 날짜형 데이터로 변경을 해야 날짜 계산이 가능함 형식 %Y : 4자리 연도 %y : 0을 채운 2자리 연도 %m : 0을 채운 월 %d : 0을 채...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ 문자열 다루기 ■ contains() .str.contains(문자열) : 문자열을 포함하고 있는지의 유무 # 사용 예시 > df['Name'].str.contains('Mrs') # 컬럼 'Name'에서 'Mrs' 문자열을 포함하고 있는지 T/F 반환 &g...
모든 문제 출처: https://www.acmicpc.net # 킹, 퀸, 룩, 비숍, 나이트, 폰 # 체스는 총 16개의 피스를 사용하며, 킹 1개, 퀸 1개, 룩 2개, 비숍 2개, 나이트 2개, 폰 8개로 구성되어 있다. # 피스의 개수가 주어졌을 때, 몇 개를 더하...
# 시험 점수를 입력받아 # 90 ~ 100점은 A, 80 ~ 89점은 B, # 70 ~ 79점은 C, 60 ~ 69점은 D, # 나머지 점수는 F를 출력 # e.g. # 입력: 65 # 출력: D # 입력: 99 # 출력: A # 일반적인 coding > A = int(...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
변수 (Variable) 특정 조건에 따라 변하는 값 확률 변수 (Random Variable) 특정 값(범위)을 확률에 따라 취하는 변수 e.g. 주사위를 던졌을 때 나오는 결과를 나타내는 변수 ■ 변수의 치우침 변수의 치우침을 해결하는 기본 아이디...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
변수 (Variable) 특정 조건에 따라 변하는 값 확률 변수 (Random Variable) 특정 값(범위)을 확률에 따라 취하는 변수 e.g. 주사위를 던졌을 때 나오는 결과를 나타내는 변수 ■ 변수의 치우침 변수의 치우침을 해결하는 기본 아이디...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
변수 (Variable) 특정 조건에 따라 변하는 값 확률 변수 (Random Variable) 특정 값(범위)을 확률에 따라 취하는 변수 e.g. 주사위를 던졌을 때 나오는 결과를 나타내는 변수 ■ 변수의 치우침 변수의 치우침을 해결하는 기본 아이디...
※ Chi-Square Test in Python # 기본 사용법 > from scipy.stats import * > chi2_contingency(observed, correction = True, lambda = None) > chi2_contingenc...
※ t-test in Python ■ 단일 표본 t-검정 # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > ttest_1samp(data, mu) # 사용 예시 > fro...
※ Chi-Square Test in Python # 기본 사용법 > from scipy.stats import * > chi2_contingency(observed, correction = True, lambda = None) > chi2_contingenc...
※ t-test in Python ■ 단일 표본 t-검정 # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > ttest_1samp(data, mu) # 사용 예시 > fro...
※ Chi-Square Test in Python # 기본 사용법 > from scipy.stats import * > chi2_contingency(observed, correction = True, lambda = None) > chi2_contingenc...
※ t-test in Python ■ 단일 표본 t-검정 # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > ttest_1samp(data, mu) # 사용 예시 > fro...
※ Chi-Square Test in Python # 기본 사용법 > from scipy.stats import * > chi2_contingency(observed, correction = True, lambda = None) > chi2_contingenc...
※ t-test in Python ■ 단일 표본 t-검정 # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > ttest_1samp(data, mu) # 사용 예시 > fro...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 집합 (Set) 교집합, 합집합, 차집합 지원 원소의 중복을 허용하지 않음 > 원소의 종류를 나타내기 좋음 원소의 순서가 존재하지 않음 > index가 없음 ■ 집합 생성방법 { } 사용 공집합 생성 시 set() 사용 > s =...
※ 사전 (Dictionary) key : value 방법을 통해 저장 key값을 통해 value에 access함 key는 중복될 수 없음 리스트는 key가 될 수 없으나 튜플은 key가 될 수 있음 위치로 인덱싱이 되지 않음 순서가 아닌 의미가 있는 값을 ...
■ sklearn ■ metrics □ 라이브러리 호출 > from sklearn import metrics > metrics.r2_score > metrics.mean_absolute_error > metrics.mean_squared_error
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
Assocication Rule analysis in Python > df # 주문당 제품 리스트 > product_list_per_order = df.groupby('order_id')['product_id'].apply(list).tolist() # 주문당 제품...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
Assocication Rule analysis in Python > df # 주문당 제품 리스트 > product_list_per_order = df.groupby('order_id')['product_id'].apply(list).tolist() # 주문당 제품...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
Mlxtend Library apriori 함수를 이용한 빈발 아이템 집합 탐색과, association_rules 함수를 이용하여 연관규칙을 탐색하는 두 단계로 수행 ■ 라이브러리 호출 > from mlxtend.frequent_patterns import...
Assocication Rule analysis in Python > df # 주문당 제품 리스트 > product_list_per_order = df.groupby('order_id')['product_id'].apply(list).tolist() # 주문당 제품...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ spatial.distance ■ cdist 두 개의 행렬을 바탕으로 거리 행렬을 출력 ■ 라이브러리 호출 > from scipy.spatial.distance import cdist □ 거리 계산 parameter XA: ...
※ under_sampling ■ NearMiss 불균형한 데이터셋에서 다수 클래스의 샘플 수를 줄여서 클래스 간의 균형을 맞추기 위해 사용 소수 클래스의 근처에 있는 다수 클래스 샘플을 선택하여 유지하고, 나머지 다수 클래스 샘플을 제거하는 방법 가장 가까운 n개의...
※ over_sampling ■ SMOTE Synthetic Minority Over_sampling Technique 소수 클래스의 샘플을 증가시키기 위해 사용 소수 클래스 샘플을 임의로 선택하고, 선택된 샘플의 이웃 가운데 하나의 샘플을 또 임의로 선택하여 그 중...
※ under_sampling ■ NearMiss 불균형한 데이터셋에서 다수 클래스의 샘플 수를 줄여서 클래스 간의 균형을 맞추기 위해 사용 소수 클래스의 근처에 있는 다수 클래스 샘플을 선택하여 유지하고, 나머지 다수 클래스 샘플을 제거하는 방법 가장 가까운 n개의...
※ over_sampling ■ SMOTE Synthetic Minority Over_sampling Technique 소수 클래스의 샘플을 증가시키기 위해 사용 소수 클래스 샘플을 임의로 선택하고, 선택된 샘플의 이웃 가운데 하나의 샘플을 또 임의로 선택하여 그 중...
※ under_sampling ■ NearMiss 불균형한 데이터셋에서 다수 클래스의 샘플 수를 줄여서 클래스 간의 균형을 맞추기 위해 사용 소수 클래스의 근처에 있는 다수 클래스 샘플을 선택하여 유지하고, 나머지 다수 클래스 샘플을 제거하는 방법 가장 가까운 n개의...
※ over_sampling ■ SMOTE Synthetic Minority Over_sampling Technique 소수 클래스의 샘플을 증가시키기 위해 사용 소수 클래스 샘플을 임의로 선택하고, 선택된 샘플의 이웃 가운데 하나의 샘플을 또 임의로 선택하여 그 중...
※ Perceptron ■ 퍼셉트론 학습 알고리즘 구현 # 퍼셉트론 > import numpy as np > epsilon = 0.0000001 # 부동소수점 오차 방지 # 활성화 함수: step function > def step_func(t): i...
※ linear_model ■ LinearRegression □ 라이브러리 호출 > from sklearn.linear_model import LinearRegression □ Linear Regression # 기본 구조 # 인스턴스화 > LR_mo...
출처: https://arxiv.org/pdf/2209.14734 ※ DiGress a discrete denoising diffusion model for generating graphs with categorical node and edge attributes ...
※ Diffusion Probabilistic Models 이미지에 노이즈를 추가하여 이미지를 파괴 (forward diffusion process) 파괴된 이미지로부터 노이즈를 제거하여 이미지를 복구 (reverse diffusion process) ※ DiGr...
※ Package (패키지) 서로 관련있는 모듈들의 집합 모듈을 디렉터리 구조로 관리할 수 있게 함 ■ Package 사용법 □ 패키지가 다음과 같이 설치되어 있다고 가정 package_test/ game/ __init__.py s...
※ Module 함수나 변수 또는 클래스를 모아 놓은 파이썬 파일 # 기본 사용법 > import 모듈이름 > from 모듈이름 import 모듈함수 > from 모듈이름 import * # 모듈 안의 모든 함수 호출 ■ Module 활용 □ M...
※ Package (패키지) 서로 관련있는 모듈들의 집합 모듈을 디렉터리 구조로 관리할 수 있게 함 ■ Package 사용법 □ 패키지가 다음과 같이 설치되어 있다고 가정 package_test/ game/ __init__.py s...
※ Module 함수나 변수 또는 클래스를 모아 놓은 파이썬 파일 # 기본 사용법 > import 모듈이름 > from 모듈이름 import 모듈함수 > from 모듈이름 import * # 모듈 안의 모든 함수 호출 ■ Module 활용 □ M...
※ Package (패키지) 서로 관련있는 모듈들의 집합 모듈을 디렉터리 구조로 관리할 수 있게 함 ■ Package 사용법 □ 패키지가 다음과 같이 설치되어 있다고 가정 package_test/ game/ __init__.py s...
※ Module 함수나 변수 또는 클래스를 모아 놓은 파이썬 파일 # 기본 사용법 > import 모듈이름 > from 모듈이름 import 모듈함수 > from 모듈이름 import * # 모듈 안의 모든 함수 호출 ■ Module 활용 □ M...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Graph Neural Network 그래프에 직접 적용할 수 있는 신경망 그래프 구조를 활용하여 특징을 추출하여 작업을 수행 ■ Graph (그래프) 점(Node)들을 잇는 선(Edge)으로 이루어진 데이터 구조 일반적으로 G=(V, E)로 정의 ...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Graph Neural Network 그래프에 직접 적용할 수 있는 신경망 그래프 구조를 활용하여 특징을 추출하여 작업을 수행 ■ Graph (그래프) 점(Node)들을 잇는 선(Edge)으로 이루어진 데이터 구조 일반적으로 G=(V, E)로 정의 ...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Graph Neural Network 그래프에 직접 적용할 수 있는 신경망 그래프 구조를 활용하여 특징을 추출하여 작업을 수행 ■ Graph (그래프) 점(Node)들을 잇는 선(Edge)으로 이루어진 데이터 구조 일반적으로 G=(V, E)로 정의 ...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Graph Neural Network 그래프에 직접 적용할 수 있는 신경망 그래프 구조를 활용하여 특징을 추출하여 작업을 수행 ■ Graph (그래프) 점(Node)들을 잇는 선(Edge)으로 이루어진 데이터 구조 일반적으로 G=(V, E)로 정의 ...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Graph Neural Network 그래프에 직접 적용할 수 있는 신경망 그래프 구조를 활용하여 특징을 추출하여 작업을 수행 ■ Graph (그래프) 점(Node)들을 잇는 선(Edge)으로 이루어진 데이터 구조 일반적으로 G=(V, E)로 정의 ...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Graph Neural Network 그래프에 직접 적용할 수 있는 신경망 그래프 구조를 활용하여 특징을 추출하여 작업을 수행 ■ Graph (그래프) 점(Node)들을 잇는 선(Edge)으로 이루어진 데이터 구조 일반적으로 G=(V, E)로 정의 ...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Graph Neural Network 그래프에 직접 적용할 수 있는 신경망 그래프 구조를 활용하여 특징을 추출하여 작업을 수행 ■ Graph (그래프) 점(Node)들을 잇는 선(Edge)으로 이루어진 데이터 구조 일반적으로 G=(V, E)로 정의 ...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ 고유값 / 고유벡터 # numpy 활용 > import numpy as np > A = np.array([[3, 0], [8, -1]]) > A [[ 3 0] [ 8 -1]] > e, v = np.linalg.eig(A) > print(e) ...
※ Vector (벡터) ■ 벡터의 덧셈 ## 직접 정의하기 def add(u, v): n = len(u) w = [] for i in range(0, n): value = u[i] + v[i] w.append(value) ...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ Vector (벡터) ■ 벡터의 덧셈 ## 직접 정의하기 def add(u, v): n = len(u) w = [] for i in range(0, n): value = u[i] + v[i] w.append(value) ...
※ Perceptron 이란? Neural Net(신경망)의 기본 구성 요소 input과 output을 제외한 (hidden) layer에서의 특정한 하나의 노드 ■ 퍼셉트론의 구성 요소 Input (입력) Weight (가중치) Bias (편향 / 바...
※ Artificial Neural Network ■ Forward Propagation (순전파) 입력층 - 은닉층 - 출력층 순서대로 흘러가는 것 ■ Back Propagation (역전파) Update weights recursively 다층 퍼셉트...
※ Perceptron 이란? Neural Net(신경망)의 기본 구성 요소 input과 output을 제외한 (hidden) layer에서의 특정한 하나의 노드 ■ 퍼셉트론의 구성 요소 Input (입력) Weight (가중치) Bias (편향 / 바...
※ Artificial Neural Network ■ Forward Propagation (순전파) 입력층 - 은닉층 - 출력층 순서대로 흘러가는 것 ■ Back Propagation (역전파) Update weights recursively 다층 퍼셉트...
※ eigenvalue & eigenvector [A{\mathbf{x} = \lambda \mathbf{x}}] eigenvector (고유벡터) 벡터에 선형 변환했을 때, 방향은 변하지 않고 크기만 변하는 벡터 $\mathbf{...
※ Gram-Schmidt Process (그람 슈미트 과정) 기저(basis) 벡터 {$\mathbf{s_{1}, s_{2}, …, s_{n}}$}을 직교 기저(orthogonal basis) 벡터 {$\mathbf{u_{1}, u_{2}, …, u_{n}}$}으로 변환하는...
※ 고유값 / 고유벡터 # numpy 활용 > import numpy as np > A = np.array([[3, 0], [8, -1]]) > A [[ 3 0] [ 8 -1]] > e, v = np.linalg.eig(A) > print(e) ...
※ eigenvalue & eigenvector [A{\mathbf{x} = \lambda \mathbf{x}}] eigenvector (고유벡터) 벡터에 선형 변환했을 때, 방향은 변하지 않고 크기만 변하는 벡터 $\mathbf{...
※ 고유값 / 고유벡터 # numpy 활용 > import numpy as np > A = np.array([[3, 0], [8, -1]]) > A [[ 3 0] [ 8 -1]] > e, v = np.linalg.eig(A) > print(e) ...
※ eigenvalue & eigenvector [A{\mathbf{x} = \lambda \mathbf{x}}] eigenvector (고유벡터) 벡터에 선형 변환했을 때, 방향은 변하지 않고 크기만 변하는 벡터 $\mathbf{...
※ Perceptron ■ 퍼셉트론 학습 알고리즘 구현 # 퍼셉트론 > import numpy as np > epsilon = 0.0000001 # 부동소수점 오차 방지 # 활성화 함수: step function > def step_func(t): i...
※ Perceptron 이란? Neural Net(신경망)의 기본 구성 요소 input과 output을 제외한 (hidden) layer에서의 특정한 하나의 노드 ■ 퍼셉트론의 구성 요소 Input (입력) Weight (가중치) Bias (편향 / 바...
※ KDD Process Knowledge Discovery in Database 1. Problem Formulation 1. Specific objectives - 문제 확인, 자세하게 정의 - 문제들간의 관계 이해 - 모호한 부분 해소 - 고객과 상담자의 정의가 다른지...
※ SEMMA 데이터 마이닝을 위한 SAS에서 제공하는 일련의 과정 S: Sampling 분석비용과 시간 절약 효과적인 Modeling 작업을 위해 Data가 대량일 경우에 적합 언제나 필수적인것은 아님 1. Simple random sampling (단순...
※ Decision Tree (의사결정 나무) source: https://scikit-learn.org/stable/auto_examples/tree/plot_iris_dtc.html ■ Tree Model (나무 모형) 발견된 변수의 규칙 혹은 조건문을 토대로 나무...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Model Assessment란? 예측을 위해 만든 모형이 random model보다 과연 우수한지, 서로 다른 모형들 중 어느 것이 가장 우수한 예측력을 가지는지 비교, 분석하는 과정 Evaluating classification models (분류모델 평가) ...
※ Box Plot in Excel Example Data statezip 1st Floor 2nd Floor 3rd Floor 4th Floor 5th Floor ...
※ Correlation analysis in Excel Example Data price bedrooms bathrooms sqft_living sqft_lot floors wate...
※ Scatter Plot in Excel Example Data Id SepalLengthCm SepalWidthCm PetalLengthCm PetalWidthCm Species ...
※ Curse of Dimensionality (차원의 저주) Refers to the problems associated with multivariate data analysis as the dimensionality increases 차원이 증가함에...
※ Clustering (군집화) Unsupervised learning (비지도 학습) Unsupervised Classification 유사한 개체들의 집단을 판별하는 방법론 데이터의 특징만으로 서로 유사한 특징을 가진 데이터들끼리 그룹화함으로써 cluster(...
※ Clustering (군집화) Unsupervised learning (비지도 학습) Unsupervised Classification 유사한 개체들의 집단을 판별하는 방법론 데이터의 특징만으로 서로 유사한 특징을 가진 데이터들끼리 그룹화함으로써 cluster(...
※ F-분포 (F-distribution) $\chi^2(u)$, $\chi^2(v)$가 각각 자유도가 $u$, $v$인 독립적인 두 개의 카이제곱 확률 변수라면, \(F(u,v) = \cfrac{\cfrac{\chi^2(u)}{u}}{\cfrac{\chi^2(...
※ F-분포 (F-distribution) $\chi^2(u)$, $\chi^2(v)$가 각각 자유도가 $u$, $v$인 독립적인 두 개의 카이제곱 확률 변수라면, \(F(u,v) = \cfrac{\cfrac{\chi^2(u)}{u}}{\cfrac{\chi^2(...
※ Covariance (공분산) 두 개의 확률변수 $X$, $Y$가 상호 어떤 관계를 가지며 변화하는가를 나타내주는 척도 두 개의 확률변수 $X$, $Y$의 선형 관계를 나타내는 값 $\mathbb{E}(X-\mu_{X})(Y-\mu_Y)$ 부호는...
※ Covariance (공분산) 두 개의 확률변수 $X$, $Y$가 상호 어떤 관계를 가지며 변화하는가를 나타내주는 척도 두 개의 확률변수 $X$, $Y$의 선형 관계를 나타내는 값 $\mathbb{E}(X-\mu_{X})(Y-\mu_Y)$ 부호는...
※ Overfitting (과적합) 지도학습 모델은 학셉 데이터를 분류하고 예측하는 수준으로, 학습에 사용되지 않은 데이터도 정확히 분류하고 예측하리라 기대하며, 이러한 기대가 충족되는 경우 일반화되었다고 함 모델이 너무 복잡해서, 학습 데이터에 대해서만 정확히 분류,...
※ Overfitting (과적합) 지도학습 모델은 학셉 데이터를 분류하고 예측하는 수준으로, 학습에 사용되지 않은 데이터도 정확히 분류하고 예측하리라 기대하며, 이러한 기대가 충족되는 경우 일반화되었다고 함 모델이 너무 복잡해서, 학습 데이터에 대해서만 정확히 분류,...
■ 다중선형회귀 종속변수 $y$와 여러 독립변수의 집합 $X$ 사이의 관계를 선형으로 추정하고 분석하는 것 모집단의 회귀 직선: $y ~=~ \beta_{0} ~+~ \beta_{1}x_{1} ~+~… ~+~ \beta_{p}x_{p} ~+~\epsilon$ ...
※ CLT (Central Limit Theorem, 중심극한정리) $X_{1}$, $X_{2}$, …, $X_{n}$이 서로 독립이며, 같은 분포를 따를때, $n$이 클수록(일반적으로 $n \ge 30$) 이 표본들의 평균은 모집단의 평균을 중심으로 하는 정규 분포를 따른다...
※ CLT (Central Limit Theorem, 중심극한정리) $X_{1}$, $X_{2}$, …, $X_{n}$이 서로 독립이며, 같은 분포를 따를때, $n$이 클수록(일반적으로 $n \ge 30$) 이 표본들의 평균은 모집단의 평균을 중심으로 하는 정규 분포를 따른다...
데이터에서 가장 중요한 성분을 순서대로 추출하는 기법 pc1 : 내 데이터의 분산을 가장 잘 설명해주는 축 pc2 : pc1에 직교하는 축이 주성분2 언제 사용? 쓸데없는 정보들이 많아 양을 줄이고 싶을때 잠재하는 변수latent variable을 확인하고 싶들때 의미없는 변...
※ SVM (Support Vector Machine) 중심선 경계선 : support vector 여백(margin) : 중심선과 경계선 사이 ■ Projection (정사영) $\vec u를~ \vec v에~정사영$ : 수직으로 내리는 것 \(...
※ SVM (Support Vector Machine) 중심선 경계선 : support vector 여백(margin) : 중심선과 경계선 사이 ■ Projection (정사영) $\vec u를~ \vec v에~정사영$ : 수직으로 내리는 것 \(...
※ Logistic Regression (로지스틱 회귀) 종속변수가 범주형인 경우에 보통 사용. 종속변수가 연속형인 경우에 사용할려면 y의 범위가 주어져야 함. linear regression을 분류 모델로써 확장한 모델 linear regression 결과에 ...
※ Logistic Regression (로지스틱 회귀) 종속변수가 범주형인 경우에 보통 사용. 종속변수가 연속형인 경우에 사용할려면 y의 범위가 주어져야 함. linear regression을 분류 모델로써 확장한 모델 linear regression 결과에 ...
※ Logistic Regression (로지스틱 회귀) 종속변수가 범주형인 경우에 보통 사용. 종속변수가 연속형인 경우에 사용할려면 y의 범위가 주어져야 함. linear regression을 분류 모델로써 확장한 모델 linear regression 결과에 ...
※ Logistic Regression (로지스틱 회귀) 종속변수가 범주형인 경우에 보통 사용. 종속변수가 연속형인 경우에 사용할려면 y의 범위가 주어져야 함. linear regression을 분류 모델로써 확장한 모델 linear regression 결과에 ...
※ 데이터시각화 패키지: ggplot2 기본 구조 ggplot() : data와 x, y축 값을 넣어줌 target plot() : 만들고자 하는 plot / geom_point() / geom_line() / geom_bar() 등 ...
※ 데이터전처리 패키지: dplyr chain function : %>% 파이프연산자를 사용하여 매우 직관적임 코드 가독성이 높음 코드 유지보수가 용이함 매우 빠른 속도 # 일반적인 코드 > 함수3(함수2(함수1(df,x),y,z))...
※ 날짜 데이터 핸들링 패키지: lubridate 날짜와 시간 데이터를 핸들링할 수 있는 패키지 ■ R 기본 내장함수 as.Date()함수는 기본적인 형식에 맞춰야 하는 불편함이 있음 반드시 ‘/’ 또는 ‘-‘로 구분되어야 함 년월일 순으로 년도는 4자...
※ 데이터정제 패키지: tidyr > install.packages("tidyr") > library(tidyr) ■ Pivoting □ pivot_longer() untidy data를 tidy data 형식으로 변경 parameter ...
※ 머신러닝 패키지: caret 패키지 설치 dependencies : “TRUE”로 해줘야함 caret은 다른 패키지와 연관성이 있는 패키지라서. > install.packages("caret", dependencies = TRUE) > library(caret...
※ 문자열 핸들링 패키지: stringr 텍스트전처리 / 텍스트마이닝 등 문자열 핸들링 패키지 함수명은 보통 str로 시작함 ■ str_length 문자열의 개수 반환 > str_length() ■ str_to_upper / str_to_low...
※ Logistic Regression in R (로지스틱 회귀분석)
※ 함수 (Function) input(parameter 또는 argument)을 받아 output을 return 한 가지 기능을 하는 코드 묶음 똑같은 구조가 반복되는 것을 막기 위해 사용 input — (Function) — output의 구조 sourc...
※ 함수 (Function) input(parameter 또는 argument)을 받아 output을 return 한 가지 기능을 하는 코드 묶음 똑같은 구조가 반복되는 것을 막기 위해 사용 input — (Function) — output의 구조 sourc...
※ 함수 (Function) input(parameter 또는 argument)을 받아 output을 return 한 가지 기능을 하는 코드 묶음 똑같은 구조가 반복되는 것을 막기 위해 사용 input — (Function) — output의 구조 sourc...
※ 함수 (Function) input(parameter 또는 argument)을 받아 output을 return 한 가지 기능을 하는 코드 묶음 똑같은 구조가 반복되는 것을 막기 위해 사용 input — (Function) — output의 구조 sourc...
※ 함수 (Function) input(parameter 또는 argument)을 받아 output을 return 한 가지 기능을 하는 코드 묶음 똑같은 구조가 반복되는 것을 막기 위해 사용 input — (Function) — output의 구조 sourc...
※ 함수 (Function) input(parameter 또는 argument)을 받아 output을 return 한 가지 기능을 하는 코드 묶음 똑같은 구조가 반복되는 것을 막기 위해 사용 input — (Function) — output의 구조 sourc...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
※ 리스트 (List) 요소들의 모음을 나타내는 자료형 모든 자료형을 리스트의 요소로 담을 수 있음 ■ 리스트 생성방법 [ ]를 사용 > L = [1, 2, 3] > L = [1, [2, 3], 4] # emplty list > L1 = ...
■ .copy() # e.g. .copy() 사용안했을 때 > a = [1, 2, 3] > b = a > print(a) # [1, 2, 3] > print(b) # [1, 2, 3] > a[2] = 4 > print(a) # [1, 2, 4] ...
■ .copy() # e.g. .copy() 사용안했을 때 > a = [1, 2, 3] > b = a > print(a) # [1, 2, 3] > print(b) # [1, 2, 3] > a[2] = 4 > print(a) # [1, 2, 4] ...
■ .copy() # e.g. .copy() 사용안했을 때 > a = [1, 2, 3] > b = a > print(a) # [1, 2, 3] > print(b) # [1, 2, 3] > a[2] = 4 > print(a) # [1, 2, 4] ...
■ .copy() # e.g. .copy() 사용안했을 때 > a = [1, 2, 3] > b = a > print(a) # [1, 2, 3] > print(b) # [1, 2, 3] > a[2] = 4 > print(a) # [1, 2, 4] ...
■ .copy() # e.g. .copy() 사용안했을 때 > a = [1, 2, 3] > b = a > print(a) # [1, 2, 3] > print(b) # [1, 2, 3] > a[2] = 4 > print(a) # [1, 2, 4] ...
■ .copy() # e.g. .copy() 사용안했을 때 > a = [1, 2, 3] > b = a > print(a) # [1, 2, 3] > print(b) # [1, 2, 3] > a[2] = 4 > print(a) # [1, 2, 4] ...
※ 조건문 (IF) :(콜론)을 사용하여 조건을 나눔 ■ 기본 구조 > if condition: <statement> <statement> ... elif condition: <statement> ...
※ 조건문 (IF) :(콜론)을 사용하여 조건을 나눔 ■ 기본 구조 > if condition: <statement> <statement> ... elif condition: <statement> ...
※ 조건문 (IF) :(콜론)을 사용하여 조건을 나눔 ■ 기본 구조 > if condition: <statement> <statement> ... elif condition: <statement> ...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ 반복문 (For / While) 조건에 따라 반복 작업을 수행해야 할 때 사용 source: https://www.codingem.com/flowchart-loop/ ■ key points :(콜론) 사용에 주의 로직을 반복가능하게 바꾸어 주어야 함(de...
※ I/O (Input / Output) 컴퓨터가 데이터를 입력받고 출력하는 모든 작업 source: https://en.wikiversity.org/wiki/Hardware#/media/File:Computer1.png ■ stdin stdin(standa...
※ I/O (Input / Output) 컴퓨터가 데이터를 입력받고 출력하는 모든 작업 source: https://en.wikiversity.org/wiki/Hardware#/media/File:Computer1.png ■ stdin stdin(standa...
※ I/O (Input / Output) 컴퓨터가 데이터를 입력받고 출력하는 모든 작업 source: https://en.wikiversity.org/wiki/Hardware#/media/File:Computer1.png ■ stdin stdin(standa...
※ I/O (Input / Output) 컴퓨터가 데이터를 입력받고 출력하는 모든 작업 source: https://en.wikiversity.org/wiki/Hardware#/media/File:Computer1.png ■ stdin stdin(standa...
※ I/O (Input / Output) 컴퓨터가 데이터를 입력받고 출력하는 모든 작업 source: https://en.wikiversity.org/wiki/Hardware#/media/File:Computer1.png ■ stdin stdin(standa...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ Numpy Numerical computing with Python. 수치연산 및 벡터 연산에 최적화된 라이브러리 ■ Numpy Array numpy에서 사용되는 기본적인 자료구조 파이썬 리스트와 비슷한 구조 모든 원소의 데이터 타입이 동일해야 함 ...
※ 클래스 (Class) 객체(object)들이 공유하는 속성을 정의한 것 구현하려는 대상의 특성을 Class variable로, 대상이 수행해야 하는 일을 Class method로 구현해야 함. Constructor(생성자)를 통해서 객체를 찍어내는 틀을 정의할 수 ...
※ 클래스 (Class) 객체(object)들이 공유하는 속성을 정의한 것 구현하려는 대상의 특성을 Class variable로, 대상이 수행해야 하는 일을 Class method로 구현해야 함. Constructor(생성자)를 통해서 객체를 찍어내는 틀을 정의할 수 ...
※ 클래스 (Class) 객체(object)들이 공유하는 속성을 정의한 것 구현하려는 대상의 특성을 Class variable로, 대상이 수행해야 하는 일을 Class method로 구현해야 함. Constructor(생성자)를 통해서 객체를 찍어내는 틀을 정의할 수 ...
※ 클래스 (Class) 객체(object)들이 공유하는 속성을 정의한 것 구현하려는 대상의 특성을 Class variable로, 대상이 수행해야 하는 일을 Class method로 구현해야 함. Constructor(생성자)를 통해서 객체를 찍어내는 틀을 정의할 수 ...
※ 클래스 (Class) 객체(object)들이 공유하는 속성을 정의한 것 구현하려는 대상의 특성을 Class variable로, 대상이 수행해야 하는 일을 Class method로 구현해야 함. Constructor(생성자)를 통해서 객체를 찍어내는 틀을 정의할 수 ...
※ 클래스 (Class) 객체(object)들이 공유하는 속성을 정의한 것 구현하려는 대상의 특성을 Class variable로, 대상이 수행해야 하는 일을 Class method로 구현해야 함. Constructor(생성자)를 통해서 객체를 찍어내는 틀을 정의할 수 ...
※ matplolib.pyplot 차트나 플랏으로 데이터를 시각화하기 위한 모듈 ■ 라이브러리 호출 > import matplotlib.pyplot as plt ■ 기본 구조 plt.figure() : plot의 밑바탕 plt.plot() : 만들고...
※ matplolib.pyplot 차트나 플랏으로 데이터를 시각화하기 위한 모듈 ■ 라이브러리 호출 > import matplotlib.pyplot as plt ■ 기본 구조 plt.figure() : plot의 밑바탕 plt.plot() : 만들고...
※ Seaborn Statisctical Data Visualization library based on matplotlib ■ 라이브러리 호출 > import seaborn as sns ■ Plot □ Histogram multiple = “st...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Pandas Python Data Analysis Library 정형 데이터 분석에 최적화된 라이브러리 DataFrame 형태로 모든 데이터를 표현함 벡터 연산에 최적화되어 있음 -> numpy와의 연관성 ■ 라이브러리 호출 > import ...
※ Classification (분류) Supervised Learning (지도학습) 방법 주어진 데이터(X)를 분류하고자 하는 값(y)에 할당하는 방법 주어진 input data를 찾고자 하는 target value에 assign하는 것 input data는 일...
※ Classification (분류) Supervised Learning (지도학습) 방법 주어진 데이터(X)를 분류하고자 하는 값(y)에 할당하는 방법 주어진 input data를 찾고자 하는 target value에 assign하는 것 input data는 일...
※ Comprehension ■ List Comprehension 리스트를 생성하는 방법 중의 하나 [] 안에 for문 또는 if문을 사용 # 기본 구조 > [output for iterator in iterable_object if 조건] # e.g. ...
※ Comprehension ■ List Comprehension 리스트를 생성하는 방법 중의 하나 [] 안에 for문 또는 if문을 사용 # 기본 구조 > [output for iterator in iterable_object if 조건] # e.g. ...
※ Comprehension ■ List Comprehension 리스트를 생성하는 방법 중의 하나 [] 안에 for문 또는 if문을 사용 # 기본 구조 > [output for iterator in iterable_object if 조건] # e.g. ...
※ 웹 크롤링 ■ Pandas 활용 / 표 형태 데이터 크롤링 # 사용 예시 > url = 'https://…' > table_df_list = pd.read_html(url, encoding = 'euc-kr') > table_df = table_df_list...
※ 웹 크롤링 ■ Pandas 활용 / 표 형태 데이터 크롤링 # 사용 예시 > url = 'https://…' > table_df_list = pd.read_html(url, encoding = 'euc-kr') > table_df = table_df_list...
※ folium 지도 시각화 라이브러리 ■ 라이브러리 호출 > import folium ■ folium method □ 기초 method 지도 크기 지정 지도 만들기 지도 출력 파일로 저장 > f = folium.Figure(...
※ DataFrame 합치기 ■ merge() 두 개의 데이터를 특정 컬럼을 기준으로 합침 parameter on: 통합의 기준이 될 key 변수 left_on: df1의 key 변수 right_on: df2의 key 변수 ...
※ DataFrame 합치기 ■ merge() 두 개의 데이터를 특정 컬럼을 기준으로 합침 parameter on: 통합의 기준이 될 key 변수 left_on: df1의 key 변수 right_on: df2의 key 변수 ...
※ DataFrame 합치기 ■ merge() 두 개의 데이터를 특정 컬럼을 기준으로 합침 parameter on: 통합의 기준이 될 key 변수 left_on: df1의 key 변수 right_on: df2의 key 변수 ...
※ Pivot Table 데이터를 조건에 따른 변수들의 통계량을 요약한 테이블 엑셀의 피벗테이블처럼 인덱스별, 컬럼별 값의 연산 가능 pivot table 계산 시, 비어있는 값은 fill_value=0을 통해 가능 # 기본 구조 > pd.pivot_table...
※ 데이터 정렬 sort_values() pandas 라이브러리 series와 data frame을 정렬할 수 있음 매개변수 by : data frame을 정렬할 때 기준이 될 컬럼 ascending : 오름/내림차순 정렬 {True(d...
※ 데이터 정렬 sort_values() pandas 라이브러리 series와 data frame을 정렬할 수 있음 매개변수 by : data frame을 정렬할 때 기준이 될 컬럼 ascending : 오름/내림차순 정렬 {True(d...
※ Fancy Indexing # Column Indexing > df['컬럼명'] # series 형식으로 출력 > df.컬럼명 ## 데이터프레임 형식으로 출력 > df.컬럼명.to_frame() > df[['컬럼명']] # Slicing ## 기본적으...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
■ .explode() 특정 컬럼(리스트 타입인 컬럼)을 여러 행으로 분리시킴 > df.explode('colA') ■ .drop_duplicates() 중복값이 있는 컬럼값들의 행 제거 매개변수 subset: 중복 기준을 판단하는...
※ Apply 함수 ■ apply 사용자 정의 함수를 데이터에 적용하고 싶을 때 사용 df.apply(함수, axis) {axis = 0 : 행방향, axis = 1 : 열방향} # e.g.1 > def function_name(x): if x['colA...
※ Group by / Cross Tab ■ group by 같은 값을 한 그룹으로 묶어서 여러 가지 연산을 하는 함수. parameter as_index: 그룹으로 묶을 컬럼을 인덱스로 해서 시리즈형태로 출력할건지 / 데이터프레임으로 출력할건지 {T...
※ Group by / Cross Tab ■ group by 같은 값을 한 그룹으로 묶어서 여러 가지 연산을 하는 함수. parameter as_index: 그룹으로 묶을 컬럼을 인덱스로 해서 시리즈형태로 출력할건지 / 데이터프레임으로 출력할건지 {T...
※ 문자열 다루기 ■ contains() .str.contains(문자열) : 문자열을 포함하고 있는지의 유무 # 사용 예시 > df['Name'].str.contains('Mrs') # 컬럼 'Name'에서 'Mrs' 문자열을 포함하고 있는지 T/F 반환 &g...
※ 문자열 다루기 ■ contains() .str.contains(문자열) : 문자열을 포함하고 있는지의 유무 # 사용 예시 > df['Name'].str.contains('Mrs') # 컬럼 'Name'에서 'Mrs' 문자열을 포함하고 있는지 T/F 반환 &g...
※ 문자열 다루기 ■ contains() .str.contains(문자열) : 문자열을 포함하고 있는지의 유무 # 사용 예시 > df['Name'].str.contains('Mrs') # 컬럼 'Name'에서 'Mrs' 문자열을 포함하고 있는지 T/F 반환 &g...
※ 문자열 다루기 ■ contains() .str.contains(문자열) : 문자열을 포함하고 있는지의 유무 # 사용 예시 > df['Name'].str.contains('Mrs') # 컬럼 'Name'에서 'Mrs' 문자열을 포함하고 있는지 T/F 반환 &g...
※ 문자열 다루기 ■ contains() .str.contains(문자열) : 문자열을 포함하고 있는지의 유무 # 사용 예시 > df['Name'].str.contains('Mrs') # 컬럼 'Name'에서 'Mrs' 문자열을 포함하고 있는지 T/F 반환 &g...
※ stack / unstack / melt ■ stack / unstack stack : 컬럼 레벨에서 인덱스 레벨로 데이터프레임을 변경 unstack : 인덱스 레벨에서 컬럼 레벨로 데이터프레임을 변경 # e.g. 데이터 > data = pd.DataFram...
※ stack / unstack / melt ■ stack / unstack stack : 컬럼 레벨에서 인덱스 레벨로 데이터프레임을 변경 unstack : 인덱스 레벨에서 컬럼 레벨로 데이터프레임을 변경 # e.g. 데이터 > data = pd.DataFram...
※ stack / unstack / melt ■ stack / unstack stack : 컬럼 레벨에서 인덱스 레벨로 데이터프레임을 변경 unstack : 인덱스 레벨에서 컬럼 레벨로 데이터프레임을 변경 # e.g. 데이터 > data = pd.DataFram...
※ Chained Assignment와 Hidden Chaining Assignment 특정 셀에 값을 할당하거나 특정 컬럼에 배열을 할당하는 것 Setting 또는 Set연산의 의미를 가짐 > df = pd.DataFra...
※ Chained Assignment와 Hidden Chaining Assignment 특정 셀에 값을 할당하거나 특정 컬럼에 배열을 할당하는 것 Setting 또는 Set연산의 의미를 가짐 > df = pd.DataFra...
※ Chained Assignment와 Hidden Chaining Assignment 특정 셀에 값을 할당하거나 특정 컬럼에 배열을 할당하는 것 Setting 또는 Set연산의 의미를 가짐 > df = pd.DataFra...
※ Chained Assignment와 Hidden Chaining Assignment 특정 셀에 값을 할당하거나 특정 컬럼에 배열을 할당하는 것 Setting 또는 Set연산의 의미를 가짐 > df = pd.DataFra...
※ Chained Assignment와 Hidden Chaining Assignment 특정 셀에 값을 할당하거나 특정 컬럼에 배열을 할당하는 것 Setting 또는 Set연산의 의미를 가짐 > df = pd.DataFra...
변수 (Variable) 특정 조건에 따라 변하는 값 확률 변수 (Random Variable) 특정 값(범위)을 확률에 따라 취하는 변수 e.g. 주사위를 던졌을 때 나오는 결과를 나타내는 변수 ■ 변수의 치우침 변수의 치우침을 해결하는 기본 아이디...
변수 (Variable) 특정 조건에 따라 변하는 값 확률 변수 (Random Variable) 특정 값(범위)을 확률에 따라 취하는 변수 e.g. 주사위를 던졌을 때 나오는 결과를 나타내는 변수 ■ 변수의 치우침 변수의 치우침을 해결하는 기본 아이디...
변수 (Variable) 특정 조건에 따라 변하는 값 확률 변수 (Random Variable) 특정 값(범위)을 확률에 따라 취하는 변수 e.g. 주사위를 던졌을 때 나오는 결과를 나타내는 변수 ■ 변수의 치우침 변수의 치우침을 해결하는 기본 아이디...
변수 (Variable) 특정 조건에 따라 변하는 값 확률 변수 (Random Variable) 특정 값(범위)을 확률에 따라 취하는 변수 e.g. 주사위를 던졌을 때 나오는 결과를 나타내는 변수 ■ 변수의 치우침 변수의 치우침을 해결하는 기본 아이디...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
※ 대표 통계량 ■ 산술평균 (Arithmetic Mean) > x = [1,2,3,4,5] > print(np.mean(x)) # 3.0 > print(np.array(x).mean()) # 3.0 > print(pd.Series(x).mean()) #...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
※ 파이썬 내장함수 ■ exec() 동적으로 실행 가능한 파이썬 코드를 문자열 형태로 받아서 실행하는 함수 # 기본 구조 > exec(object[, globals[, locals]]) # object: 문자열로 된 코드 또는 변수 # globals: 선택 사항. ...
df.plot() 매개 kind: 그래프 종류 (line, .scatter, bar, pie, …) x: x축에 들어갈 컬럼명 / default는 index값이 들어감 y: y축에 들어랑 컬럼명 박스플랏 df.boxplot() 매개 column: box plot을 그릴 컬...
※ 사전 (Dictionary) key : value 방법을 통해 저장 key값을 통해 value에 access함 key는 중복될 수 없음 리스트는 key가 될 수 없으나 튜플은 key가 될 수 있음 위치로 인덱싱이 되지 않음 순서가 아닌 의미가 있는 값을 ...
※ 사전 (Dictionary) key : value 방법을 통해 저장 key값을 통해 value에 access함 key는 중복될 수 없음 리스트는 key가 될 수 없으나 튜플은 key가 될 수 있음 위치로 인덱싱이 되지 않음 순서가 아닌 의미가 있는 값을 ...
※ 사전 (Dictionary) key : value 방법을 통해 저장 key값을 통해 value에 access함 key는 중복될 수 없음 리스트는 key가 될 수 없으나 튜플은 key가 될 수 있음 위치로 인덱싱이 되지 않음 순서가 아닌 의미가 있는 값을 ...
※ 사전 (Dictionary) key : value 방법을 통해 저장 key값을 통해 value에 access함 key는 중복될 수 없음 리스트는 key가 될 수 없으나 튜플은 key가 될 수 있음 위치로 인덱싱이 되지 않음 순서가 아닌 의미가 있는 값을 ...
※ 사전 (Dictionary) key : value 방법을 통해 저장 key값을 통해 value에 access함 key는 중복될 수 없음 리스트는 key가 될 수 없으나 튜플은 key가 될 수 있음 위치로 인덱싱이 되지 않음 순서가 아닌 의미가 있는 값을 ...
※ 집합 (Set) 교집합, 합집합, 차집합 지원 원소의 중복을 허용하지 않음 > 원소의 종류를 나타내기 좋음 원소의 순서가 존재하지 않음 > index가 없음 ■ 집합 생성방법 { } 사용 공집합 생성 시 set() 사용 > s =...
※ 집합 (Set) 교집합, 합집합, 차집합 지원 원소의 중복을 허용하지 않음 > 원소의 종류를 나타내기 좋음 원소의 순서가 존재하지 않음 > index가 없음 ■ 집합 생성방법 { } 사용 공집합 생성 시 set() 사용 > s =...
※ 집합 (Set) 교집합, 합집합, 차집합 지원 원소의 중복을 허용하지 않음 > 원소의 종류를 나타내기 좋음 원소의 순서가 존재하지 않음 > index가 없음 ■ 집합 생성방법 { } 사용 공집합 생성 시 set() 사용 > s =...
※ 집합 (Set) 교집합, 합집합, 차집합 지원 원소의 중복을 허용하지 않음 > 원소의 종류를 나타내기 좋음 원소의 순서가 존재하지 않음 > index가 없음 ■ 집합 생성방법 { } 사용 공집합 생성 시 set() 사용 > s =...
※ 집합 (Set) 교집합, 합집합, 차집합 지원 원소의 중복을 허용하지 않음 > 원소의 종류를 나타내기 좋음 원소의 순서가 존재하지 않음 > index가 없음 ■ 집합 생성방법 { } 사용 공집합 생성 시 set() 사용 > s =...
※ 집합 (Set) 교집합, 합집합, 차집합 지원 원소의 중복을 허용하지 않음 > 원소의 종류를 나타내기 좋음 원소의 순서가 존재하지 않음 > index가 없음 ■ 집합 생성방법 { } 사용 공집합 생성 시 set() 사용 > s =...
※ 튜플 (Tuple) list와 거의 비슷 생성 후 변경이 불가능함 (immutable) 프로그램 실행 중 변하지 않거나 변해서는 안되는 값들이 있을 때 튜플로 저장하면 좋음 리스트에서 사용한 append() / insert() / exte...
※ ANOVA in Python Analysis of Variance # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > f_oneway(sample1, sample2, sampl...
※ ANOVA in Python Analysis of Variance # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > f_oneway(sample1, sample2, sampl...
※ ANOVA in Python Analysis of Variance # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > f_oneway(sample1, sample2, sampl...
※ ANOVA in Python Analysis of Variance # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > f_oneway(sample1, sample2, sampl...
※ ANOVA in Python Analysis of Variance # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > f_oneway(sample1, sample2, sampl...
※ ANOVA in Python Analysis of Variance # 기본 사용법 > from scipy.stats import * > kstest(data, 'norm') # 정규성 검정 > f_oneway(sample1, sample2, sampl...
※ 상관분석 # 기본 사용법 > from scipy.stats import * # 피어슨 상관계수 > pearsonr(x, y, alternative='two-sided', ...) > df.corr(method = 'pearson') # 스피어만 상관계수 &...
※ Chi-Square Test in Python # 기본 사용법 > from scipy.stats import * > chi2_contingency(observed, correction = True, lambda = None) > chi2_contingenc...
※ Clustering using sklearn ■ 라이브러리 호출 > from sklearn.cluster import AgglomerativeClustering as AC ■ AgglomerativeClustering Method # 모델 인스턴스화 및 학습 ...
※ Sequence Data (시퀀스 데이터) 각 요소가 (순서, 값) 형태로 구성된 데이터 분석 시 반드시 순서를 고려해야 함 로그 데이터 대부분이 순서가 있는 시퀀스 데이터임 e.g. 고객 구매 기록 / 고객 여정 / 웹 서핑 기록 ■ 시퀀스 데이터에서의 빈...
※ Sequence Data (시퀀스 데이터) 각 요소가 (순서, 값) 형태로 구성된 데이터 분석 시 반드시 순서를 고려해야 함 로그 데이터 대부분이 순서가 있는 시퀀스 데이터임 e.g. 고객 구매 기록 / 고객 여정 / 웹 서핑 기록 ■ 시퀀스 데이터에서의 빈...
Assocication Rule analysis in Python > df # 주문당 제품 리스트 > product_list_per_order = df.groupby('order_id')['product_id'].apply(list).tolist() # 주문당 제품...
Mlxtend Library apriori 함수를 이용한 빈발 아이템 집합 탐색과, association_rules 함수를 이용하여 연관규칙을 탐색하는 두 단계로 수행 ■ 라이브러리 호출 > from mlxtend.frequent_patterns import...
Mlxtend Library apriori 함수를 이용한 빈발 아이템 집합 탐색과, association_rules 함수를 이용하여 연관규칙을 탐색하는 두 단계로 수행 ■ 라이브러리 호출 > from mlxtend.frequent_patterns import...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ String Data (문자열 데이터) ■ 기초 연산 문자열 덧셈: 문자열을 이어붙여서 출력 문자열 곱셈: 문자열 반복 # e.g. 문자열 덧셈 > s1 = 'Hello' > s2 = 'World' > print(s1 + s2) # HelloWor...
※ filein / fileout storage와 프로그램 사이의 I/O를 file I/O라고 함 스토리지로부터 파일을 불러오는 것은 input, 결과를 스토리지에 저장하는 것은 output 다른 타입의 파일을 열기 위해선 다른 라이브러리가 필요 e...
※ filein / fileout storage와 프로그램 사이의 I/O를 file I/O라고 함 스토리지로부터 파일을 불러오는 것은 input, 결과를 스토리지에 저장하는 것은 output 다른 타입의 파일을 열기 위해선 다른 라이브러리가 필요 e...
※ filein / fileout storage와 프로그램 사이의 I/O를 file I/O라고 함 스토리지로부터 파일을 불러오는 것은 input, 결과를 스토리지에 저장하는 것은 output 다른 타입의 파일을 열기 위해선 다른 라이브러리가 필요 e...
※ filein / fileout storage와 프로그램 사이의 I/O를 file I/O라고 함 스토리지로부터 파일을 불러오는 것은 input, 결과를 스토리지에 저장하는 것은 output 다른 타입의 파일을 열기 위해선 다른 라이브러리가 필요 e...
※ filein / fileout storage와 프로그램 사이의 I/O를 file I/O라고 함 스토리지로부터 파일을 불러오는 것은 input, 결과를 스토리지에 저장하는 것은 output 다른 타입의 파일을 열기 위해선 다른 라이브러리가 필요 e...
※ filein / fileout storage와 프로그램 사이의 I/O를 file I/O라고 함 스토리지로부터 파일을 불러오는 것은 input, 결과를 스토리지에 저장하는 것은 output 다른 타입의 파일을 열기 위해선 다른 라이브러리가 필요 e...
※ filein / fileout storage와 프로그램 사이의 I/O를 file I/O라고 함 스토리지로부터 파일을 불러오는 것은 input, 결과를 스토리지에 저장하는 것은 output 다른 타입의 파일을 열기 위해선 다른 라이브러리가 필요 e...
※ filein / fileout storage와 프로그램 사이의 I/O를 file I/O라고 함 스토리지로부터 파일을 불러오는 것은 input, 결과를 스토리지에 저장하는 것은 output 다른 타입의 파일을 열기 위해선 다른 라이브러리가 필요 e...
※ encoding ■ OneHotEncoder 변수를 더미화하기 위한 함수 □ 라이브러리 호출 > from feature_engine.encoding import OneHotEncoder as OHE □ Encoding parameter ...
※ encoding ■ OneHotEncoder 변수를 더미화하기 위한 함수 □ 라이브러리 호출 > from feature_engine.encoding import OneHotEncoder as OHE □ Encoding parameter ...
※ encoding ■ OneHotEncoder 변수를 더미화하기 위한 함수 □ 라이브러리 호출 > from feature_engine.encoding import OneHotEncoder as OHE □ Encoding parameter ...
※ spatial.distance ■ cdist 두 개의 행렬을 바탕으로 거리 행렬을 출력 ■ 라이브러리 호출 > from scipy.spatial.distance import cdist □ 거리 계산 parameter XA: ...
※ spatial.distance ■ cdist 두 개의 행렬을 바탕으로 거리 행렬을 출력 ■ 라이브러리 호출 > from scipy.spatial.distance import cdist □ 거리 계산 parameter XA: ...
※ NA handling ■ .dropna() NA값이 있는 행 또는 열 제거 parameter axis 1: 열 삭제 0: 행 삭제 how ...
※ NA handling ■ .dropna() NA값이 있는 행 또는 열 제거 parameter axis 1: 열 삭제 0: 행 삭제 how ...
※ NA handling ■ .dropna() NA값이 있는 행 또는 열 제거 parameter axis 1: 열 삭제 0: 행 삭제 how ...
※ NA handling ■ .dropna() NA값이 있는 행 또는 열 제거 parameter axis 1: 열 삭제 0: 행 삭제 how ...
※ cluster ■ K-Means Clustering □ 라이브러리 호출 > from sklearn.cluster import KMeans □ AGNES parameter n_clusters: 군집 개수 max_iter: 최...
※ impute 데이터 안의 NA값을 대치하는 데 사용 하나의 데이터프레임 안에 연속형변수와 범주형변수 둘 다 있을 경우 데이터를 따로 나누어 진행. e.g. 범주형변수에는 most_frequent, 연속형변수에는 mean 적용… 사용...
※ impute 데이터 안의 NA값을 대치하는 데 사용 하나의 데이터프레임 안에 연속형변수와 범주형변수 둘 다 있을 경우 데이터를 따로 나누어 진행. e.g. 범주형변수에는 most_frequent, 연속형변수에는 mean 적용… 사용...
※ impute 데이터 안의 NA값을 대치하는 데 사용 하나의 데이터프레임 안에 연속형변수와 범주형변수 둘 다 있을 경우 데이터를 따로 나누어 진행. e.g. 범주형변수에는 most_frequent, 연속형변수에는 mean 적용… 사용...
※ model_selection ■ train_test_split (데이터 분할) 학습에 사용할 데이터와, 평가를 할 때 사용할 데이터로 나누기 위한 라이브러리 (train data / test data) □ 라이브러리 호출 > from sklearn.mode...
※ model_selection ■ train_test_split (데이터 분할) 학습에 사용할 데이터와, 평가를 할 때 사용할 데이터로 나누기 위한 라이브러리 (train data / test data) □ 라이브러리 호출 > from sklearn.mode...
※ model_selection ■ train_test_split (데이터 분할) 학습에 사용할 데이터와, 평가를 할 때 사용할 데이터로 나누기 위한 라이브러리 (train data / test data) □ 라이브러리 호출 > from sklearn.mode...
※ model_selection ■ train_test_split (데이터 분할) 학습에 사용할 데이터와, 평가를 할 때 사용할 데이터로 나누기 위한 라이브러리 (train data / test data) □ 라이브러리 호출 > from sklearn.mode...
※ model_selection ■ train_test_split (데이터 분할) 학습에 사용할 데이터와, 평가를 할 때 사용할 데이터로 나누기 위한 라이브러리 (train data / test data) □ 라이브러리 호출 > from sklearn.mode...
※ over_sampling ■ SMOTE Synthetic Minority Over_sampling Technique 소수 클래스의 샘플을 증가시키기 위해 사용 소수 클래스 샘플을 임의로 선택하고, 선택된 샘플의 이웃 가운데 하나의 샘플을 또 임의로 선택하여 그 중...
※ over_sampling ■ SMOTE Synthetic Minority Over_sampling Technique 소수 클래스의 샘플을 증가시키기 위해 사용 소수 클래스 샘플을 임의로 선택하고, 선택된 샘플의 이웃 가운데 하나의 샘플을 또 임의로 선택하여 그 중...
※ under_sampling ■ NearMiss 불균형한 데이터셋에서 다수 클래스의 샘플 수를 줄여서 클래스 간의 균형을 맞추기 위해 사용 소수 클래스의 근처에 있는 다수 클래스 샘플을 선택하여 유지하고, 나머지 다수 클래스 샘플을 제거하는 방법 가장 가까운 n개의...
※ under_sampling ■ NearMiss 불균형한 데이터셋에서 다수 클래스의 샘플 수를 줄여서 클래스 간의 균형을 맞추기 위해 사용 소수 클래스의 근처에 있는 다수 클래스 샘플을 선택하여 유지하고, 나머지 다수 클래스 샘플을 제거하는 방법 가장 가까운 n개의...
※ decomposition ■ PCA (Principal Component Analysis, 주성분 분석) 차원축소(dimension reduction) 기법 고차원 데이터 집합이 주어졌을 때 원래의 데이터와 가장 비슷하면서 더 낮은 차원 데이터를 찾아내는 방법 ...
※ decomposition ■ PCA (Principal Component Analysis, 주성분 분석) 차원축소(dimension reduction) 기법 고차원 데이터 집합이 주어졌을 때 원래의 데이터와 가장 비슷하면서 더 낮은 차원 데이터를 찾아내는 방법 ...
※ decomposition ■ PCA (Principal Component Analysis, 주성분 분석) 차원축소(dimension reduction) 기법 고차원 데이터 집합이 주어졌을 때 원래의 데이터와 가장 비슷하면서 더 낮은 차원 데이터를 찾아내는 방법 ...
※ neighbors ■ KNeighborsClassifier K-Nearest Neighbor 방법 □ 라이브러리 호출 > from sklearn.neighbors import KNeighborsClassifier as KNN □ K-Nearest...
※ neighbors ■ KNeighborsClassifier K-Nearest Neighbor 방법 □ 라이브러리 호출 > from sklearn.neighbors import KNeighborsClassifier as KNN □ K-Nearest...
※ neighbors ■ KNeighborsClassifier K-Nearest Neighbor 방법 □ 라이브러리 호출 > from sklearn.neighbors import KNeighborsClassifier as KNN □ K-Nearest...
※ preprocessing ■ MinMaxScaler (Min Max 스케일링) 데이터 feature의 값을 특정 범위로 변환하기 위한 라이브러리 default는 각 feature의 값을 0과 1사이로 변환함 □ 라이브러리 호출 > from sklearn...
※ preprocessing ■ MinMaxScaler (Min Max 스케일링) 데이터 feature의 값을 특정 범위로 변환하기 위한 라이브러리 default는 각 feature의 값을 0과 1사이로 변환함 □ 라이브러리 호출 > from sklearn...
※ preprocessing ■ MinMaxScaler (Min Max 스케일링) 데이터 feature의 값을 특정 범위로 변환하기 위한 라이브러리 default는 각 feature의 값을 0과 1사이로 변환함 □ 라이브러리 호출 > from sklearn...
※ Anomaly Detection (이상치 탐지) ■ 목표 정상적인 동작 또는 패턴과 다른 이상한 동작을 식별하는 것 ■ 원리 통계적 방법 평균, 분산, 이상치 점수 등을 계산하여 정상 범위를 설정하고, 벗어난 데이터를 이상으로 간주 ...
※ Naive Bayes (나이브 베이즈) ■ 모델 구조 베이즈 정리를 사용하고, 특징 간 독립을 가정하여 사후 확률 $\Pr(y \mid x)$ $\Pr(y \mid x) \propto \Pr(y) \times \prod_{j=1}^{d} \Pr(x_{j} \mid y...
※ bayes_opt ■ BayesianOptimization □ 라이브러리 호출 > from bayes_opt import BayesianOptimization rom sklearn.model_selection import cross_val_score def mo...
※ bayes_opt ■ BayesianOptimization □ 라이브러리 호출 > from bayes_opt import BayesianOptimization rom sklearn.model_selection import cross_val_score def mo...
※ ensemble ■ RandomForestRegressor □ 라이브러리 호출 > from sklearn.ensemble import RandomForestRegressor as RFR # 기본 구조 # 인스턴스화 > RF_model = RFR() >...
※ ensemble ■ RandomForestRegressor □ 라이브러리 호출 > from sklearn.ensemble import RandomForestRegressor as RFR # 기본 구조 # 인스턴스화 > RF_model = RFR() >...
■ sklearn ■ metrics □ 라이브러리 호출 > from sklearn import metrics > metrics.r2_score > metrics.mean_absolute_error > metrics.mean_squared_error
■ sklearn ■ metrics □ 라이브러리 호출 > from sklearn import metrics > metrics.r2_score > metrics.mean_absolute_error > metrics.mean_squared_error
■ sklearn ■ metrics □ 라이브러리 호출 > from sklearn import metrics > metrics.r2_score > metrics.mean_absolute_error > metrics.mean_squared_error
■ sklearn ■ metrics □ 라이브러리 호출 > from sklearn import metrics > metrics.r2_score > metrics.mean_absolute_error > metrics.mean_squared_error
※ Diffusion Probabilistic Models 이미지에 노이즈를 추가하여 이미지를 파괴 (forward diffusion process) 파괴된 이미지로부터 노이즈를 제거하여 이미지를 복구 (reverse diffusion process) ※ DiGr...
※ Data Binning (데이터 비닝) 또는 Data Bucketing, Data Discrete Binning이라 불림 데이터를 구간별로 나누어 각 구간을 대표하는 값으로 나타내는 방법 연속형 변수를 특정 구간으로 나누어 범주형 또는 순위형 변수로 변환하는 방법 ...
※ Data Binning (데이터 비닝) 또는 Data Bucketing, Data Discrete Binning이라 불림 데이터를 구간별로 나누어 각 구간을 대표하는 값으로 나타내는 방법 연속형 변수를 특정 구간으로 나누어 범주형 또는 순위형 변수로 변환하는 방법 ...
※ Module 함수나 변수 또는 클래스를 모아 놓은 파이썬 파일 # 기본 사용법 > import 모듈이름 > from 모듈이름 import 모듈함수 > from 모듈이름 import * # 모듈 안의 모든 함수 호출 ■ Module 활용 □ M...
※ Module 함수나 변수 또는 클래스를 모아 놓은 파이썬 파일 # 기본 사용법 > import 모듈이름 > from 모듈이름 import 모듈함수 > from 모듈이름 import * # 모듈 안의 모든 함수 호출 ■ Module 활용 □ M...
※ Package (패키지) 서로 관련있는 모듈들의 집합 모듈을 디렉터리 구조로 관리할 수 있게 함 ■ Package 사용법 □ 패키지가 다음과 같이 설치되어 있다고 가정 package_test/ game/ __init__.py s...
※ Package (패키지) 서로 관련있는 모듈들의 집합 모듈을 디렉터리 구조로 관리할 수 있게 함 ■ Package 사용법 □ 패키지가 다음과 같이 설치되어 있다고 가정 package_test/ game/ __init__.py s...
※ Package (패키지) 서로 관련있는 모듈들의 집합 모듈을 디렉터리 구조로 관리할 수 있게 함 ■ Package 사용법 □ 패키지가 다음과 같이 설치되어 있다고 가정 package_test/ game/ __init__.py s...
※ Convolutional Neural Network 이미지 처리와 패턴 인식에 탁월한 성능을 보여주는 신경망 이미지 데이터의 공간적 특징을 추출하여 학습하고 이를 기반으로 패턴을 인식하는데 사용 구성 Convolution Layer (합성곱 층)...
※ Convolutional Neural Network 이미지 처리와 패턴 인식에 탁월한 성능을 보여주는 신경망 이미지 데이터의 공간적 특징을 추출하여 학습하고 이를 기반으로 패턴을 인식하는데 사용 구성 Convolution Layer (합성곱 층)...
※ Graph Neural Network 그래프에 직접 적용할 수 있는 신경망 그래프 구조를 활용하여 특징을 추출하여 작업을 수행 ■ Graph (그래프) 점(Node)들을 잇는 선(Edge)으로 이루어진 데이터 구조 일반적으로 G=(V, E)로 정의 ...
※ GCN ■ Feature Vector Updates # e.g. # A: adjacency matrix > A = np.array([[0,1,1,1,0,0], [1,0,1,0,0,0], [1,1,0,0,0,0], ...
※ Hydra to override default parameters main.py에는 import 해주고, main function위에다가 hydra 호출해야함 configuratiuon load가 필요하다는걸 알려주기 위해 e.g. import hydra @hydr...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
※ Matrix (행렬) ■ 행렬의 덧셈 # 직접 정의하기 def add(A, B): n = len(A) p = len(A[0]) result = [] for i in range(0, n): row = [] for j ...
rdkit smiles를 통해 분자구조를 표현 !pip install rdkit > import rdkit # 분자 구조 표현 Chem.MolFromSmiles('SMILES data') 분자구조에 인덱스 추가 > IPythonConsole.drawOpti...
from torch_geometric.data import InMemoryDataset 주로 그래프 데이터를 다룰 때 사용됩니다. 이 클래스는 데이터셋을 메모리에 한 번에 로드하여, 이후 빠르게 접근할 수 있도록 하는 역할을 합니다. 일반적인 사용 패턴 InMemoryDatas...
※ Vector (벡터) ■ 벡터의 덧셈 ## 직접 정의하기 def add(u, v): n = len(u) w = [] for i in range(0, n): value = u[i] + v[i] w.append(value) ...
※ Vector (벡터) ■ 벡터의 덧셈 ## 직접 정의하기 def add(u, v): n = len(u) w = [] for i in range(0, n): value = u[i] + v[i] w.append(value) ...
※ Vector (벡터) ■ 벡터의 덧셈 ## 직접 정의하기 def add(u, v): n = len(u) w = [] for i in range(0, n): value = u[i] + v[i] w.append(value) ...
※ Artificial Neural Network ■ Forward Propagation (순전파) 입력층 - 은닉층 - 출력층 순서대로 흘러가는 것 ■ Back Propagation (역전파) Update weights recursively 다층 퍼셉트...
※ Artificial Neural Network ■ Forward Propagation (순전파) 입력층 - 은닉층 - 출력층 순서대로 흘러가는 것 ■ Back Propagation (역전파) Update weights recursively 다층 퍼셉트...
※ Tensorflow
※ Tensorflow
※ Datetime 날짜를 계산하기 위한 라이브러리 ■ 라이브러리 호출 > import datetime ■ datetime.date □ .days 일수 계산 # e.g. > day1 = datetime.date(2024, 1, 1) >...
※ Datetime 날짜를 계산하기 위한 라이브러리 ■ 라이브러리 호출 > import datetime ■ datetime.date □ .days 일수 계산 # e.g. > day1 = datetime.date(2024, 1, 1) >...
※ Datetime 날짜를 계산하기 위한 라이브러리 ■ 라이브러리 호출 > import datetime ■ datetime.date □ .days 일수 계산 # e.g. > day1 = datetime.date(2024, 1, 1) >...
※ Datetime 날짜를 계산하기 위한 라이브러리 ■ 라이브러리 호출 > import datetime ■ datetime.date □ .days 일수 계산 # e.g. > day1 = datetime.date(2024, 1, 1) >...
※ Itertools 순열, 조합 등의 계산이 가능한 라이브러리 ■ 라이브러리 호출 > import itertools ■ itertools □ .zip_longest() zip 함수와 동일하나, 길이가 다른 경우에도 사용이 가능 길이가 다른 경...
※ Itertools 순열, 조합 등의 계산이 가능한 라이브러리 ■ 라이브러리 호출 > import itertools ■ itertools □ .zip_longest() zip 함수와 동일하나, 길이가 다른 경우에도 사용이 가능 길이가 다른 경...
※ Itertools 순열, 조합 등의 계산이 가능한 라이브러리 ■ 라이브러리 호출 > import itertools ■ itertools □ .zip_longest() zip 함수와 동일하나, 길이가 다른 경우에도 사용이 가능 길이가 다른 경...
※ Itertools 순열, 조합 등의 계산이 가능한 라이브러리 ■ 라이브러리 호출 > import itertools ■ itertools □ .zip_longest() zip 함수와 동일하나, 길이가 다른 경우에도 사용이 가능 길이가 다른 경...
※ Math 수학 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import math ■ math □ .gcd 최대 공약수 (greatest common divisor) 출력 # e.g. > math.gcd(60, 100, 80) # 2...
※ Math 수학 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import math ■ math □ .gcd 최대 공약수 (greatest common divisor) 출력 # e.g. > math.gcd(60, 100, 80) # 2...
※ Math 수학 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import math ■ math □ .gcd 최대 공약수 (greatest common divisor) 출력 # e.g. > math.gcd(60, 100, 80) # 2...
※ Random 난수를 생성하는 라이브러리 ■ 라이브러리 호출 > import random ■ random □ .random() 0과 1사이의 실수인 난수 출력 # e.g. > random.random() # 0.61997310596089...
※ Random 난수를 생성하는 라이브러리 ■ 라이브러리 호출 > import random ■ random □ .random() 0과 1사이의 실수인 난수 출력 # e.g. > random.random() # 0.61997310596089...
※ Random 난수를 생성하는 라이브러리 ■ 라이브러리 호출 > import random ■ random □ .random() 0과 1사이의 실수인 난수 출력 # e.g. > random.random() # 0.61997310596089...
※ Random 난수를 생성하는 라이브러리 ■ 라이브러리 호출 > import random ■ random □ .random() 0과 1사이의 실수인 난수 출력 # e.g. > random.random() # 0.61997310596089...
※ Time 시간 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import time ■ time □ .time() UTC 사용, 현재 시간을 실수 형태로 출력 # e.g. > time.time() # 1726664815.186217 ...
※ Time 시간 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import time ■ time □ .time() UTC 사용, 현재 시간을 실수 형태로 출력 # e.g. > time.time() # 1726664815.186217 ...
※ Time 시간 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import time ■ time □ .time() UTC 사용, 현재 시간을 실수 형태로 출력 # e.g. > time.time() # 1726664815.186217 ...
※ Time 시간 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import time ■ time □ .time() UTC 사용, 현재 시간을 실수 형태로 출력 # e.g. > time.time() # 1726664815.186217 ...
※ Time 시간 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import time ■ time □ .time() UTC 사용, 현재 시간을 실수 형태로 출력 # e.g. > time.time() # 1726664815.186217 ...
※ Time 시간 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import time ■ time □ .time() UTC 사용, 현재 시간을 실수 형태로 출력 # e.g. > time.time() # 1726664815.186217 ...
※ Time 시간 계산과 관련된 라이브러리 ■ 라이브러리 호출 > import time ■ time □ .time() UTC 사용, 현재 시간을 실수 형태로 출력 # e.g. > time.time() # 1726664815.186217 ...
출처: https://arxiv.org/pdf/1710.10903 Paper 직역 ABSTRACT 그래프 컨볼루션 또는 근사치를 기반으로 한 이전 방법들의 단점을 해결하기 위해 Graph Attention Network를 소개한다. 레이어를 쌓음으로써 노드가 그들의 이웃들의 ...
※ Closure (클로저) 함수 안에 내부 함수를 구현하고, 그 내부 함수를 리턴하는 함수 ■ Closure 예시 # e.g. # 일반적인 class를 이용한 함수 > class Mul: def __init__(self, m): self...
※ Closure (클로저) 함수 안에 내부 함수를 구현하고, 그 내부 함수를 리턴하는 함수 ■ Closure 예시 # e.g. # 일반적인 class를 이용한 함수 > class Mul: def __init__(self, m): self...
※ 정규표현식 문자열을 처리할 때 사용하는 기법 메타 문자(meta characters)를 사용 ■ Meta Characters (메타 문자) 원래 그 문자가 가진 뜻이 아니라 특별한 의미를 가진 문자 ...
※ 정규표현식 문자열을 처리할 때 사용하는 기법 메타 문자(meta characters)를 사용 ■ Meta Characters (메타 문자) 원래 그 문자가 가진 뜻이 아니라 특별한 의미를 가진 문자 ...
※ 정규표현식 문자열을 처리할 때 사용하는 기법 메타 문자(meta characters)를 사용 ■ Meta Characters (메타 문자) 원래 그 문자가 가진 뜻이 아니라 특별한 의미를 가진 문자 ...
※ 정규표현식 문자열을 처리할 때 사용하는 기법 메타 문자(meta characters)를 사용 ■ Meta Characters (메타 문자) 원래 그 문자가 가진 뜻이 아니라 특별한 의미를 가진 문자 ...
※ 정규표현식 문자열을 처리할 때 사용하는 기법 메타 문자(meta characters)를 사용 ■ Meta Characters (메타 문자) 원래 그 문자가 가진 뜻이 아니라 특별한 의미를 가진 문자 ...
※ 정규표현식 문자열을 처리할 때 사용하는 기법 메타 문자(meta characters)를 사용 ■ Meta Characters (메타 문자) 원래 그 문자가 가진 뜻이 아니라 특별한 의미를 가진 문자 ...
※ Gram-Schmidt Process (그람 슈미트 과정) 기저(basis) 벡터 {$\mathbf{s_{1}, s_{2}, …, s_{n}}$}을 직교 기저(orthogonal basis) 벡터 {$\mathbf{u_{1}, u_{2}, …, u_{n}}$}으로 변환하는...
※ Gram-Schmidt Process (그람 슈미트 과정) 기저(basis) 벡터 {$\mathbf{s_{1}, s_{2}, …, s_{n}}$}을 직교 기저(orthogonal basis) 벡터 {$\mathbf{u_{1}, u_{2}, …, u_{n}}$}으로 변환하는...
출처: https://arxiv.org/pdf/1703.10593 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks Goal learning to translate an imag...
출처: https://arxiv.org/pdf/1703.10593 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks Goal learning to translate an imag...
※ 고유값 / 고유벡터 # numpy 활용 > import numpy as np > A = np.array([[3, 0], [8, -1]]) > A [[ 3 0] [ 8 -1]] > e, v = np.linalg.eig(A) > print(e) ...
Homogeneous Graphs 모든 노드의 종류가 동일한 그래프 Heterogeneous Graphs 여러 종류(type)의 노드(node) 및 엣지(edge)로 구성된 그래프 더 ...
※ QR Decomposition (QR 분해) [A = QR] > import numpy as np > A = np.array([[1, 0, 1], [0, 1, 1], [1, 2, 0]]) > print(A) [[1 0 1] [0 1 1] [1 2...
※ QR Decomposition (QR 분해) [A = QR] > import numpy as np > A = np.array([[1, 0, 1], [0, 1, 1], [1, 2, 0]]) > print(A) [[1 0 1] [0 1 1] [1 2...
※ QR Decomposition (QR 분해) [A = QR] > import numpy as np > A = np.array([[1, 0, 1], [0, 1, 1], [1, 2, 0]]) > print(A) [[1 0 1] [0 1 1] [1 2...
※ QR Decomposition (QR 분해) [A = QR] > import numpy as np > A = np.array([[1, 0, 1], [0, 1, 1], [1, 2, 0]]) > print(A) [[1 0 1] [0 1 1] [1 2...
※ QR Decomposition (QR 분해) [A = QR] > import numpy as np > A = np.array([[1, 0, 1], [0, 1, 1], [1, 2, 0]]) > print(A) [[1 0 1] [0 1 1] [1 2...
※ QR Decomposition (QR 분해) [A = QR] > import numpy as np > A = np.array([[1, 0, 1], [0, 1, 1], [1, 2, 0]]) > print(A) [[1 0 1] [0 1 1] [1 2...
※ QR Decomposition (QR 분해) [A = QR] > import numpy as np > A = np.array([[1, 0, 1], [0, 1, 1], [1, 2, 0]]) > print(A) [[1 0 1] [0 1 1] [1 2...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
※ 벡터, 행렬, 텐서 # 벡터 > x = [1, 2] > print(x) [1, 2] # 행렬 > A = [[1, 2], [3, 4]] > print(A) [[1, 2], [3, 4]] # 텐서 > T = [[[1, 2], [3, 4]], [[5,...
출처: https://arxiv.org/pdf/2209.14734 ※ DiGress a discrete denoising diffusion model for generating graphs with categorical node and edge attributes ...
출처: https://arxiv.org/pdf/2209.14734 ※ DiGress a discrete denoising diffusion model for generating graphs with categorical node and edge attributes ...
출처: https://arxiv.org/pdf/2209.14734 ※ DiGress a discrete denoising diffusion model for generating graphs with categorical node and edge attributes ...
출처: https://arxiv.org/pdf/2209.14734 ※ DiGress a discrete denoising diffusion model for generating graphs with categorical node and edge attributes ...