일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 올바른 변수명 짓기
- Python
- leetcode 561
- leetcode 238
- MapReduce 실습
- 컴퓨터구조
- leetcode 234
- Hadoop
- 스파크 완벽 가이드
- 문자열 조작
- leetcode125
- Hortonworks Sandbox
- leetcode 937
- docker로 airflow 설치하기
- leetcode 5
- 머신러닝
- wargame.kr
- ctf-d
- leetcode
- leetcode 121
- 데이터레이크와 데이터웨어하우스
- 빅데이터를 지탱하는 기술
- leetcode 344
- leetcode 49
- airflow docker
- 배열
- leetcode 819
- 블로그 이전했어요
- leetcode 15
- webcrawler
- Today
- Total
목록Study (61)
HyeM
참고 책 : 엔지니어를 위한 블록체인 프로그래밍 Chapter 4 _거래 01. 거래의 생애 주기 거래 과정 : 생성 -> 서명 -> 전파 -> 블록 내 저장 전파는 P2P 노드라 인접 노드에만 전파한다. 거래 전달받은 노드는 거래가 특정 조건을 만족하는 검증한 다음, -> 조건 만족시 거래 전달한 노드에게 성공메시지를 보내고 다른 노드에도 전파한다. -> 만약 조건을 만족하지 못하면, 거래를 전달한 노드에게 파기 메시지를 보내고 다른 노드에는 전파하지 않는다. 예) 상황. B가 A에게 송금하는 거래가 전파되는 과정 B는 A에게 1BTC를 송금하는 내용의 거래를 생성하고, 전자지갑 속 비밀키로 거래에 서명한다. 밥은 이 거래를 인접한 노드에 전파한다. 거래를 전달받은 노드가 거래를 검증한다. 거래를 전달..
참고 책 : 엔지니어를 위한 블록체인 프로그래밍 아래 책 이미지 사용함. Chapter 1 _ About 블록체인 01.블록체인 : 공개된 Network에서, 네트워크에 참가한 사람들에 의해 분산형 합의 구성 & 투명성 거래 구현하는 기술 02. 비트코인 1) 블록체인 기술을 이용하여 구현한 특정 네트워크 (비트코인, 이더리움 등등) 2) 특정 네트워크에서 유통되는 통화(이더리움에서는 '이더') 03. 비트코인 네트워크 : 사토시 나카모토 라고 밝힌 사람이 쓴 논문으로 기반으로 구현됨. 깃허브에서 오픈소스 - 목적 : 가상통화인 비트코인 송금 - 개방적인 네트워크(퍼블릭 블록체인) 프라이빗 블록체인(컨소시엄 블록체인) ex. 하이퍼레저 페브릭 04. 이더리움 (블록체인 네트워크) - 목적 : '스마트 계..
01. 마르코프 체인과 LSTM/RNN 이번 챕터에서는 문장 자동 생성을 하는 것이 목표이다. 마르코프체인과 LSTM/RNN은 서로 다른 방식의 문장 생성 방식이다. 마르코프체인 : 확률을 기반으로 문장을 이어 붙임 LSTM/RNN : 머신러닝으로 다음에 위치한 문장 예측하여 문장 생성. 02. 마르코프 체인 마르코프체인 (워드 샐러드) : 확률을 기반으로 하는 방법 -> 마르코프체인을 이용하면 기존 문장을 기반으로 문장을 자동으로 생성가능함. # 마르코프 성질이란 ? - 의미 : 과거의 상태를 무시하고, 현재의 상태만을 기반으로 다음 상태를 선택하는 것 - 표현 : 현재 상태 : qi 다음상태 : qj 다음상태로 이동할 확률 : P(qj | qi ) #현재상태와 다음상태만을 기준으로 결정됨. # 마르코..
01. 문장의 유사도 분석 어떤 두 문장(또는 단어)이 비슷한지, 서로 관련있는 문장인지 분석해본다. 방법 : 레벤슈타인 거리 계산, n-gram 사용 02. 레벤슈타인 거리 레벤슈타인 거리 (편집거리): 두 개의 문자열이 어느 정도 다른지 나타내는 것 예시_ "가나다라"와 "가마바라"는 얼마나 유사할까? -> "가나다라"를 가마바라"로 편집할 때 몇 번의 문자열 조작이 필요할지로 단어의 거리를 구한다. 횟수 편집 조작 결과 0 - 가나다라 1 "나"를 "마"로 변환 가마다라 2 "다"를 "바"로 변환 가마바라 문자열 조작을 나타낸 표에 따라, 문자열을 조작하기 위해선 2번의 조작이 필요하다. => 편집비용(조작횟수)는 2이고, 2는 레벤슈타인 거리이다. [실습1]_ 파이썬으로 레벤슈타인 거리를 계산하는..
지난주에는 베이스정리로 텍스트를 분류해보았다. 이번주는 MLP를 이용하여 텍스트를 분류해보자. 01. MLP란 무엇인가? MLP(다충 퍼셉트론): 입력층과 출력층 상에 각각 전체 결합하는 은닉층을 넣은 뉴럴 네트워크 가장 기본적이 인공신경망 구조이고, 하나의 입력층과 출력층, 그리고 하나 이상의 은닉층으로 구성된다. input layer(입력층), hidden layer(은닉층), output layer(출력층) 있고, 각 층의 뉴런의 개수에는 제약이 없다. (다음 그림에서 뉴런은 원으로 표현됨) MLP는 이 글의 아래의 에서 자세히 다루어 보겠다. 머신러닝 프레임워크는 글을 그대로 입력할 수 없기 때문에, 텍스트 데이터를 숫자로 변환해야 한다. 근데 텍스트 데이터는 길이가 다르므로 고정된 길이의 벡터로..
01. 텍스트 분류 텍스트 분류에는 여러 가지 방법이 있는데, 자주 사용되는 방법인 “베이지안 필터” 를 이용해 실습해본다. 베이지안 필터 - 스팸 메일이나 글을 구분할때 많이 사용됨. - 교사학습/ 비교사학습/ 강화학습의 3가지 머신러닝 종류중 교사학습에 해당한다. - 사용자가 따로 키워드를 지정하지 않아도 스팸 메일을 구분할 수 있음 02. 베이즈 정리 베이즈 정리는 '조건부 확률'과 관련된 이론으로, 토머스 베이즈에 의해 정립된 이론이다. P(A|B) = P(A|B)P(B)/P(A) 조건부 확률 에서 을 나타냄. = P(B|A) 결합확률과 곱셈 법칙 예를 들어 정육면체 주사위를 두 번 던져서 "첫번째가 3", "두 번째가 짝수" 될 확률은 1/6 X 1/2 = 1/12 이다. => 동시에( 연속적으..
Word2Vec : 문장 내부의 단어를 벡터로 변환하는 도구 단어의 연결을 기반으로 단어의 연관성을 벡터로 만들어준다. 단어의 의미 파악할 수 있음 + 의미를 선형으로 계산 가능 ( "아빠-남자+여자" = "엄마") 01. Gensim 설치 Word2Vec을 구현하는 도구는 많은데, 그 중 실행속도 빠르고 파이썬으로 실행 가능한 Gensim 라이브러리 사용할 것이다. Gensim라이브러리의 Word2Vec : 단어를 더하고 빼는 처리를 하기 위해선, 말뭉치(Corpus) 라는 단어사전을 만들려면, 데이터를 준비하고 학습시켜야 한다. 설치 02_1. Gensim의 Word2Vec으로 "토지"를 읽어보기 (단계1) 단계1. 분석할 파일 다운로드 하기 따로 파일을 다운로드 하지않고, 6부 1장에서 활용한 "토..
형태소 분석 : 자연 언어의 문장을 "형태소"라는 의미를 갖는 최소 단위로 분할하고, 품사를 판별하는 작업 형태소 분석은 기계번역, 텍스트 마이닝 등에 활용됨. 01. 형태소 분석 영어 형태소 분석 영어는 it's와 don't등을 제외하고는, 띄어쓰기로 형태소를 구분 가능하기 때문에 크게 어렵지 않다. 아시아 계열의 언어 형태소 분석 문법 규칙에 의한 방법 확률적 언어 모델 사용하는 방법 "그래요" 로 변환 stem옵션 : "그렇다" 라는 원형을 찾아줌 단계3. 출력화면 03. 출현 빈도 분석 해당 글에서 중복되는 형태소의 개수를 출력해는 파이썬 코드 짜기 단계1. 분석할 파일 다운로드 하기 https://ithub.korean.go.kr/user/total/database/corpusManager.do..