기본 콘텐츠로 건너뛰기

A Collection of Papers


[ Google Research ] 

Sequence to Sequence Learning with Neural Networks (2014) [Dyed] [Sum-up]
1, 2, 3, 4, 5, 6
[한줄요약] For MT task, our method uses a multilayered LSTM to map the input sequence to a vector of a fixed dimensionality, and then another deep LSTM to decode the target sequence from the vector.
[정리] Vanilla DNN은 input/output 길이가 고정되어 있어야하고, vanilla RNN은 input과 output 길이가 1:1대응되어야 해서, input/output길이가 가변적인 sequence learning을 하기 어렵다. 이를 위해 2개 LSTM은 붙여 input/output 길이에 구애받지 않는 seq2seq모델 설계하였다. LSTM과 reversing을 이용해 long sentence도 잘 학습되게 하였고, sentence embedding을 통해 의미적/구조적으로 비슷한 문장들의 점들이 가깝게 분포되어 있는 것을 확인할 수 있다.
[키워드] a fixed dimensional vector, reversing the input sequence, sentence embedding


Distributed Representations of Sentences and Documents [Dyed]



[ Total ]


On -and Off-Topic Classification and Semantic Annotation of 
User-Generated Software Requirements [Sum-up]
[느낀점]
파더본 대학 인턴연구를 위한 논문이며, 2번째 classifier의 성능을 높이기 위한 목표가 있다. 처음으로 영어라는 frame위에서 feature engineeing을 할 수 있어서 재밌을 것 같다. 데이터가 적고 분류할 class는 많고, unbalanced라서 매우 어려운 문제이지만 도전해볼만 하다. (장인의 정신으로 preprocessing, feature engineering을...)
[정리]
* 뉴스와 같은 범용 텍스트가 아닌 software requirement 텍스트를 대상으로 2단계 분류 문제 (1차: on-off topic인지 (binary class), 2차: semantic annotation (16개 class))
* 한 마디로, 제멋대로인 requirement 텍스트를 모델을 통해 이쁘게 구조화시킬려는 의도
* sequential 문제이지만 오히려 static model의 성능이 더 잘나옴 (데이터 부족, 또는 위치정보가 있는 feature때문에)
* 인상깊은 feature는 왼쪽 token의 classification 결과를 오른쪽 token의 feature로 사용한다는 점
[키워드] = { NLP, semantic annotation (semantic role labeling), machine learning, software requirement }






Going Deeper with Convolutions [Dyed]
1, 2, 3, 4, 5, 6, 7, 8, 9
* 한줄요약: GoogLeNet is a model that approximating the expected optimal sparse structure by readily available dense building blocks.
* 정리: Uniform model은 overfitting의 한계, GoogLeNet은 Uniform model과 Sparse model의 절충, link간 connection-level의 sparse model은 어려운 계산 과정(병렬컴퓨팅하기힘듦)으로 inception module을 사용하여 filter-level의 sparse model 설계, 1x1 conv의 차원축소로 #of파라미터매우감소, 계산효율, deeper/wider로 추상화 더 잘함
* 키워드: Inception modules: filter-level sparsity, 1x1 convolutions: dimension reduction, auxiliary classifiers: solve vanishing gradient problem






Reinforcement Learning and Control, Stanford CS229, Andrew Ng [Sum-up

Deep Learning: 기계학습의 새로운 트랜드 [Dyed]

AlphaGo의 인공지능 알고리즘 분석 [Dyed]







[ etc ]

Building Bridges for Web Query Classification [Dyed] [PPT]
Tweet Segmentation and Its Application [Dyed]





댓글

이 블로그의 인기 게시물

Pattern Discovery in Data Mining

Coursera Illinois at Urbana-Champaign by Jiawei Han 2015.03.19 CONTENT 1. A brief Introduction to Data Mining 2. Pattern Discovery : Basic Concepts 3. Efficient Pattern Mining Methods 4. Pattern Evaluation 5. Mining Diverse Patterns 6. Constraint-Based Pattern Mining 7. Sequential Pattern Mining 8. Graph Pattern Mining 9. Pattern-Based Classification 10. Exploring Pattern Mining Applications Lecture 1 : A brief Introduction to Data Mining - We'are drowning in data but starving for knowledge ( a lot of data are unstructured ) - Data mining : a misnomer ! -> Knowledge mining from data - Extraction of interesting patterns (non-trivial, implicit, previously unknown and potentially useful) or knowledge from massive data. - Data mining is a interdisciplinary field (machine learning, pattern recognition, statistics, databases, big data, business intelligence..) Knowledge Discovery (KDD) Process Methodology View: Confluence of Multiple Disciplines Lecture 2 : Pattern Discovery : Ba...

Logistic Regression

By Andrew Ng 1. Logistic Regression      1.1   Visualizing Data Part             └ plotData function     1.2   Advanced  Optimization  Part             └ mapFeature function             └ costFunctionReg function             └ fminunc function         1.3   Decision Boundary and Prediction   Part             └ plotDecisionBoundary function             └ predict function 1. Logistic Regression We'll implement regularized logistic regression to predict whether microchips from a fabrication plant passes quality assurance (QA). During QA, each microchip goes through various tests to ensure it is functioning correctly. Suppose you're the product manager of factory and you have the test results for some microchips on two different tests. From...

Introduction to Data Structure Using C

윤성우의 열혈 자료구조 자료구조에 대한 기본적 이해 프로그램 = 자료구조(데이터 표현) + 알고리즘(데이터 처리) 자료구조가 결정되어야 그에 따른 효율적인 알고리즘 설계 가능하다. 알고리즘은 자료구조에 의존적이다. 알고리즘의 성능분석 방법 시간 복잡도(Time Complexity) - 속도      연산의 횟수를 통해 알고리즘의 빠르기 판단           데이터 수의 증가에 따른 연산횟수의 변화 정도 판단           탐색 알고리즘에서 시간 복잡도를 결정하는 핵심 연산자는 동등비교(==)이다. 공간 복잡도(Space Complexity) - 메모리 사용량 일반적으로 알고리즘 성능 평가할 때 메모리 사용량보다 실행속도에 초점을 둔다. 일반적인 알고리즘의 평가에는 논란의 소지가 거의 없는 '최악의 경우(worst case)가 선택된다. Big-Oh Notation은 '데이터 수의 증가에 따른 연산횟수의 증가패턴을 나타내는 표기법이다.' 또는 '데이터 수의 증가에 따른 연산횟수 증가율의 상한선을 표현한 것'이다. Recursive 하노이 타워      가장 작은 단위 패턴을 코딩하고 이를 일반화시키면 된다. 리스트 (List)      순차 리스트 (배열 기반)           배열 자료구조 특징인 Index를 통해서 어느 곳이든 바로 이동이 가능하다.           하지만, 프로그램 실행 전에 크기가 결정되어야 한다.           그리고 배열은 메모리의 특성이 정적이므로 메모리 길이 변경이 불가능하다.           정적인 배열은 필요로 하는 메모리의 크기에 유연하게 대처하지 못한다. ...