기본 콘텐츠로 건너뛰기

A Collection of Papers


[ Google Research ] 

Sequence to Sequence Learning with Neural Networks (2014) [Dyed] [Sum-up]
1, 2, 3, 4, 5, 6
[한줄요약] For MT task, our method uses a multilayered LSTM to map the input sequence to a vector of a fixed dimensionality, and then another deep LSTM to decode the target sequence from the vector.
[정리] Vanilla DNN은 input/output 길이가 고정되어 있어야하고, vanilla RNN은 input과 output 길이가 1:1대응되어야 해서, input/output길이가 가변적인 sequence learning을 하기 어렵다. 이를 위해 2개 LSTM은 붙여 input/output 길이에 구애받지 않는 seq2seq모델 설계하였다. LSTM과 reversing을 이용해 long sentence도 잘 학습되게 하였고, sentence embedding을 통해 의미적/구조적으로 비슷한 문장들의 점들이 가깝게 분포되어 있는 것을 확인할 수 있다.
[키워드] a fixed dimensional vector, reversing the input sequence, sentence embedding


Distributed Representations of Sentences and Documents [Dyed]



[ Total ]


On -and Off-Topic Classification and Semantic Annotation of 
User-Generated Software Requirements [Sum-up]
[느낀점]
파더본 대학 인턴연구를 위한 논문이며, 2번째 classifier의 성능을 높이기 위한 목표가 있다. 처음으로 영어라는 frame위에서 feature engineeing을 할 수 있어서 재밌을 것 같다. 데이터가 적고 분류할 class는 많고, unbalanced라서 매우 어려운 문제이지만 도전해볼만 하다. (장인의 정신으로 preprocessing, feature engineering을...)
[정리]
* 뉴스와 같은 범용 텍스트가 아닌 software requirement 텍스트를 대상으로 2단계 분류 문제 (1차: on-off topic인지 (binary class), 2차: semantic annotation (16개 class))
* 한 마디로, 제멋대로인 requirement 텍스트를 모델을 통해 이쁘게 구조화시킬려는 의도
* sequential 문제이지만 오히려 static model의 성능이 더 잘나옴 (데이터 부족, 또는 위치정보가 있는 feature때문에)
* 인상깊은 feature는 왼쪽 token의 classification 결과를 오른쪽 token의 feature로 사용한다는 점
[키워드] = { NLP, semantic annotation (semantic role labeling), machine learning, software requirement }






Going Deeper with Convolutions [Dyed]
1, 2, 3, 4, 5, 6, 7, 8, 9
* 한줄요약: GoogLeNet is a model that approximating the expected optimal sparse structure by readily available dense building blocks.
* 정리: Uniform model은 overfitting의 한계, GoogLeNet은 Uniform model과 Sparse model의 절충, link간 connection-level의 sparse model은 어려운 계산 과정(병렬컴퓨팅하기힘듦)으로 inception module을 사용하여 filter-level의 sparse model 설계, 1x1 conv의 차원축소로 #of파라미터매우감소, 계산효율, deeper/wider로 추상화 더 잘함
* 키워드: Inception modules: filter-level sparsity, 1x1 convolutions: dimension reduction, auxiliary classifiers: solve vanishing gradient problem






Reinforcement Learning and Control, Stanford CS229, Andrew Ng [Sum-up

Deep Learning: 기계학습의 새로운 트랜드 [Dyed]

AlphaGo의 인공지능 알고리즘 분석 [Dyed]







[ etc ]

Building Bridges for Web Query Classification [Dyed] [PPT]
Tweet Segmentation and Its Application [Dyed]





댓글

이 블로그의 인기 게시물

Pattern Discovery in Data Mining

Coursera Illinois at Urbana-Champaign by Jiawei Han 2015.03.19 CONTENT 1. A brief Introduction to Data Mining 2. Pattern Discovery : Basic Concepts 3. Efficient Pattern Mining Methods 4. Pattern Evaluation 5. Mining Diverse Patterns 6. Constraint-Based Pattern Mining 7. Sequential Pattern Mining 8. Graph Pattern Mining 9. Pattern-Based Classification 10. Exploring Pattern Mining Applications Lecture 1 : A brief Introduction to Data Mining - We'are drowning in data but starving for knowledge ( a lot of data are unstructured ) - Data mining : a misnomer ! -> Knowledge mining from data - Extraction of interesting patterns (non-trivial, implicit, previously unknown and potentially useful) or knowledge from massive data. - Data mining is a interdisciplinary field (machine learning, pattern recognition, statistics, databases, big data, business intelligence..) Knowledge Discovery (KDD) Process Methodology View: Confluence of Multiple Disciplines Lecture 2 : Pattern Discovery : Ba...

Vector Space Model

Motivation When you want to find some information by using Search Engines, you have to make a query used for search. Unfortunately, since you don't know exactly what it means, your query will be ambiguous and not accurate. Therefore, Search Engines give you the information in a ranked list rather than the right position. Intuition In order to make a ranked list, you need to calculate the similarity between the query and documents based on terms or words. One of the calculation of similarity is dot product on a vector space. In the vector space, there are many documents with respect to word dimensions The first to rank is d2, because to see with eyes it's the most similarity with the query. Problem How do we plot those vectors wonderfully and nicely and very very fairly ? - How do we define the dimension ? - How do we place a document vector ? - How do we place a query vector ? - How do we match a similarity ? Consideration 1. The frequency of each word of Query. First, Score in...

Operating System

Operating System Three Phases of OS History Phase 1       Summary :  H/W 비싸고, 인건비는 저렴        Goal : 어떻게 하면 값비싼 CPU를 효율적으로 사용할 수 있을까 ? Phase 1-1 : Operator as OS 하드웨어(애니악 - 진공관 CPU,마그네틱 코어 Memory)가 매우 비싸고, 그에 반해 인건비가 매우 저렴하기 때문에 CPU Utilization을 최대화 시키는게 목표였다. 초창기 컴퓨터 당시 Operator 역할은 사람이었다. 카드 덱 수령, 카드 덱 시스템에 로딩, 수행결과를 프린트, 결과물을 사용자에 전달 등등 Phase 1-2 : Simple batch monitor Human Operator에 의해 job-to-job 전환 속도가 매우 느린점으로 인해 CPU적 관점으로 컴퓨터 시스템의 비효율성을 극복(Utilization 최대화)하기 위해서 최초의 Operating System Software가 등장했다. I/O machine이 추가 되었다. Phase 1-3 : Batch monitor ( OS + I/O device controller ) 하지만, I/O를 추가한 후, I/O를 하고 있을 때 CPU가 idle하게 되었고, 또 다시 CPU Utilization 문제가 대두되었다. 이와 같은 문제를 해결하기 위해 I/O Channel, I/O device controller가 등장했다. I/O Channel은 CPU를 대신해서 I/O device의 operation을 관장해준다. 그 대신 I/O operation의 시작과 끝만 CPU에게 알려준다. ( Asynchronous I/O 방법으로써 Interrupt mechanism 등장 ) 이러한 mechanism 으로 CPU와 I/O가 서로 overlap되며 사용가능해졌다. Phase 1-4 : Multi...