Rubbing & Scrubbing My Data

글

2017의 게시물 표시

Discussion

Data in this post is from Quora, Reddit, Stack Overflow and so on, where people usually discuss about concepts. [ Quora ] Why are rule based methods becoming unpopular in NLP? [ Original ] [정리] - 질좋은/많은 데이터가 없을 경우 rule-based가 큰 역할을 한다. - 만약, 어떤 문제를 fast-and-dirty하게 풀 때, pattern(=rule)을 리스트화하는게 가장 좋을 것이다. - tokenization/ stemming/ sentence_breaking/ morphology와 같이 deterministic을 요구하는 경우(그다지 복잡하지 않은 경우)에 rule-based가 좋다. 즉, linguistic data frame에는 rule-based의 pre/post processing이 필수적이다. 그리고 이러한 pre/post processing은 ML-classifier의 성능에 큰 영향을 준다. 따라서, rule-based와 ml-based는 서로 뗄레야 뗄수없는 하나의 framework이다. 단지 서로의 역할만 정해져 있고, 어디에 초점을 맞추는지에 따라 달라질 것이다. - 하지만, rule-based는 scale 하기 어렵다. 즉, 수백/수천/수만개의 rule들이 있으면, 서로 매우복잡하게 얽히고 설켜 결국엔 시스템이 엉망이될 수도 있다. - 좋은 방법은 시스템을 여러 단계로 나눈 후, 정교한 feature가 정의되면 rule-based로 각 단계를 해결하고 (아마 pre/post processing에 해당), 그 다음 feature들을 combine하고 싶을 때는 ML-based로 가는 것(generalization을 더 잘하기 위해)이다. 참고로 rule-based는 overfitting을 확인할 방법이 없다. - Classification 문제에서 목표는 적합한...

자세한 내용 보기

Interviews

[ Geoffrey Hinton ] Four Questions For: Geoff Hinton (Jan 16, 2017) [ Original ][ Sum-up ] * 3년전만해도 Neural Net이 raw data로부터 linguistic knowledge를 얻으리라는 예상을 하지 못해, Machine Translation에는 사용을 안했다. 하지만 지금의 NMT는 대세이다. * 특이점이 오는 AI를 두려워하진 않는다. 단, 이들을 군사목적으로 사용되는데 있어서 국제적인 동의를 반드시 가져야 할 것이다. * AI가 노동시장에 영향을 끼치는데 긍정적으로 바라본다. 이들은 생산성을 높여줘 (예전의 2차 산업때와 같이) 모든 사람들에게 좋은 영향을 주기 때문이다. 단, 올바르고 공정한 정치적 시스템이 전제되어야 할 것이다. 기술은 문제가 되지 않는다. 혜택을 모든 사람들에게 주지 않는 비공정 정치 시스템이 문제이다. * 최근 deep learning이 여러 도메인 (e.g., image, speech, text)에 막대한 영향을 끼치고 있는데, 우리는 20년 또는 그 전부터 기초 neural network으로부터 이들의 잠재력(flowering)을 봐왔다. 그 잠재력은 더 좋은 타입의 뉴런, 더좋은 아키텍쳐, Deep Net을 학습하는 더 좋은 방법, 모델이 input의 실체를 더 잘 살펴보도록 하는 방법에 있다. 이러한 deep learning의 잠재력은 앞으로 계속 발전될 것이다. * 앞으로 가장 기대가 되는 부분은, neural network가 정말로 document의 content를 이해하는 것이다. 최근 핫 토픽 중 하나인, new types of temporary memory가 이 부분에 속한다. * 한가지 문제는 neural network가 small amounts of data에서 generalize를 잘 하지 못한다는 부분이다. 추측컨데, 이것을 해결하기 위해서는 완전 새로운 타입의 neuron을 개발해야 할 것이다. * deep learning를...

자세한 내용 보기

A Collection of Papers

[ Google Research ] Sequence to Sequence Learning with Neural Networks (2014) [ Dyed ] [ Sum-up ] 1, 2, 3, 4, 5, 6 [한줄요약] For MT task, our method uses a multilayered LSTM to map the input sequence to a vector of a fixed dimensionality, and then another deep LSTM to decode the target sequence from the vector. [정리] Vanilla DNN은 input/output 길이가 고정되어 있어야하고, vanilla RNN은 input과 output 길이가 1:1대응되어야 해서, input/output길이가 가변적인 sequence learning을 하기 어렵다. 이를 위해 2개 LSTM은 붙여 input/output 길이에 구애받지 않는 seq2seq모델 설계하였다. LSTM과 reversing을 이용해 long sentence도 잘 학습되게 하였고, sentence embedding을 통해 의미적/구조적으로 비슷한 문장들의 점들이 가깝게 분포되어 있는 것을 확인할 수 있다. [키워드] a fixed dimensional vector, reversing the input sequence, sentence embedding Distributed Representations of Sentences and Documents [ Dyed ] [ Total ] On -and Off-Topic Classification and Semantic Annotation of User-Generated Software Requirements [ Sum-up ] [느낀점] 파더본 대학 인턴연구를 위한 논문이며, 2번째 classif...

자세한 내용 보기