엑소브레인 과제는 미래창조과학부에서 2013년에 시작한 SW분야의 그랜드 챌린지 과제로, 인간과 기계의 의사통을 뛰어 넘어, 전문가 수준의 지식소통을 위한 인공두뇌를 개발하는 것을 목표로 연구개발을 추진하고 있다. 엑소브레인의 핵심이 되는 인공지능 기술은 1) 자연어의 의미 이해, 2) 지식표현 체계 및 지식베이스 구축, 3) 자연어 질의응답 기술을 개발하는 것으로 본 워크샵에서 현재까지 개발 현황 및 향후 개발 계획을 논의하고자 한다.
WiseQA는 엑소브레인 자연어 질의응답 인공지능 기술이다. 자연어 질의응답 기술은 기존의 정보검색과 달리 자연어 문장들로 기술된 질문을 입력받아, 정답가설을 생성하고 검증하여 신뢰성있는 최적 정답을 제공하는 기술이다. 본 발표에서는 1) 자연어 질문으로 문제해결을 위한 지식표현을 분석하는 질문 분석 기술, 2) Data-intensive QA와 Knowledge-based QA의 방법론을 결합한 하이브리드 QA, 3) 최적정답 추론 기술에 대해 설명한다.
WiseNLU는 기존 자연어처리 응용에서 주로 쓰이던 형태소 분석, 개체명 인식, 구문 분석과 같은 syntactic한 분석 이외에 어휘의미 중의성 해소를 포함한 어휘의미분석, 의미역 인식, 상호참조해결, 무형대용어 복원과 같은 semantic 분석을 추가하여, 자연어 분석 기술의 pipeline을 전주기적으로 갖추어, 자연어 문장 단위를 넘어 전체 문서에 대한 이해에 깊이를 더하였다. WiseNLU 단위 기술들은 각 기술의 특성을 고려하여 기계학습 바탕 위에 다양한 특징을 추가하여 성능 향상을 도모한다. 본 발표에서는 WiseLNU 단위 기술들을 소개하고, 한국어에서는 적용이 힘들었던 의미 이해 기술을 중심으로 설명한다.
지식베이스기반 질의응답 시스템(KBQA : KnowledgeBase based Question and Answering system)을 위한 일반 상식 수준의 지식베이스를 효과적으로 구축하기 위해 기계와 사람이 유기적으로 협업하는 방식의 이중나선 지식베이스 구축 방법론을 소개합니다. 이 방법론은 한국어 기반의 지식베이스를 구축하기 위해 KorLex, WordNet과 같은 한국어 어휘망을 기반으로 스키마를 설계하고, 인스턴스를 대용량으로 구축하기 위해 Wikipedia, DBpedia , 백과사전 등의 반 구조화된 지식들을 분석하여 자동 변환 및 수동 구축을 수행합니다. 이후 구축된 지식베이스를 기반으로 추론 및 학습을 수행하고, 이를 통해 지식을 자동으로 증강시키는 방법론입니다. 그리고, KBQA를 위해 자연어 질의로부터 생성한 시맨틱 프레임 정보(형태소분석, 구문분석, 개체명 분석 등 언어처리 기술 기반 분석 정보)를 기반으로 SPARQL 질의를 자동으로 생성하기 위한 기술을 소개합니다.
Scalable Ontology Reasoning in Spark Environment [발표자료]
발표
김제민 교수, 명지대
요약
클라우드에 존재하는 방대한 정보를 기반으로 사용자에게 필요한 지식을 능동적으로 제공하는 서비스가 활발히 연구되고 있으며, 이에 따라 지식을 효과적으로 표현하는 방법이 필요하다. 온톨로지의 목적은 컴퓨터가 인간의 지식을 이해하고 암시적인 의미를 추론 할 수 있도록 하는 것으로 지식 표현에 널리 활용되고 있다. 따라서 방대한 지식이 표현된 대용량 온톨로지를 효과적으로 분산시켜 지식을 추론하는 기술이 요구된다. Spark는 클러스터를 구성하는 각 노드의 메모리상에서 자료에 대한 연산을 수행하는 클러스터 컴퓨팅 플랫폼이다. Spark는 작업에 사용되는 데이터를 클러스터 메모리에 RDD로 추상화하기 때문에, 작업의 종속 관계가 존재할 경우 파일을 읽고 쓰는 과정이 많이 발생하는 하둡 환경에서의 맵리듀스 알고리즘 실행에 비해 다중 작업을 신속하게 수행한다. 이에 본 세션에서는 Spark 프레임워크를 적용하여, OWL-horst 수준으로 작성된 대용량의 온톨로지를 규칙 기반으로 분산 추론하는 기술에 대해서 설명한다.
Machine Reading for Question Answering: Knowledge Enrichment from Korean Wikipedia [발표자료]
발표
함영균 박사과정 / 최기선 교수, 카이스트
요약
많은 질의응답 시스템들은 질의에 답변하기 위하여 지식베이스를 사용한다. 그러나 지식은 전통적으로 자연어로 쓰여져 있으며, 또한 기존에 존재하는 구조화된 데이터베이스보다 웹 텍스트에서 더욱 많이 발견된다. 또한 자연어 질의응답 시스템의 관점에서 질의에 내포된 의미와 지식베이스에서의 의미의 일치화 과정이 필요하다. 기계독해(Machine Reading)란 자연어에 대한 자동화된 이해와 해석을 위한 접근으로서, 방대한 양의 지식과 정보를 기계가 해독 가능한 형태 - 온톨로지 - 로의 변환을 목표로 한다. 이때 온톨로지는 텍스트에서의 개체에 대한 의미를 규정하고 개체간의 의미적 관계를 기술하며, 최종적으로는 질의와 텍스트에서 나타난 지식을 연결한다. 한국어 자연어 질의응답 시스템 개발의 측면에서, 본 강연은 자연어의 온톨로지화를 위한 기계독해 방법론과 지식표현체계, 그리고 지식베이스에 대한 평가방법 및 확장 등을 다룬다. 특히, 한국어 위키피디아 텍스트로부터의 지식베이스 구축을 위한 노력을 중심으로 소개하며, 한계와 추후 연구를 개괄한다.
한국어 의미처리를 위해 명사어휘망, 용언 논항의 의미제약, 부사-용언의 의미제약 등으로 구성된 어휘지도(UWordMap)와 API를 소개한다. 또한, 세종형태의미말뭉치를 이용한 동형이의어 의미분별(coarse-grain WSD) 결과를 소개하고, 어휘지도를 이용한 다의어 의미분별(fine-grain WSD) 결과를 소개한다.
Beyond QA for Intelligent Personal Assistant
발표
임은희 수석연구원, 삼성전자
요약
인간과 대화하는 듯 자연스러운 질의 응답 서비스는 인공지능 분야의 다양한 기술이 복합 적용되어야 가능한 종합예술이라 할 수 있다. 본 발표에서는 Intelligent Personal Assistant Prototype 개발 사례를 중심으로 질의 응답 시스템과 주요 기술을 소개하고자 한다. 특히 삼성전자의 디바이스에서 활용되는 시나리오 관점에서, 보다 만족스러운 사용자 경험을 제공하기 위해 풀어야 하는 기술적 어려움을 설명한다. 최근 재조명되며 급격한 발전을 보이고 있는 인공지능 기술은, 새롭게 등장한 IT 환경 변화에서 그 진가를 발휘할 것으로 예상된다. IoT(Internet of Things) 등의 미래 환경을 대비하는 ‘Beyond QA’ 기술과 그 필요성에 대해 간단히 설명하고 마무리한다.
Natural Language Processing at NAVER
발표
이현아 실장, 네이버
요약
네이버 자연어처리연구실에서는 텍스트 검색어의 검색 의도를 파악하는 자연어 이해 기술, 사람의 대화 방식을 모델링하는 대화 처리 기술, 비정형화된 문서로부터 유용한 지식을 추출하는 지식 추출 기술 등을 연구 개발하고 있습니다. 자연어이해 기술은 텍스트 입력을 분석하여 검색어가 어느 주제에 관한 것인지 어떤 검색 의도가 있는지를 분석해 내는 기술이고 현재 네이버 통합검색 서비스에 적용돼 있습니다. 대화처리 기술은 예전에 '네이버 링크' 앱 개발 때 적용된 기술로서 음성 입력이 아닌 텍스트 입력을 전제로 한 대화 처리 기술입니다. 최근 short term memory 처리 기술을 고도화하였습니다. 지식추출 기술은 DB 형태로 정형화 돼 있지 않은 유용한 지식을 문서로부터 추출하여 사용자에게 '정답형 검색' 형태로 제공하고 있습니다. 이 외에 객체 태깅, 토픽 추출 등의 핵심 기반 기술을 연구 개발하여 네이버를 사용하는 사용자가 좀더 만족스런 검색을 할 수 있도록 끊임없이 노력하고 있습니다.
우리는 지식베이스 내의 개체간 숨겨진 암묵적 연결관계를 자동으로 찾아내어 QA용 지식베이스를 증강하는 방법을 제안한다. 암묵적 관계 탐색은 지식베이스 내에 두 개체간의 관계를 정의한 연결관계가 존재하지 않는 모든 관계쌍을 대상으로 한다. 우리는 기계가 자동으로 암묵적 관계를 찾아낼 수 있도록 만들기 위해, 지식베이스를 그래프로 변환하여 Cycle 구조를 활용한 암묵적 관계탐색 기법을 구상하였다. 시스템은 두 개체의 Shortest Path를 추출하고, 해당 Path 에 존재하는 관계명의 집합과 순서를 동일하게 포함하고 있는 그래프의 Cycle을 탐색한다. 이후 추출된 Cycle의 분석을 통해 개체쌍에 부여할 수 있는 암묵적 관계명 후보를 선별하고, 랭킹 함수를 통해 최종적으로 가장 적절한 관계명을 결정한다. 이러한 암묵적 관계 발견 기법은 지식베이스를 두 가지 관점에서 증강시킬 수 있다. 먼저 고유 개체 및 관계명의 숫자를 늘리지 않고 지식베이스의 연결 밀집도를 향상시키고 증강시킨다. 또한 이미 연결관계가 존재하는 개체쌍의 새로운 관계정보를 찾거나 관계명을 정규화하는 데 활용될 수 있다.