딥다이브(DeepDive)
빅데이터는 수학에 뿌리를 두고 있으며 학계의 관심을 상용화하기 가장 유리한 분야다. 그리고 현재 이 분야에서 가장 많이 주목받고 있는 패키지 가운데 하나로는 비정형 텍스트 발굴 툴인 딥다이브가 있다. 정형 데이터와 관련한 빅데이터 프로젝트들이 성과의 한계에 도달해가는 상황에서 딥다이브는 로우 텍스트 파일과 여타 체계화되지 않은 파일들 사이의 연관성을 발견하는 작업에 초점을 맞춘다.
이 자바 코드는 자연어를 실체(인물, 장소, 기업, 대상 등)의 연속으로 해부하는 툴을 이용해 로우 데이터를 처리하는 파이프라인(pipeline)을 구동한다. 분해된 실체 스트림은 통계 알고리즘을 통해 그 안의 관계(그것이 명료하게 해석되지 않더라도)를 분석하는 과정을 거치게 되고, 이로써 도출된 결과물은 명확한 추론으로 압축돼 기존 데이터베이스에 추가된다.
텍스트의 형식과 쿼리의 특성, 작성물의 명확성 등에 따라 결과물은 매우 다양하게 도출되지만, 기본적으로 그 결과물의 품질은 인간이 직접 도출하는 것보다 우수하다. 딥다이브를 이용한 일부 실험에서 개발자들은 이 도구가 ‘복잡한 과학 기사 등을 분석하는 과정에서도 인간 주석자보다 정확도와 재현율이 모두 보다 뛰어나다’는 사실을 확인하기도 했다.
연구기관 : 스탠포드대학교
프로젝트 : http://deepdive.stanford.edu/
깃허브 : https://github.com/HazyResearch/deepdive