| 오늘 검색그룹에서 시맨틱이 무엇이며, 동향이 어떻게 되는지에 대한 내부 세미나를 진행하였다. 나야 물론 잘 모르는 분야이지만, 우리 회사가 한국을 넘어 아시아를 대표하는 시맨틱 대표기업이니, 관심이 많은 것은 사실이고, 특히..이미 알고 있어야 할 기술이기에 연말이라 바쁨에도 참석했다..
어려운 내용이어서..내가 끄적거린 내용이라곤 용어에 대한 설명..설명도 제대로 알아듣지 못해서..죄다 영어단어로 발표를 해주는 바람에..(핑계다)
암튼..궁금해서 포털에서 관련정보를 찾다가..아래 내용을 찾게 되었다..이미 아는 사람들은 다 봤었을..그런 내용일테지만, 한번 올려본다.. 요즘 시맨틱 검색이라고 너무 많은 기업들이 말들 하고 있는데, 제대로 된 시맨틱 검색은 분명 우리 회사에서 나올 것 같다..ㅎㅎ
출처 : on the NET
TTA 표준화 동향 | 시맨틱 웹의 새로운 변화 출판일 :2007년 5월
1998년 10월 웹의 창시자인 팀 버너스리는 자신의 홈페이지를 통해 시맨틱 웹에 대한 로드맵을 공개했으며, 이후 8년 여 동안 W3C는 시맨틱 웹 액티비티 그룹 산하의 워킹그룹을 통해 관련 표준을 개발했다.
이강찬 | 한국전자통신연구원 선임연구원
1998년 10월 웹의 창시자인 팀 버너스리는 자신의 홈페이지를 통해 시맨틱 웹에 대한 로드맵을 공개했으며, 이후 8년 여 동안 W3C는 시맨틱 웹 액티비티 그룹 산하의 워킹그룹을 통해 관련 표준을 개발했다. 2004년 2월까지 RDF(Resource Description Framework; 자원 기술 프레임워크)와 OWL(Ontology Web Language; 웹 온톨로지 언어) 표준 언어 개발 등의 시맨틱 웹을 위한 환경 조성에 초점을 둔 1단계 작업이 진행됐다. 이후 2단계 작업인 SPARQL, GRDDL, RIF(Rule Interchange Format; 규칙 언어 교환 포맷) 등의 표준안 개발을 통해 실제로 시맨틱 웹의 RDF/OWL이 이용될 수 있는 부분들에 초점을 두고 활동하고 있다. RDF/OWL 등의 온톨로지 언어 개발 이후, 다양한 마이크로 포맷들이 출현함과 동시에, 소위 말하는 메타 데이터의 처리를 위한 기술적 접근 방식이 다양하게 연구돼 왔으며, 국내에서도 가시적인 결과들이 보이고 있다. 이렇게 시맨틱 웹의 메타 데이터에 대한 기술을 RDF와 OWL에서 처리한다고는 하지만, 이를 웹으로 접목시키기에는 많은 문제점을 가지고 있었던 것이 사실이다. 실제로 많은 블로그에서 RSS(RDF Site Summary, Rich Site Summary; RDF 사이트 개요) 형태의 RDF 데이터를 제공하고 있고, 이를 RSS 피팅이나 RSS 브라우저 등에서 이용하고 있다. 하지만 이런 형태의 RDF 이용은 진정한 의미에서의 시맨틱 웹, 즉 데이터 통합이라고 보기는 어려운 것이 사실이다. 시맨틱 웹의 핵심 기술인 온톨로지란 특정 도메인(domain) 내에서 공유되는 데이터를 개념화한 형식적이고 명백한 규정이다. 이는 특정 분야에서 사용되는 표준 어휘들의 모음이라고 할 수 있으며, RDF와 OWL은 이런 온톨로지를 표현하는 언어다. 따라서 온톨로지 언어가 시맨틱 웹의 중심이 된다고는 할 수 있으나, 이를 웹과 접목시키는 일이 더 중요하다고 볼 수 있다. 접목의 의미를 다양하게 생각할 수 있지만, 첫째로 온톨로지와 XHTML과 결합돼야 하며, 둘째로 온톨로지 언어와 다른 언어 간의 자유로운 변환이 가능해야 한다. 바꿔 설명하면, XHTML과 같은 웹페이지와 RDF/OWL과 같은 온톨로지 언어가 독립적으로 구성되는 것이 아니라, 하나의 웹페이지에 관련된 온톨로지가 혼합 사용돼야 하며, 온톨로지 자체가 기계적인 처리가 가능(machine-processable)하기 위해 다른 언어 간의 변환이 용이해야 한다는 것이다.
XHTML에서의 RDF 이용 소위 말하는 온톨로지를 기존의 XHTML에서 유연하게 사용할 수 있도록 하는 방안을 2006년 중반부터 W3C가 제안하고 제공하고 있으며, GRDDL, RDFa 등이 HTML에서의 시맨틱 웹과 관련해 최근 개발하고 있는 표준이다. SPARQL은 RDF에 대한 질의 언어로 개발되고 있다. 각각의 주요 개념은 다음과 같다. - GRDDL(Gleaning Resource Descriptions from Dialects of Languages) : XHTML로부터 RDF를 추출하기 위한 명세로서 XSLT를 이용해 웹페이지에서 특정 어휘들을 추출하며, 프로파일 문서를 사용할 수 있음 - RDFa : XHTML에 구조화된 데이터를 포함시킬 수 있도록 속성(attribute)을 확장한 XHTML. 이를 통해 RDF를 XHTML에 임베딩하여 추가할 수 있는 메커니즘 제공 - SPARQL : W3C RDF Data Access WG에서 개발하고 있는 RDF에 대한 질의 언어와 프로토콜, 결과 포맷에 대한 규격
GRDDL은 전통적인 XML 형태의 변환(transform)을 이용해 XHTML에 이용되는 FOAF(Friend-of-a-Friend), 더블린 코어, RSS, hDoap(DOAP(Description of a Project)의 HTML 매핑 포맷) 등의 마이크로 포맷과 RDF 형태를 프로파일링 할 수 있으며, 그 모든 작업은 XHTML의 헤더 부분에서 이뤄진다. 이미 W3C에서는 GRDDL 프로세서(http://www.w3.org/2003/11/rdf-in-xhtml-demo)를 온라인 상에서 제공하고 있기 때문에 XHTML에 GRDDL 형태의 프로파일링을 통해 쉽게 테스트 해 볼 수 있다. XHTML에서의 GRDDL 프로파일 및 변환 규칙 설정 예는 다음과 같다.
<html xmlns='http://www.w3.org/1999/'> <head profile='http://www.w3.org/2003/g/data-view'> <title>Some Document</title> <link rel='transformation' href='http:…/dc-extract.xsl'/> ... </head> ... <span class='date'>2006-01-02</span> ... </html>
앞서의 dc-extract.xsl 파일을 이용한 RDF 변환의 예는 다음과 같다.
<rdf:Description rdf:about='…'>
<dc:date>2006-01-02</dc:date>
</rdf:Description> 결론적으로 GRDDL을 이용해 프로파일링과 변환에 대한 설정, 그리고 데이터에 대한 표현을 하고, 이를 GRDDL 프로세서 또는 XSLT(XSL Transformation; XSLT) 프로세서를 통하면, RDF 형태의 데이터가 추출된다. RDFa는 HTML의 요소를 확장해 속성 부분에 RDF의 특성을 프로파일링하는 표준안으로 2006년부터 개발에 착수해 현재 드래프팅 작업이 진행중이다. 다음은 XHTML에서의 RDFa 사용 예다.
<div about='http://uri.to.newsitem'>
<span property='dc:date'>March 23, 2004</span>
<a href='http://www.a.b.c/d.avi' rel='dcmtype:MovingImage'>
also video footage</a>…
</div> 이렇게 생성된 RDFa의 변환은 다음과 같은 식으로 이뤄진다.
<http://uri.to.newsitem>
dc:date 'March 23, 2004';
dcmtype:MovingImage <http://www.a.b.c/d.avi>. 또한, SPARQL은 SQL과 비슷하게 RDF에 대한 질의 언어를 규격화 한 명세이다. 기본적으로 RDF에서 검색 결과로 보고자 하는 부분에 대해서 SELECT 절에 명세를 하고, FROM 절에는 대상 RDF를 열거하며, WHERE 절에는 조건에 해당하는 부분이 기술된다. 현재 SPARQL은 http://www.sparql.org/을 통해 SPARQL 질의에 대한 검증을 할 수 있으며, 다양한 SAPRQL 질의 엔진과 프로그램이 개발(http://esw.w3.org/topic/SparqlImplementations)돼 있다. 다음은 SPARQL의 사용 예다.
SELECT DISTINCT ?name ?home ?orgRole ?orgName ?orgHome
FROM <http://www.w3.org/People/Ivan/>
FROM <http://www.w3.org/Member/Mail/>
WHERE {
?foafPerson foaf:mbox ?mail;
foaf:homepage ?home.
} 실제로 SPARQL은 점차 주목받고 있는데, 이에 대한 가장 큰 이유는 데이터베이스와 마찬가지로 시맨틱 웹도 일반인이 쉽게 사용할 수 있는 질의 언어가 있으며, 이런 질의 언어를 통해 쉽게 사용자가 원하는 질의를 하고, 그 결과를 받을 수 있기 때문이다. 이런 이유 때문에 시맨틱 웹을 위한 다양한 질의 언어가 제안됐으며, W3C에서는 SPARQL이라는 질의 언어를 개발하고 있는 것이다. 지금까지 설명한 시맨틱 웹의 RDF, RDFa, GRDDL, SPARQL 등이 (그림 2)와 같이 이용되면, 웹 데이터의 통합을 테스트해 볼 수 있다. 실제로 SPARQL을 통합의 도구로서 텍사노미 통합, 미국 NCBI(National Center for Biotechnology Information)에서의 바이오 정보 통합, Alzheimer 포럼의 항체 통합, 제놈 데이터 통합 등이 이용되고 있다.
시맨틱 웹의 본질은 시맨틱 처리 시맨틱 웹의 본질적인 변화는 없다. 다만, 지금까지 시맨틱 웹에 대해 대다수의 사람들이 인식하고 있는 것은 온톨로지였으며, 이와 관련한 기술 개발이 중심이 된 것은 사실이다. 하지만 더 중요한 것은 웹에서의 시맨틱 처리가 가능해야만 본질적인 시맨틱 웹이 가능해질 수 있다는 것이다. 이를 위한 노력이 W3C에서 진행 중이며, 실생활에서도 이와 같은 시맨틱 웹이 이용될 수 있다. 결론적으로, 국제적으로는 XHTML이 단순한 문서를 위한 웹페이지로서 이용되는 것이 아니라, 기계적 처리가 가능한 데이터 집합소로서의 역할도 수행하며, 데이터 통합의 주요 수단으로 이용될 수 있다. 또한 웹페이지에서 쉽고 편리한 방법으로 데이터를 교환하고 재사용할 수 있는 방법에 대한 연구도 진행되고 있음로, 국내 기술 개발도 이런 부분을 간과해서는 안될 것이다. |