몇 일 전 국내 유명 블로거의 구글 페이지랭크(PageRank)가 변경돼 블로거 사이에서 페이지랭크에 대한 관심이 증폭됐다. 구글을 세계 1위 검색 사이트로 만든 가장 강력한 무기인 페이지랭크에 대해 알아보자.
래리 페이지와 세르게이 브린이 구글을 창업한 1998년도만 해도 인터넷 검색의 최고 강자는 알타비스타(Altavista)였다. 1위 포털사이트인 야후도 알타비스타의 기술을 빌려다 사용하고 있었다. 당시 다른 검색 사이트와 마찬가지로 알타비스타도 페이지 내의 글을 가지고만 검색 결과에 나타나는 순위를 정했다. 알타비스타는 대략 다음과 같은 방법으로 웹페이지를 평가한 다음 점수를 부여해 검색 결과 순위를 결정했다.
-제목에 해당 단어가 있으면 가중치가 붙는다. -굵게 처리 된 부분에 해당 단어가 있으면 가중치가 붙는다. -일반명사나 조사와 같은 평범한 단어가 아니라 특이한 단어가 일치되면 가중치가 붙는다. -검색하려는 단어가 페이지 내에 가까이 붙어 있으면 가중치가 붙는다. -검색하려는 단어가 여러 번 중복되어 있으면 가중치가 붙는다. |
실제 알타비스타의 검색 공식은 위에 것보다 복잡했지만 모두 페이지 내용을 보고 경중을 따지는 방식이기 때문에 내가 만든 웹페이지를 알타비스타 검색 결과 상위에 노출하려고 하면 위에 규칙만 따라 웹페이지를 작성하면 됐다. 따라서 알타비스타는 아무런 내용 없이 이런 규칙만을 따라 만든 사이트가 검색 결과 상위에 배치되는 문제로 큰 골치에 빠져 있었다.
이때 구글은 페이지랭크라는 기술을 들고 나와 패러다임을 바꾸었다. 페이지랭크는 다른 웹페이지에 링크가 많이 걸려 있을수록 가치있는 웹페이지로 인정해 검색 결과 상위에 배치한다. 페이지랭크는 구글 창업자인 래리 페이지와 세르게이 브린 두 사람이 스탠포드 대학 시절 연구 논문을 작성하면서 아이디어를 얻었다. 많이 참조된 논문이 가치 있는 논문이라는 학계의 오랜 정설을 따르고 있다.
페이지랭크의 가장 큰 장점은 다른 웹페이지와의 관계로 가치를 평가하기 때문에 혼자서 조작이 힘들다는 것이다. 여러 사람들이 연합해 조작하는 것을 막기 위해 다양한 장치를 두었다는 특징도 있다.
-모든 페이지는 0~10까지 페이지랭크 값을 가진다. 신뢰성이 적은 사이트는 0, 높은 사이트는 10이다. -모든 페이지는 링크를 걸면 해당 사이트에 페이지랭크를 부여해준다. 다른 사이트로부터 링크가 많이 걸리면 내 페이지의 페이지랭크가 올라간다. -내가 링크를 걸 때마다 링크가 걸린 사이트는 페이지랭크를 나눠서 부여받는다. 내 페이지 랭크가 10일때 2군데에 링크를 걸어주면 상대방은 각각 5만큼 페이지랭크를 부여받는다. 따라서 페이지랭크를 높이기 위해 링크를 남발하거나 페이지랭크가 낮은 사이트로부터 링크가 걸리는 것은 도움이 되지 않는다. |
조작이 어려운 페이지랭크의 특성으로 인해 경쟁자들이 악의적인 스팸 페이지로 고생할 때 구글은 안전할 수 있었다. 페이지랭크는 창업자들이 스탠포드 대학원 시절 발표한 ‘대규모 하이퍼텍스트 웹 검색엔진의 해부’(The Anatomy of a Large-Scale Hypertextual Web Search Engine)를 기반으로 하고 있고 특허 권리는 스탠포드 대학에 있다.
연구자의 권리를 인정해 페이지랭크 기술은 2010년까지 구글만 사용할 수 있다. 구글을 만든 핵심 경쟁력인 페이지랭크는 내년이면 다른 사업자도 사용할 수 있게 된다. 구글이 계속 경쟁력을 유지할 수 있을지 궁금해지는 대목이다.