Similarity by Compression

12월 14, 2006

며칠 전에 Journal of Chemical Information and Modeling에 재미있는 논문이 실렸다. 바로 Similarity by Compression이라는 제목의 논문이다. 제목이 암시하는 것처럼 일반적으로 사용되는 압축 프로그램인 gzip이나 bzip2를 이용해서 화합물의 canonical SMILES를 압축한 후에 그 유사도를 보는 것을 내용으로 하고 있다. 이게 재미있는게, 압축 알고리즘이 반복되는 정보의 패턴을 이용해서 저장 공간을 줄이는 것이기 때문에, canonical SMILES와 같은 line notation을 사용하는 경우에, 특히 그 문자열의 종류와 위치가 중요한 경우에 화합물의 유사도를 나타내는데 쓰기가 좋다는 점이다. 특히나 이런 일에 공개되어 있는 압축 프로그램을 사용한다는 발상 자체가 재미있게 느껴졌다. 그리고 이런 일을 할 수 있는 zippity라는 이름의 프로그램을 루비로 개발해서 공개를 해 놓았다. depth-first 블로그에 이 프로그램 및 논문에 관한 블로그 글이 올라왔다. 역시 연구는 아이디어로 하는거고, 재미있는 아이디어는 누구에게나 재미있는 것이다. 내게 중요해 보이고 좋아보이는 것은 남들에게도 좋아보이는게 당연하다. 오늘 오전에 이 논문으로 접속을 하려고 했는데, 접속이 몰려서 서비스를 이용할 수 없다는 메시지가 나왔었다. 다른 논문들은 문제가 없는걸로 봐서, 이 논문에 대한 요청이 많았던 것이 아닐까 하는 추측을 했다. 좋은 논문은 많은 사람들이 보고싶어 하는게 당연한 일이 아니겠는가... 그치만 서비스가 중지될 정도로 많이?