며칠 전에 Journal of Chemical Information and Modeling에 재미있는 논문이 실렸다. 바로 Similarity by Compression이라는 제목의 논문이다. 제목이 암시하는 것처럼 일반적으로 사용되는 압축 프로그램인 gzip이나 bzip2를 이용해서 화합물의 canonical SMILES를 압축한 후에 그 유사도를 보는 것을 내용으로 하고 있다.
이게 재미있는게, 압축 알고리즘이 반복되는 정보의 패턴을 이용해서 저장 공간을 줄이는 것이기 때문에, canonical SMILES와 같은 line notation을 사용하는 경우에, 특히 그 문자열의 종류와 위치가 중요한 경우에 화합물의 유사도를 나타내는데 쓰기가 좋다는 점이다. 특히나 이런 일에 공개되어 있는 압축 프로그램을 사용한다는 발상 자체가 재미있게 느껴졌다.
그리고 이런 일을 할 수 있는 zippity라는 이름의 프로그램을 루비로 개발해서 공개를 해 놓았다. depth-first 블로그에 이 프로그램 및 논문에 관한 블로그 글이 올라왔다.
역시 연구는 아이디어로 하는거고, 재미있는 아이디어는 누구에게나 재미있는 것이다. 내게 중요해 보이고 좋아보이는 것은 남들에게도 좋아보이는게 당연하다. 오늘 오전에 이 논문으로 접속을 하려고 했는데, 접속이 몰려서 서비스를 이용할 수 없다는 메시지가 나왔었다. 다른 논문들은 문제가 없는걸로 봐서, 이 논문에 대한 요청이 많았던 것이 아닐까 하는 추측을 했다. 좋은 논문은 많은 사람들이 보고싶어 하는게 당연한 일이 아니겠는가… 그치만 서비스가 중지될 정도로 많이?


