'검색엔진'에 해당되는 글 2건

  1. 2008.05.26 CLucene 빌드/데모 테스트
  2. 2008.05.13 새로운 검색엔진 PowerSet (2)


눈큰아이입니다.

지난 주말에 Lucene에 대해 조금 볼 여유가 생겨서..우선 빌드를 해보았습니다.

어떤 버전을 볼까 생각하다가, 저는 아무래도 아직까지는 C/C++이 편한 언어이기 때문에.. 자바로 개발된 루씬 오리지널(?) 보다는 CLucene으로 이용해 보기로 했습니다.  물론 자바 메인에 비해서 native할 수 있기 때문에 속도가 향상될 수도 있을 것이지만, 자바 프로젝트에 투입되는 인력에 비해 적은 인력이고, 자바를 포팅하는 방식으로 구현되기 때문에 예전 버전을 기준으로 동작할 가능성이 있습니다. 저는 루씬의 기본 기능과 구조를 파악하고자 하는 것이 목적이었으므로 CLucene을 사용한다고 해서 별 문제가 될 것은 없었지요.

회사에서 사용하는 컴파일러가 VC++ 8.0(2005)인데, 프로젝트는 7.0까지 있더군요. 그냥 위저드를 이용해서 버전업을 했는데 별 문제없이 빌드되었습니다.
그런데 cl_demo프로젝트는 링크에서 오류가 있더군요. 그래서 뒤적뒤적해보니, 프로젝트 설정에서 CLucene과 Test는 MBCS를 사용하는데, cl_demo만 unicode를 사용하는 것으로 되어있더라구요. 바로 이 부분만 수정해주니 okay! 완료되었습니다.

기본동작은 하네요.:)
조금씩 CLucene에 대해 살펴봐야 할 것 같습니다. :)


CLucene demo program screenshotCL_DEMO : CLucene Demo application for consol


Posted by NeoZest


눈큰아이입니다.

자주 가보는 jaso님 블로그에 새로운 검색엔진인 PowerSet을 소개하는 포스트가 올라와있네요.
간략하게 10여분 사용해본 느낌입니다.

구문단위를 고려한 정렬이 지원되는군요.

고급 검색  조건

기사단위로 정렬할 것인지, 구문단위로 정렬할 것인지를 선택하는 고급옵션


눈에 띄는 재미있는 기능중 하나는 자연어를 이용한 검색 결과 필터링을 지원하는군요.
다음 그림은 Korea로 검색한 결과입니다.
검색결과 상단에 Factz라는 것이 나오는데... 검색결과를 제한해서 표시합니다.
첫 단어인 Korea는 검색어이구요.
그다음 동사와 명사가 나옵니다.
그래서 그중 하나를 선택하면 해당 구문에 맞는 결과만 나옵니다.
Used와 같이 있는 calendar를 선택하면 "Korea Used Calendar"라는 구문으로 검색을 한 결과가 되는 셈이구요. panokseon(판옥선)을 선택하면 "korea used panokseon"으로 검색한 결과가 되는 셈입니다.
이런 예를 제시해 주기 때문에 사용자는 자신이 원하는 바를 쉽게 정돈해서 볼 수 있는 장점이 있겠네요.

자연어 검색

Korea로 검색한 결과



검색엔진을 하나의 블로그 콘텐츠처럼 북마크처리할 수 있게도 해주는군요.

사용자 삽입 이미지


여러 검색엔진들이 나옵니다만, 이제는 검색기술도 기술이지만,
콘텐츠 소스에 대한 고민도 많이 진행되는군요.


결국 웹 검색보다는 지식인 검색이, 지식인검색보다는 블로그 검색이 주목받았던 까닭은 기술적인 측면보다는 검색콘텐츠의 신뢰성이 더 주효하지 않았나 생각됩니다. 이런 점들을 고려할때 전문 DB(이때 전문은 full-text가 아닌 specialized)가 앞으로 주목받을 것 같습니다. 다만 그러한 콘텐츠를 가진 업체는 이를 활용하기 보다는 그냥 소장의 가치를 인정하는 쪽이 많고, 또한 해당 콘텐츠 업체 입장에서 보면 적절한 수익모델이 없기 때문에 당분간은 자발적으로 양질의 콘텐츠를 쏟아내는 블로그가 검색의 주요 대상이 될 것 같습니다. :)

만구 내 생각('만구'-> 단지, 다만, 그냥 등의 복합적인 의미를 가진 사투리)


Posted by NeoZest