http://www.sphinxsearch.com/docs/current.html
http://www.sphinxsearch.com/wiki/doku.php?id=charset_tables
http://code.google.com/p/sphinxsearch/source/browse/
http://code.google.com/p/sphinxsearch/source/browse/branches/rel099/api/sphinxapi.php
http://code.google.com/p/sphinxsearch/source/browse/branches/rel099/api/test.php


1. 설치

정도는 알아서...-_-;
emerge app-misc/sphinx 하면 끝나는 환경에 있는 사람이 이 이상 자세하겐 무리~



2. sphinx.conf

다국어 검색을 위해 각각의 문자범위를 일일히 conf 에 적어줘야 한다.
게다가 한줄 길이 제한까지 있어서 정규식으로 대충 정리해 넣었다.
원본 테이블은
http://www.sphinxsearch.com/wiki/doku.php?id=charset_tables
요기 맨 앞의 txt 링크이다.
conf 파일은 첨부한다.



3. query

스핑크스는 인덱싱 할 데이터가 많을 경우를 위해 범위를 나눠 쿼리해 오는 것이 가능하고,
새 범위만 인덱싱을 한 후 기존 인덱스 정보에 병합하는 것이 가능하다.
본 예제는 새 범위 인덱싱 후 병합으로 설명한다.

스핑크스의 쿼리문은 맨 앞의 것이 반드시 고유번호(sequence) 여야 하며,
그 필드명이 무엇이 되었든 간에 스핑크스 내에서는 무조건 id 이다.


source main 중
sql_query = \
SELECT seq, uid, author, subject, contents \
FROM xenobb_sphinx_view \
WHERE sphinx_indexed = TRUE

테이블에 sphinx_indexed 라는 필드를 추가했고, main 은 이미 인덱싱 된것만 쿼리하게 했다.

source delta : main 중
sql_query = \
SELECT seq, uid, author, subject, contents \
FROM xenobb_sphinx_view \
WHERE sphinx_indexed = FALSE

sql_query_post = UPDATE xenobb SET sphinx_indexed = TRUE WHERE sphinx_indexed = FALSE

인덱싱 되지 않은 것을 쿼리해 온 후 인덱싱 되었다고 표기해 준다.



4. indexer

conf 를 다 작성했으면 인덱스를 생성한다.
$ indexer main
$ indexer delta



5. crontab

searchd 가 대몬이라 알아서 계속 인덱싱 해 줄줄 알았는데 안되나보다.

#!/bin/bash
cd /home/xenoside/sphinx
if [ -f need_indexing ]; then
    rm need_indexing
    indexer delta --rotate
    indexer --merge main delta --rotate
    #if [[ "x`date +%H%M`" == "x0400" ]]; then
    #    indexer main --rotate
    #fi
fi

* * * * * (매분) 으로 걸어주자.

게시판에서 insert, update, delete 가 발생하면 /home/xenoside/sphinx/need_indexing 파일을 빈 파일로 생성해 주면 1분 내에 인덱싱 된다.

주석 부분은 찔끔찔끔 병합되는 main 인덱스가 혹 느려지면 새로 인덱싱 시키기 위한건데 전체가 재 인덱싱 되므로 굳이 자동으로 할 필요 없이 느려졌다 생각되면 한번 해 주면 된다.



6. searchd

/etc/init.d/searchd start
rc-update add searchd default
배포판 별로 알아서 시작 스크립트에 넣어주자~



7. php
http://code.google.com/p/sphinxsearch/source/browse/branches/rel099/api/sphinxapi.php
요거를 이용한다.
자세한 예제는
http://code.google.com/p/sphinxsearch/source/browse/branches/rel099/api/test.php
요기잉다.

아래는 랭킹이고 순서고 다 필요 없이 걍 검색해 오는 간단 예제이다.

if(isset($_GET['q'])) {
$_GET['q'] = trim($_GET['q']);
if($_GET['q'] != '') {
require_once 'sphinxapi.php';
$cl = new SphinxClient();
$cl->SetServer('/var/run/searchd.sock', 5433);
$cl->SetConnectTimeout(1);
$cl->SetArrayResult(true);
$cl->SetWeights(array(100, 1));
$cl->SetMatchMode(SPH_MATCH_ALL);
$cl->SetLimits(0, 100);
$cl->SetRankingMode(SPH_RANK_NONE);
if(false !== ($res = $cl->Query($_GET['q'], '*'))) {
$seqs = array();
foreach($res['matches'] as $row) {
$seqs[] = $row['id'];
}
if(count($seqs) != 0) {
$sel->wheres[] = 'bb.seq IN ('.implode(',', $seqs).')';
}
}
}
}


매뉴얼 잘 보면 실제 쿼리문 처럼 순서 정하고 limit 해 오고 하는 것 다 된다.



Written by Song Hyo-Jin (shj at xenosi.de)
License : Creative Commons - Attribution (CC-BY)
출처 : http://www.phpschool.com/link/tipntech/71173

'Search Engine > Sphinx' 카테고리의 다른 글

스핑크스 설정  (0) 2012.06.05
Sphinx  (0) 2012.02.13
sphinx 검색엔진 한글 검색 설정  (0) 2012.02.13
스핑크스(sphinx) 검색 엔진 reindex  (1) 2012.02.13
스핑크스(sphinx) 검색엔진 설치 및 유니코드 셋팅  (0) 2012.02.13

내 블로그나 홈페이지에 검색엔진을 장착해 보고 싶다면 엔진으로 스핑크스(Sphinx)를 선택해보는 것도 좋을 것 같습니다. 오픈 소스이고 PHP, Perl, C/C++, 등의 프로그래밍 언어 API 를 제공하고 있으므로 PHP 로 개발된 텍스트큐브와 같은 설치형 블로그에 검색을 붙이려면 PHP 용 API 를 이용하며 될 것입니다. 이미 텍스트큐브에도 검색이 있지만 레코드수가 많아서 검색해야할 항목이 많아질 경우 검색 시간이 많이 소요되고 복잡한 조건의 검색을 할 수 없는 문제가 있습니다. 개발언어를 다룰 수 있다는 조건 하에 스핑크스 검색엔진을 사용해볼 것을 권해봅니다.
스핑크스 검색엔진이 어떤 것인지 체험 해보려면 간단히 아래에 설명하는 방법으로 설치하고 테스트 해보면 됩니다. 참고로 리눅스 CetOS 5.x 에서 테스트 되었습니다. 물론 소스 코드가 공개 되어 있으므로 윈도우즈와 다른 리눅스, 유닉스 계열 OS 를 사용할 수 있습니다.

[root@sphinx ~]# yum -y install mysql-devel
[root@sphinx ~]# cd /usr/local/src
[root@sphinx src]# wget http://www.sphinxsearch.com/downloads/sphinx-0.9.8.1.tar.gz
[root@sphinx src]# tar xvzf sphinx-0.9.8.1.tar.gz
[root@sphinx src]# cd sphinx-0.9.8.1
[root@sphinx sphinx-0.9.8.1]# ./configure
[root@sphinx sphinx-0.9.8.1]# make
[root@sphinx sphinx-0.9.8.1]# make install


위와 같이 설치하면 아래와 같은 스핑크스 관련 파일들이 기본 폴더(/usr/local/bin)에 설치됩니다.

  /usr/local/bin/indexer
  /usr/local/bin/searchd
  /usr/local/bin/search
  /usr/local/bin/spelldump

또한 아래와 같은 설정 파일 샘플과 MySQL 용 SQL 샘플이 설치됩니다.

 /usr/local/etc/sphinx.conf.dist
 /usr/local/etc/sphinx-min.conf.dist
 /usr/local/etc/example.sql

MySQL 에 접속해서 테스트용 데이타베이스(test) 를 만들고 user 와 password 를 만들고 이 데이타베이스(test)에 권한을 부여 합니다. test로 데이타베이스를 정할 경우 이미 생성되 있으므로 권한 부여만 합니다.

[root@sphinx sphinx-0.9.8.1]# mysql -uroot -p
Enter password: ********
Welcome to the MySQL monitor.  Commands end with ; or g.
Your MySQL connection id is 116
Server version: 5.0.45 Source distribution
 
Type 'help;' or 'h' for help. Type 'c' to clear the buffer.
 
mysql> grant all privileges on test.* to user@"localhost" identified by "password";
Query OK, 0 rows affected (0.05 sec)

mysql> flush privileges;
Query OK, 0 rows affected (0.01 sec)
 
mysql> exit
Bye
[root@sphinx sphinx-0.9.8.1]#


데이타베이스 설정이 완료 되었으면 스핑크스 셋팅 파일을 만들어줍니다.

[root@sphinx sphinx-0.9.8.1]# vi /usr/local/etc/sphinx-min.conf.dist
[root@sphinx sphinx-0.9.8.1]# cp /usr/local/etc/sphinx-min.conf.dist /usr/local/etc/sphinx.conf
[root@sphinx sphinx-0.9.8.1]# cat /usr/local/etc/sphinx.conf
#
# Minimal Sphinx configuration sample (clean, simple, functional)
#
source src1
{
        type                                    = mysql
 
        sql_host                                = localhost
        sql_user                                = user
        sql_pass                               = password
        sql_db                                  =
test
        sql_port                                = 3306  # optional, default is 3306
 
        sql_query                               =
                SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content
                FROM documents
 
        sql_attr_uint                   = group_id
        sql_attr_timestamp              = date_added
 
        sql_query_info                  = SELECT * FROM documents WHERE id=$id
}
index test1
{
        source                                  = src1
        path                                    = /var/data/test1
        docinfo                                 = extern
        charset_type                    = sbcs
}
indexer
{
        mem_limit                               = 32M
}
searchd
{
        port                                    = 3312
        log                                             = /var/log/searchd.log
        query_log                               = /var/log/query.log
        read_timeout                    = 5
        max_children                    = 30
        pid_file                                = /var/log/searchd.pid
        max_matches                             = 1000
        seamless_rotate                 = 1
        preopen_indexes                 = 0
        unlink_old                              = 1
}
[root@sphinx sphinx-0.9.8.1]#


나 의 데이타베이스 설정에 맞게 위와 같이 설정이 완료되면 아래와 같이 스핑크스에서 제공하는 샘플 테이블을 MySQL 에 만들어줍니다. 그리고 커멘드라인 프로그램 indexer 를 실행해서 검색을 위한 인덱스를 생성합니다. 인덱싱이 완료 되면 커멘드라인 프로그램 search 를 실행해서 검색을 할 수 있습니다.

[root@sphinx sphinx-0.9.8.1]# mysql -uroot -p test < /usr/local/etc/example.sql
Enter password: ********
[root@sphinx sphinx-0.9.8.1]# mkdir /var/data
[root@sphinx sphinx-0.9.8.1]# indexer test1
[root@sphinx sphinx-0.9.8.1]# search number
Sphinx 0.9.8.1-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff
 
using config file '/usr/local/etc/sphinx.conf'...
index 'test1': query 'number ': returned 3 matches of 3 total in 0.000 sec
 
displaying matches:
1. document=1, weight=1, group_id=1, date_added=Sat Dec  6 11:42:12 2008
        id=1
        group_id=1
        group_id2=5
        date_added=2008-12-06 11:42:12
        title=test one
        content=this is my test document number one. also checking search within phrases.
2. document=2, weight=1, group_id=1, date_added=Sat Dec  6 11:42:12 2008
        id=2
        group_id=1
        group_id2=6
        date_added=2008-12-06 11:42:12
        title=test two
        content=this is my test document number two
3. document=4, weight=1, group_id=2, date_added=Sat Dec  6 11:42:12 2008
        id=4
        group_id=2
        group_id2=8
        date_added=2008-12-06 11:42:12
        title=doc number four
        content=this is to test groups
 
words:
1. 'number': 3 documents, 3 hits
 
[root@sphinx sphinx-0.9.8.1]#


위와 같이 인덱싱이 완료되고 search 커멘드라인 명령어를 이용해 "number" 라는 검색어(키워드)로 검색하면 검색결과 3개의 문서가 검색되었다고 알려줍니다.
PHP 로 검색엔진을 제어하기 위해 아래와 같이 검색 데몬(searchd)을 띄우고 PHP 용 API 를 이용해서 검색할 수 있습니다.

[root@sphinx sphinx-0.9.8.1]# /usr/local/bin/searchd
Sphinx 0.9.8.1-release (r1533)
Copyright (c) 2001-2008, Andrew Aksyonoff
 
using config file '/usr/local/etc/sphinx.conf'...
creating server socket on 0.0.0.0:3312
[root@sphinx sphinx-0.9.8.1]# cd api
[root@sphinx api]# php test.php number
Query 'number ' retrieved 3 of 3 matches in 0.000 sec.
Query stats:
    'number' found 3 times in 3 documents
 
Matches:
1. doc_id=4, weight=100, group_id=2, date_added=2008-12-06 11:42:12
2. doc_id=1, weight=1, group_id=1, date_added=2008-12-06 11:42:12
3. doc_id=2, weight=1, group_id=1, date_added=2008-12-06 11:42:12
[root@sphinx api]#


위 와 같이 검색 데몬 searchd 를 띄우고 샘플 PHP 소스 파일 test.php 를 실행하면 검색 결과를 확인할 수 있습니다. 샘플 소스 상단을 보면 sphinxapi.php 라는 파일을 Include 합니다. 이것이 PHP 용 API 입니다.

간단하게 스핑크스를 설치하고 테스트도 해봤습니다. 이제 내 블로그 데이터를 인덱싱하고 이를 검색할 수 있도록 검색 페이지를 만드는 일만 남았습니다.

오픈 소스 검색 엔진 스핑크스(Sphinx) 홈페이지
    -
http://www.sphinxsearch.com/
스핑크스(Sphinx)로 PHP로 커스텀 검색 엔진 구현하기
    -
http://www.ibm.com/developerworks/kr/library/os-php-sphinxsearch/index.html

출처 : http://v2.kitiwit.com/

sphinx 검색엔진 설정을

  charset_type  = utf-8
  charset_table = 0..9, A..Z->a..z, _, a..z, U+AC00..U+D7A3, U+1100..U+1159, U+1161..U+11A2, U+11A8..U+11F9
  ngram_len      = 1
  ngram_chars = U+AC00..U+D7A3

이렇게 하면 끝-

출처 http://spat.egloos.com/5241033



1. 서론

  스핑크스(sphinx) 1.x 버전에서 부터는 RT Index를 지원을 해주고 있다. 하지만 설명에서 이것저것 지원이 안되는 기능들이 좀 있는 것 같아 merging index를 테스트 해보기로 했다. 이 부분 또한 사이트(http://www.sphinxsearch.com)에 설명이 되있다. 하지만 이거 하면서 삽질한것들을 나중에 사이트만 보고 다시 하게 되면 또 할듯 해서 이렇게 글로 남겨 놓는다.


2. 목적

  documents라는 테이블에 100개의 row가 존재한다고 해보자. 우리는 이 100개의 row를 indexing해서 search 하게 될것이다. 그런데 여기서 추가적으로 10개의 데이터가 들어와 총 데이터가 110개가 됐을 경우를 생각해 보자. 이 경우 우리는 어떻게 해야 할까? 새롭게 Indexing을 해야 할까? 지금 예를 든것과 같이 데이터가 작을 경우는 문제가되지 않겠지만 데이터가 900만건 정도 되는 큰 데이터일 경우 상당한 문제가된다. 대략 1분 40초 가량의 인덱싱 시간을 소비하게 되는데 이걸 매번 할수는 없는 일이다. 비용적으로 말이 안된다. 그렇기 때문에 ReIndexing이 필요하다.


3. 테이블 정보 셋팅

  사이트에 보면은 main과 delta 라는 인덱스를 생성하고 delta라는 인덱스를 이용해 main에 최신 데이터를 갱신해 주게끔 설명이 되있어 설명에 따라 테스트를 진행했습니다.


테이블 정보(스핑크스 샘플 및 사이트의 예제를 통해 만든 테이블) :

document_counter(counter_id,max_doc_id)

documents(id, group_id, group_id2, date_added, title, content)


  1) document_counter의 경우 main 인덱스가 인덱싱한 documents의 마지막 id 값을 가지게 됩니다.

  2) documents의 경우는 실질적인 데이터를 가지게 됩니다.


4. sphinx.conf 셋팅

  config 파일의 경우 내용이 좀 길어서 첨부하겠습니다. 그리고 필요한 부분만 따로 글로 옮기겠습니다.


  - source main

    이곳에서는 쿼리만을 보면 될듯 합니다.

    그리 어렵지 않으니 한번 보면 알수 있을듯 합니다.

  우선 REPLACE INTO 부분을 보시게되면은 documents에 id의 max값을 구해 document_counter에 넣어주는것을 볼수 있습니다. 이것은 아래 sql_query를 보면은 왜 이렇게 하는지 알수 있을 겁니다. 결국 main의 인덱싱 되는 데이터의 범위를 정해주는 역할을 합니다.


  - source delta : main

    delta의 경우 main을 상속(?) 받습니다. 상속이라는 말이 맞는지 모르겠습니다. 하지만 여기서도 쿼리를 구성해서 실행을 하게 됩니다. 아래의 그림의 쿼리를 보게되면 main과 반대로 새로 들어온 데이터를 로드해오는것을 알수 있습니다. 결국 delta의 경우 최신 데이터를 가지고 있게 됩니다.


  중요한 부분은 여기까지입니다 그리고 나머지는 index 부분이 있는데 이 부분은 경로 및 charset_ 등을 셋팅해주는 작업이니 첨부된 config 파일을 보시면 알수 있을 듯 합니다.


5. 사용

  config가 셋팅이 됐다면 이제 해야 할 일은 indxer를 이용해 인덱싱 하는 일만 남았습니다.

  bash$ indexer main

  bash$ indexer delta


  데이터를 삽입 후

  bash$ indxer delta

  bash$ indexer --merge main delta --rotate


  ※ 저 같은 경우 위의 경우를 하는데 에러가 나서 한참 삽질을 했는데요. 결국 원인은 config 셋팅 문제 였습니다. 만일 안된다고 하시면 config 셋팅 부분을 다시 한번 살피시는게 좋을듯 합니다.


  위와 같이 indexer를 이용해 merge 한 후 search를 이용해 검색을 하게 되면 아래와 같이 main과 delta 두 군데에서 결과를 얻을수 있게 됩니다. 만약 데이터가 한쪽에만 있다고하면 한쪽에서 검색이 됩니다.


 

이게 스핑크스(sphinx)에서 말하는 분산 인덱스 기능인듯 합니다. 여러개로 인덱스를 나눠 놓고 search를 할 경우 searchd에서 알아서 여러개의 인덱스 파일에서 데이터를 match 시켜 찾는 겁니다. 분산처리를 하게 될 경우 매우 유용할듯 하지만 현재 테스트 중인 저에게는 그다리 필요가 없네요^^;


6. 마치며

  config 셋팅 때문에 삽질좀 했습니다. 테스트 할것들이 한두개가 아닌데 테스트 할 부분 정리를 하다가 갑자기 reindexing이 생각이 나서 찾아서 만들어 본다는게 시간이 꾀 걸렸네요. 이 다음에는 시스템 리소스를 얼마나 효율적으로 사용을 할수 있는지 조사를 해봐야 할듯 합니다. 이 부분 빨리 테스트를 진행하고 api를 활용해서 검색 부분을 만들어봐야 할듯 합니다. 


1. 준비물

   1) 스핑크스(sphinx) 다운로드- http://sphinxsearch.com/downloads/

   2) MySQL 다운로드 - http://dev.mysql.com/downloads/


2. 설치

   1) 다운로드 받은 스핑크스 파일을 /usr/local/src/ 경로에 복사

   2) tar xvfz sphinx-2.0.1-beta.tar.gz 압축 해제

   3) 스핑스크 압축 해제 후 폴더로 이동

   4) ./configure

   5) make (조금 기다려야 합니다.)

   6) make install


   위의 6단계를 거치면 우선 스핑스크 설치는 완료입니다. 제대로 설치 됐는지 확인을 해봐야겠죠..?

 

3. 컴피그 셋팅 및 한글 셋팅

  - 우선 /usr/local/etc/을 확인 합니다.

   파일 리스트를 확인하게 되면

   example.sql - 샘플로 사용할 테이블 정보 및 데이터 정보 쿼리가 들어 있습니다.

   sphinx-min-conf.dist - 잘 모르겠네요..ㅎ

   sphinx.conf.dist - DB 정보, 캐릭터 셋 정보, 인덱스 정보 등의 설정 정보를 담고 있습니다.


   위 파일 중 sphinx.conf.dist의 데이터를 수정합니다.

  1) 우선 가상 상위단에 보게되면은 데이터 베이스 셋팅 정보 부분이 있습니다. 저 부분에 자신의 데이터 베이스 정보를 적어 줍니다.

 

2) index 부분에서 charset_type, castset_table을 수정해 줍니다. 이 부분을 셋팅해야 한글을 사용할수 있습니다.

아래와 같이 셋팅을 해줍니다.

charset_type = urf-8

charset_table = 0..9, A..Z->a..z, _, a..z, U+AC00..U+D7A3, U+1100..U+1159, U+1161..U+11A2, U+11A8..U+11F9

 

※ 한글을 사용하기 위해서는 DB 캐릭터 셋 정보 또한 utf-8로 셋팅을 해줘야 한다는 겁니다. 이거 때문에 검색이 안되서 고생좀 했습니다.

 

우선 이렇게 하면은 기본 설정은 완성 됐습니다.

 

- 이번에는 /usr/local/bin/ 폴더로 이동합니다.

이곳에 이것저것 툴이 깔려 있습니다. 그중 바로 사용해 볼 것들은 indexer와 searchd 입니다.

우선 indxer는 위에서 설명한 컨피그 파일에서 셋팅된 쿼리와 DB 정보를 이용해 데이터를 가져와 document로 만들어 인덱싱 하게 됩니다. 이 과정을 거쳐야 검색을 할수 있게 됩니다.

1) searchd

 파일명 뒤에 d가 붙어 있죠. 이걸보면 대부분 아실거라 생각합니다. 이건 데몬 프로그램입니다. 이녀석이 하는일이 뭐냐 하면 백그라운드로 돌면서 스핑크스에서 제공해주는 API로 쿼리를 만들어 던져주면 그 쿼리를 처리하는 역할을 합니다. 그러니 PHP, JAVA, Ruby 등등 으로 API를 호출해서 검색을 하게 될 경우 이녀석은 항상 켜져 있어야 합니다.

 

2)indexer

 우선 indexer를 실행 하기 전 mkdir /var/data/ 폴더를 생성해 줍니다. 현지 컴피그 파일에 아마 저 경로로 셋팅이 되어있을 겁니다. 저 경로가 싫으신 분들은 컨피그 파일에서 셋팅 정보를 변경한뒤 디렉토리를 생성해 주시면 됩니다.

 

indexer [인덱싱 이름]

위와 같이 쳐주면 됩니다. 인덱싱 이름 같은 경우 임의로 정해주시면 됩니다.

저는 test1로 인덱싱 이름을 정했습니다. 그리고 테이블에 더미데이터로 900만건 정도의 데이터를 넣고 테스트를 진행했습니다. (C++로 제작되서 빠르다길래....) 그랬더니 1분 40초 가량이 걸리더군요. 현재 루신으로 테스트를 안해봐서 이게 빠른건지 모르겠습니다. 루신도 시간되는데로 테스트를 해봐야 할것 같습니다.

 

자~ 이렇게 되면은 검색할 준비가 다 됐습니다. 이제부터는 스핑크스에서 제공해주는 API로 구현된 샘플 코드들을 이용해서 검색을 해도 되고, 툴을 이용해서 해도 됩니다.

 

참고로 샘플 코드를 이용하려 한다면 PHP, JAVA 등이 될수 있는데요. JDK, PHP를 따로 설치를 해주셔야 합니다. 저는 우선 테스트를 위해 모두 설치를 해놨습니다.

 

- 검색 : 이런식으로 뜹니다. 900만건 정도의 데이터에서 검색을 해서 그런지 몰라도 속도는 빠르더군요. 거의 바로 뜹니다.


여기까지 설치 및 한글 셋팅 정보 입니다. 우선 이 부분들은 나중에 제가 보기 위해서 정리를 해놓으거니까 더 많은 내용이 필요하신 분들은 구글링.... 해주세요~ㅋ

'Search Engine > Sphinx' 카테고리의 다른 글

스핑크스 설정  (0) 2012.06.05
[설치/설정] 검색엔진]sphinx quick start  (0) 2012.02.13
Sphinx  (0) 2012.02.13
sphinx 검색엔진 한글 검색 설정  (0) 2012.02.13
스핑크스(sphinx) 검색 엔진 reindex  (1) 2012.02.13

+ Recent posts