11회 인터넷정보관리사에도 출제되었던 문제이다.

헷갈리기는 했지만, 이론을 이해하면 쉽게 풀수 있는 문제였다.


정보검색 관련용어

재현률(Recall Ratio)=소환률

    - 검색 주제와 관련된 전체 정보들 가운데서 현재까지 산출한 정보가 차지하는 비율

    - 이 비율이 낮을수록 정보검색에서 누락된 주요 관련 정보가 많이 존재한다는 의미

    - 검색된 적합한 정보 / 보유중인 적합한 전체정보 * 100


정확률(Precision Ratio)= 정도율

    - 정보검색으로 획득한 전체 정보들 가운데서 이번 검색에서 찾으려는 주제와 직접 관련있는

      적합한 정보가 얼마나 되는지를 나타내는 비율

    - 나머지 정보는 가비지(garbage)라 함

    - 검색된 적합한 정보 / 검색 완료된 전체 정보 * 100


Leakage - 누락어, 정보검색의 대상임에도 검색 결과에서 빠진 정보


Stop Word(Noise Word) - 불용어,

           검색엔진이 데이터베이스를 구축할 때 색인어에서 제외시키는 단어나 문자열.

        ex)  영어검색엔진(동사, 조동사, 전치사, 지시대명사,인칭대명사),

               한글검색엔진(조사, 접미사, 접속사, 어미 등)


로봇에이전트 (robot agent) = 로봇(robot), 스파이더(spider), 크롤러(crawler), 월(worm)

    - 검색엔진이 인터넷상에서 정보를 수집할 때 활용하는 전문 정보 수집 프로그램

 
Boolean Operator :

 대분분의 인터넷 검색엔진은 키워드들의 논리관계를 따지는 부울 연산자를 지원한다.
AND, OR, NOT등 세가지가 있다.

AND(논리곱연산) : 검색어들을 모두 포함한 자료만 검색
OR(논리합연산) : 검색어 중 어느 하나라도 포함한 자료를 모두 검색
NOT(논리차연산) : NOT 이후의 검색어는 제외되는 자료만 검색

우선연산 : 검색엔진에 따라 약간씩의 차이는 있지만 여러가지 연산자를 혼합해서 작성했을 때에는 왼쪽에서 오른쪽으로, OR 보다는 AND 조건이 먼저 검색된다

특수연산자
[-] : -표 이후의 검색어는 제외되는 자료 검색
[+] : 해당 검색어를 반드시 포함
[.] : 정확하게 그 단어에 해당하는 자료 검색

절단검색 : 지정한 검색어를 포함한 문자열을 가진 자료를 모두 검색

단어의 어미변화 다양성을 간단하게 축약, 일반적으로 별포(*)나 퍼센트(%)가 많이 사용
특정한 문자열로 시작하는 정보를 찾는지, 특정한 문자열로 끝나는 정보를 찾는지에 따라 후방절단, 전방전단으로 나뉨

어구 검색 : 연속해서 오는 단어를 하나의 단위로 취급하여 검색하는 것을 가리켜 어구검색, 어절검색, 구검색이라고 부른다.

일반적으로 큰따움표(" ")로 두 개 이상의 단어를 감싸주면 어구로 설정된다.
큰따옴표를 써서 구를 설정해 주는 검색엔진으로는 심마니, 네이버, 정보탐정, 알타비스타, 인포시크, 웹크롤러, 데자뉴스 등이 있고

옵션을 통해 구를 설정해주는 검색엔진으로는 야후, 익사이트 등이 있으며
위의 두 가지 방법을 모두 지원하는 검색엔진도 있다.

 

'certificate story > searcher study' 카테고리의 다른 글

검색엔진의 종류  (0) 2007.10.23
Posted by 경아지