정보검색 관련용어
11회 인터넷정보관리사에도 출제되었던 문제이다.
헷갈리기는 했지만, 이론을 이해하면 쉽게 풀수 있는 문제였다.
정보검색 관련용어
재현률(Recall Ratio)=소환률
- 검색 주제와 관련된 전체 정보들 가운데서 현재까지 산출한 정보가 차지하는 비율
- 이 비율이 낮을수록 정보검색에서 누락된 주요 관련 정보가 많이 존재한다는 의미
- 검색된 적합한 정보 / 보유중인 적합한 전체정보 * 100
정확률(Precision Ratio)= 정도율
- 정보검색으로 획득한 전체 정보들 가운데서 이번 검색에서 찾으려는 주제와 직접 관련있는
적합한 정보가 얼마나 되는지를 나타내는 비율
- 나머지 정보는 가비지(garbage)라 함
- 검색된 적합한 정보 / 검색 완료된 전체 정보 * 100
Leakage - 누락어, 정보검색의 대상임에도 검색 결과에서 빠진 정보
Stop Word(Noise Word) - 불용어,
검색엔진이 데이터베이스를 구축할 때 색인어에서 제외시키는 단어나 문자열.
ex) 영어검색엔진(동사, 조동사, 전치사, 지시대명사,인칭대명사),
한글검색엔진(조사, 접미사, 접속사, 어미 등)
로봇에이전트 (robot agent) = 로봇(robot), 스파이더(spider), 크롤러(crawler), 월(worm)
- 검색엔진이 인터넷상에서 정보를 수집할 때 활용하는 전문 정보 수집 프로그램
Boolean Operator :
대분분의 인터넷 검색엔진은 키워드들의 논리관계를 따지는 부울 연산자를 지원한다.
AND, OR, NOT등 세가지가 있다.
AND(논리곱연산) : 검색어들을 모두 포함한 자료만 검색
OR(논리합연산) : 검색어 중 어느 하나라도 포함한 자료를 모두 검색
NOT(논리차연산) : NOT 이후의 검색어는 제외되는 자료만 검색
우선연산 : 검색엔진에 따라 약간씩의 차이는 있지만 여러가지 연산자를 혼합해서 작성했을 때에는 왼쪽에서 오른쪽으로, OR 보다는 AND 조건이 먼저 검색된다
특수연산자
[-] : -표 이후의 검색어는 제외되는 자료 검색
[+] : 해당 검색어를 반드시 포함
[.] : 정확하게 그 단어에 해당하는 자료 검색
절단검색 : 지정한 검색어를 포함한 문자열을 가진 자료를 모두 검색
단어의 어미변화 다양성을 간단하게 축약, 일반적으로 별포(*)나 퍼센트(%)가 많이 사용
특정한 문자열로 시작하는 정보를 찾는지, 특정한 문자열로 끝나는 정보를 찾는지에 따라 후방절단, 전방전단으로 나뉨
어구 검색 : 연속해서 오는 단어를 하나의 단위로 취급하여 검색하는 것을 가리켜 어구검색, 어절검색, 구검색이라고 부른다.
일반적으로 큰따움표(" ")로 두 개 이상의 단어를 감싸주면 어구로 설정된다.
큰따옴표를 써서 구를 설정해 주는 검색엔진으로는 심마니, 네이버, 정보탐정, 알타비스타, 인포시크, 웹크롤러, 데자뉴스 등이 있고
옵션을 통해 구를 설정해주는 검색엔진으로는 야후, 익사이트 등이 있으며
위의 두 가지 방법을 모두 지원하는 검색엔진도 있다.
'certificate story > searcher study' 카테고리의 다른 글
검색엔진의 종류 (0) | 2007.10.23 |
---|