티스토리 뷰

원본 : here

최근 야후봇에 너무 당해서(?) robot.txt를 작성하다가, 저처럼 검색노가다를 하실 테터유저분들이 많으실 것같아서 검색한 정보를 올려봅니다.


검색로봇의 접근을 막는 방법입니다. 로봇을 배제하겠다라는 내용을 적어 놓은 robots.txt 파일을 사이트의 최상위 주소(서버 루트 디렉토리 예:www.naver.com/robots.txt)에 저장하면 됩니다.

robots.txt를 서브디렉토리에 놓는 경우 효력이 없다는 사실에 주의하세요.

예를 들어, www.yourhost/~mypage 밑에 robots.txt가 있어도 이는 아무런 효력을 갖지 못합니다. 로봇은 오직 루트 디렉토리의 robots.txt만을 참조할 뿐입니다. 로봇의 접근을 어디까지 허용할 것이냐에 따라 robots.txt에 들어가는 내용은 달라집니다.

(1) 모든 로봇을 배제하고 싶을 때

User-agent: *
Disallow: /


(2) 모든 로봇을 허용하고 싶을 때

이 경우에는 “robots.txt”를 작성할 필요가 없으나, 굳이 작성을 하자면 다음과 같습니다. (Ex1과 비교했을 때 “/”가 빠져 있습니다.)

User-agent: *
Disallow:


(3) 모든 로봇에게 서버의 일부분만을 제한하고 싶을 때

User-agent: *
Disallow: /my_photo/
Disallow: /my_diary/

이렇게 작성하면 로봇은 my_photo, my_diary라는 폴더에 속한 웹문서에 접근할 수 없습니다.


(4) 특정 로봇만을 배제하고 싶을 때

User-agent: EvilRobot
Disallow: /

위의 예에서는 “EvilRobot”이라는 이름을 가진 로봇만을 배제하게 됩니다.


(5) 특정 로봇에게만 접근을 허용하고 싶을 때

User-agent: 검색로봇이름
Disallow:
User-agent: *
Disallow: /

이 경우 Cowbot만이 웹문서를 수집해갈 수 있습니다.


ECT)메타테그에 정보를 넣는 방법도 있습니다.

<meta NAME="ROBOTS" CONTENT="NOINDEX"> 또는 <meta NAME="robots" CONTENT="NONE"> 또는 <META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

테터 index.php에 넣어야 하는지, 스킨의 skin.html에 넣어야 하는지는 잘 모르겠습니다. 세가지의 정확한 차이도 잘 모르겠구요(팁란에 올리면서 이런 멘트.. 죄송합니다.;;)


검색로봇의 이름

네이버    cowbot

구글        Googlebot

msn로봇  MSNBot

야후봇    Slurp

엠파스봇 empas

첫눈봇     1Noonbot 1.0