Hadoop/Nutch 2

Nutch Content 크기 제한

Nutch에서 수집을 하는 대상(웹 페이지)의 크기가 크면 Segment에서 dump옵션으로Content를 확인 할 때 밑 부분이 짤리는 현상이 발생한다. 이 문제는 간단히 nutch/conf 내 nutch-default.xml에서 확인 할 수 있다. 대략 file.size ~에서 value 값이 default로 64330로 되어있다면 file로 저장하는 웹 페이지의 크기가 64300byte로 제한이 된다.또한 content.size ~에서 value 값이 file 크기와 똑같은데 이것 역시 웹 페이지에서 받아오는 content의 크기를 제한한다. 상황에 맞춰 크기를 바꿔주면 된다> 만약 64330byte 이상의 웹 페이지를 수집한다면 실제 내용과 수집된 내용의 크기가 다르다(header에 정의된 siz..

Hadoop/Nutch 2015.01.13

완전분산 Nutch Test에서 발생한 문제 해결방법

Nutch를 수정하여 사용하고 있다.eclipse에서 java파일을 수정하여 Test를 하는 과정에서 몇 가지 주의해야 할 점을 말해본다. 첫 번째, Eclipse에서는 file Path가 자유로웠다.하지만 완전분산 Test에서는 이 방법에서 에러가 발생한다. Hadoop은 hdfs Path가 정해져있다.예를 들면 hdfs://localhost:9000/user/root ~ 이다. 이런 경우에 기존의 workspace/nutch1.7/~ 를 기준으로 file IO는 동작하지 않는다.> Error 발생 해결은 Hadoop의 Path Class를 사용하여 새로운 path를 가져와야 한다.> 이 해결방법은 Hadoop IO 게시글에서 설명한다. 두 번째, Class Value 공유가 불가하다.eclipse에서..

Hadoop/Nutch 2015.01.09