Hadoop 4

Nutch Content 크기 제한

Nutch에서 수집을 하는 대상(웹 페이지)의 크기가 크면 Segment에서 dump옵션으로Content를 확인 할 때 밑 부분이 짤리는 현상이 발생한다. 이 문제는 간단히 nutch/conf 내 nutch-default.xml에서 확인 할 수 있다. 대략 file.size ~에서 value 값이 default로 64330로 되어있다면 file로 저장하는 웹 페이지의 크기가 64300byte로 제한이 된다.또한 content.size ~에서 value 값이 file 크기와 똑같은데 이것 역시 웹 페이지에서 받아오는 content의 크기를 제한한다. 상황에 맞춰 크기를 바꿔주면 된다> 만약 64330byte 이상의 웹 페이지를 수집한다면 실제 내용과 수집된 내용의 크기가 다르다(header에 정의된 siz..

Hadoop/Nutch 2015.01.13

완전분산 Nutch Test에서 발생한 문제 해결방법

Nutch를 수정하여 사용하고 있다.eclipse에서 java파일을 수정하여 Test를 하는 과정에서 몇 가지 주의해야 할 점을 말해본다. 첫 번째, Eclipse에서는 file Path가 자유로웠다.하지만 완전분산 Test에서는 이 방법에서 에러가 발생한다. Hadoop은 hdfs Path가 정해져있다.예를 들면 hdfs://localhost:9000/user/root ~ 이다. 이런 경우에 기존의 workspace/nutch1.7/~ 를 기준으로 file IO는 동작하지 않는다.> Error 발생 해결은 Hadoop의 Path Class를 사용하여 새로운 path를 가져와야 한다.> 이 해결방법은 Hadoop IO 게시글에서 설명한다. 두 번째, Class Value 공유가 불가하다.eclipse에서..

Hadoop/Nutch 2015.01.09

Hadoop 구조

아래 내용은 문제점을 겪으며 해결한 부분이다. Hadoop 분산처리를 위한 시스템(?)이다.Hadoop을 위해서는 apache Project에서 얻어온 배포파일을 절차에 따라 진행하면 된다. Hadoop은bin/hadoop namenode -format (namenode를 포맷하고)bin/start-all.sh (Hadoop 실행)bin/stop-all.sh (Hadoop 중지) 그 결과 다음과 같은 process가 동작한다. > jpsJpsJobTrackerSecondaryNameNodeNameNodeDataNode Hadoop NameNode, DataNode Path는 hadoop/conf 의 .sh 파일에 정의된다.Hadoop이 동작하게 되면 아래와 같은 명령어로 hdfs에 접근할 수 있다. $H..

Hadoop 2015.01.09

Java로 Hadoop(hdfs) read/write

Hadoop의 분산환경에서 동작할 때 쓰이는 IO는 일반적인 Java와는 다르다. 바로 들어간다면 1. Read try{ Path pt=new Path("hdfs://npvm11.np.wc1.yellowpages.com:9000/user/john/abc.txt"); FileSystem fs = FileSystem.get(new Configuration()); BufferedReader br=new BufferedReader(new InputStreamReader(fs.open(pt))); String line; line=br.readLine(); while (line != null){ System.out.println(line); line=br.readLine(); } }catch(Exception e)..

Hadoop 2015.01.09