'Hadoop' 카테고리의 글 목록

Hadoop 4

Nutch에서 수집을 하는 대상(웹 페이지)의 크기가 크면 Segment에서 dump옵션으로Content를 확인 할 때 밑 부분이 짤리는 현상이 발생한다. 이 문제는 간단히 nutch/conf 내 nutch-default.xml에서 확인 할 수 있다. 대략 file.size ~에서 value 값이 default로 64330로 되어있다면 file로 저장하는 웹 페이지의 크기가 64300byte로 제한이 된다.또한 content.size ~에서 value 값이 file 크기와 똑같은데 이것 역시 웹 페이지에서 받아오는 content의 크기를 제한한다. 상황에 맞춰 크기를 바꿔주면 된다> 만약 64330byte 이상의 웹 페이지를 수집한다면 실제 내용과 수집된 내용의 크기가 다르다(header에 정의된 siz..

Hadoop/Nutch 2015.01.13

완전분산 Nutch Test에서 발생한 문제 해결방법

Nutch를 수정하여 사용하고 있다.eclipse에서 java파일을 수정하여 Test를 하는 과정에서 몇 가지 주의해야 할 점을 말해본다. 첫 번째, Eclipse에서는 file Path가 자유로웠다.하지만 완전분산 Test에서는 이 방법에서 에러가 발생한다. Hadoop은 hdfs Path가 정해져있다.예를 들면 hdfs://localhost:9000/user/root ~ 이다. 이런 경우에 기존의 workspace/nutch1.7/~ 를 기준으로 file IO는 동작하지 않는다.> Error 발생 해결은 Hadoop의 Path Class를 사용하여 새로운 path를 가져와야 한다.> 이 해결방법은 Hadoop IO 게시글에서 설명한다. 두 번째, Class Value 공유가 불가하다.eclipse에서..

Hadoop/Nutch 2015.01.09

Hadoop 구조

아래 내용은 문제점을 겪으며 해결한 부분이다. Hadoop 분산처리를 위한 시스템(?)이다.Hadoop을 위해서는 apache Project에서 얻어온 배포파일을 절차에 따라 진행하면 된다. Hadoop은bin/hadoop namenode -format (namenode를 포맷하고)bin/start-all.sh (Hadoop 실행)bin/stop-all.sh (Hadoop 중지) 그 결과 다음과 같은 process가 동작한다. > jpsJpsJobTrackerSecondaryNameNodeNameNodeDataNode Hadoop NameNode, DataNode Path는 hadoop/conf 의 .sh 파일에 정의된다.Hadoop이 동작하게 되면 아래와 같은 명령어로 hdfs에 접근할 수 있다. $H..

Hadoop 2015.01.09

Java로 Hadoop(hdfs) read/write

Hadoop의 분산환경에서 동작할 때 쓰이는 IO는 일반적인 Java와는 다르다. 바로 들어간다면 1. Read try{ Path pt=new Path("hdfs://npvm11.np.wc1.yellowpages.com:9000/user/john/abc.txt"); FileSystem fs = FileSystem.get(new Configuration()); BufferedReader br=new BufferedReader(new InputStreamReader(fs.open(pt))); String line; line=br.readLine(); while (line != null){ System.out.println(line); line=br.readLine(); } }catch(Exception e)..

Hadoop 2015.01.09

게임, 서버

Contest Scoreboard, SCPC, Bee Maja, Algospot, Where's Waldorf?, PASS486, DESIGNSCHOOL, KBODRAFT, minkowskisum, WORDLENGTH, ZEROONE, NQEEN, 회전 초밥(고등), TILING2, BADUK2, GRIDISLANDS, acmicpc, minkowskiaddition, EDIAN, DEVDAY2013,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

keicoon15

Hadoop 4

티스토리툴바