- 다양한 주제에 대해 자유롭게 글을 작성하는 게시판입니다.
Date 16/04/05 19:19:04
Name   April_fool
Link #1   http://redtea.kr/pb/pb.php?id=free&no=2543
Subject   100점 이상의 단어를 찾아서.

새벽에 올렸던 [100점짜리 단어를 찾아서.](https://new.redtea.kr/pb/pb.php?id=free&no=2543)의 호응이 예상외로 대단히 좋은 것을 보고, 애프터서비스(?)로 후속 글을 써보기로 하였습니다.

먼저, 프로그램을 조금 수정하였습니다. 두 개로 나뉘어 있던 프로그램을 하나로 합치고, 단어 중 중복해서 나타나는 것이 사라지도록 하고, 커맨드라인에서의 리다이렉션 명령없이 바로 결과 파일(result.tsv)이 나타나도록 바뀌었습니다. 한 마디로, 그냥 실행만 하면 결과 파일이 튀어나오게끔 바꿨습니다.

#!/usr/bin/python3


import re, string

def score(text):
	a = list(text)
	b = 0
	for i in a:
		if i in string.ascii_letters:
			b = b + (ord(i.lower()) - 96)
	return b

ent = re.compile("<ent>.*</ent>")
dic = set([])

for a in string.ascii_uppercase:
	cide = "CIDE." + a
	with open(cide, mode="r", encoding="latin-1") as f0:
		f1 = f0.readlines()
	for b in f1:
		b = ent.findall(b)
		if b != []:
			c = b[0][5:-6]
			dic.add(c.lower())

t1 = list(dic)
t1.sort()

f2 = open("result.tsv", mode="w")
for i in t1:
	f2.write(i + "\t" + str(score(i)) + "\n")
f2.close()

이렇게 해서 중복을 없애고 보니, 총 단어 수가 11만 4766개로 줄었습니다. 그 중 100점짜리 단어는 총 1210개. 이게 진짜 제대로 된 결과값이라 할 수 있겠습니다. 참고로 모든 단어들의 평균 점수는 약 102.399점, 점수들의 중앙값은 딱 100점이었습니다.

그러면, 이 11만 개의 단어 중에서 가장 점수가 높은 건 뭐냐 하는 질문이 나올 겁니다. 예상할 수 있다시피, 글자 개수가 많으면 점수도 팍팍 올라갑니다. 제가 사용한 GCIDE 사전 파일에서 가장 높은 점수를 낸 표제어는 바로 “self-contained underwater breathing apparatus”(453점)라는 단어였습니다. 이게 뭐냐구요? 바로 스쿠바(SCUBA)입니다. 여러 단어를 줄인 줄임말을 풀어서 쓴 것이죠.

고득점을 올린 다른 단어들도 사정은 마찬가지였습니다. 점수 최상위 10개 표제어 중 단 1가지를 빼놓고 나머지는 모두 여러 개의 단어를 합친 것이었습니다. 근데 딱 하나, “methylenedioxymethamphetamine”(335점)이라는 무쟈게 긴 단어는 예외였습니다. 이거야말로 진정한 1등(!)이라고 할 수 있겠죠. 근데 이게 뭐냐고요?

https://www.google.com/search?q=methylenedioxymethamphetamine

MDMA


3,4-메틸렌디옥시메탐페타민 또는 일명 엑스터시로 더 잘 알려져 있는 향정신성 물질이다. 뇌 속에 세로토닌·도파민·노르아드레날린의 분비를 촉진시켜 환각을 일으킨다. 복용 후 30분에서 1시간 사이 서서히 작용하며 6시간~10시간 지속적이다. 이것은 헤어나오기 힘든 강한 마약 중 하나이다. 엑스터시를 복용한 상태에서는 갈증을 느끼지 못하기 때문에 심각한 탈수 증세를 일으킬 수 있다. 위키백과

히이이이이이이익!!!

…그러합니다. 뭐, “cardiopulmonary resuscitation”(358점)처럼 뭔가 좀 더 도움되는 단어도 있기는 합니다만…

여기에 고득점을 올린 상위 30개 표제어의 목록을 올려 둡니다.

  1. self-contained underwater breathing apparatus (453점)
  2. young women's christian association (397점)
  3. three-torque system of control (371점)
  4. woman's christian temperance union (359점)
  5. young men's christian association (359점)
  6. cardiopulmonary resuscitation (358점)
  7. federal national mortgage association (348점)
  8. vickers-maxim automatic machine gun (345점)
  9. interstate commerce commission (335점)
  10. methylenedioxymethamphetamine (335점)
  11. conditioned emotional response (327점)
  12. melamine-fromaldehyde methanal resin (327점)
  13. cretaceous-tertiary boundary (326점)
  14. american protective association (322점)
  15. mohorovicic discontinuity (312점)
  16. antidisestablishmentarianism (307점)
  17. pseudo-monocotyledonous (305점)
  18. extrasensory perception (304점)
  19. natural product chemistry (304점)
  20. transmission dynamometer (303점)
  21. relativistic mass equation (301점)
  22. switching power supply (298점)
  23. global positioning system (297점)
  24. continental pronunciation (296점)
  25. manic-depressive psychosis (295점)
  26. malopterurus electricus (294점)
  27. percussion instrument (292점)
  28. dow-jones industrial average (291점)
  29. hospitalisation insurance (291점)
  30. central nervous system (288점)

p.s.
이걸 직접 해보고 싶으신 분을 위해, 압축된 사전 파일의 링크를 걸어 둡니다. 위의 코드는 압축을 푼 사전 파일이 있는 디렉토리에 집어넣고 실행하면 됩니다. tsv 파일은 엑셀 등의 스프레드시트 프로그램으로 열 수 있습니다.




4
  • 이과 망했으면


목록
번호 제목 이름 날짜 조회 추천
2550 IT/컴퓨터100점 이상의 단어를 찾아서. 8 April_fool 16/04/05 8616 4
2543 IT/컴퓨터100점짜리 단어를 찾아서. 29 April_fool 16/04/05 15418 11
2509 IT/컴퓨터스마트워치 I5 Plus 간단 사용기 1 탄야 16/03/31 7460 0
2507 IT/컴퓨터마이크로소프트의 충격적인 발표 21 Azurespace 16/03/31 9010 2
2497 IT/컴퓨터최초의 웹브라우저 Mosaic 이야기 22 블랙자몽 16/03/30 5811 4
2475 IT/컴퓨터한국 지도 데이터가 해외로 반출이 가능해질것 같습니다. 4 Leeka 16/03/26 5542 0
2470 IT/컴퓨터인공지능 테이가 하루만에 오프라인이 된 사연 12 April_fool 16/03/25 6908 2
2466 IT/컴퓨터최근 국내 PC 웹브라우저 점유율의 변화 35 Toby 16/03/24 16316 3
2451 IT/컴퓨터데스크톱에서 여자친구 사진을 개선하는 신경망 5 April_fool 16/03/22 7536 1
2445 IT/컴퓨터얼굴 표정을 실시간으로 대역처리하기 5 Toby 16/03/21 5713 3
2438 IT/컴퓨터맥 사용한지 약 1년이 지난 후기 26 Leeka 16/03/21 8226 1
2426 IT/컴퓨터여자친구의 사진도 개선하는 신경망 22 Toby 16/03/18 9439 0
2407 IT/컴퓨터독일언론에서 긁어오기 - 알파고(4) 1 표절작곡가 16/03/15 7062 3
2397 IT/컴퓨터알파고의 약점이란 31 Azurespace 16/03/13 21607 8
2392 IT/컴퓨터독일언론에서 긁어오기 - 알파고(3) 3 표절작곡가 16/03/12 7298 1
2389 IT/컴퓨터알파고가 이겼군요. 35 Azurespace 16/03/11 8623 10
2376 IT/컴퓨터독일언론에서 긁어오기 - 알파고(2) 7 표절작곡가 16/03/10 6860 2
2371 IT/컴퓨터알파고/이세돌 대국에 대한 체스 챔피언의 글 13 Toby 16/03/10 6589 1
2363 IT/컴퓨터독일언론에서 긁어오기 - 알파고 9 표절작곡가 16/03/09 6530 1
2356 IT/컴퓨터알파고의 작동 원리 8 Toby 16/03/09 6727 5
2289 IT/컴퓨터애플이 2015년 상반기 투명성 보고서를 게시하였습니다. 17 Beer Inside 16/02/24 5206 3
2269 IT/컴퓨터LG의 플래그쉽 휴대폰 G5가 공개되었습니다. 15 Darwin4078 16/02/22 5992 0
2258 IT/컴퓨터삼성 기어 VR 사용기- 이것은 광고글이 아닙니다.(엄격,진지) 5 삼성그룹 16/02/19 5809 0
2110 IT/컴퓨터1월 한국 스마트폰 판매순위 10 Leeka 16/01/25 5874 0
2102 IT/컴퓨터구글,애플에 년 1조 2천억 지불 5 Leeka 16/01/23 4704 1
목록

+ : 최근 2시간내에 달린 댓글
+ : 최근 4시간내에 달린 댓글

댓글