AI/자연어처리(NLP)

응용 언어학 - 영어(Morphology)

반응형

응용 언어학 - 영어(Morphology)

1. The Words of Language

  • 언어에서 단어(words)는 매우 중요하다.
  • 모든 단어들의 mental dictionary를 가지고 있다.
    • Mental dictionary 구성 요소
      • Pronunciation
      • Meaning
      • Orthography(spelling)
      • Grammatical category
      Content Words and Function Words
    • Content words
      • 내용의 의미를 가지고 있는 단어
      • 계속해서 새롭게 생겨날 수 있다.(Open class)
        예시

        nouns, verbs, adjectives, etc.

    • Function words
      • 기능적 의미를 가지고 있는 단어
      • 아주 가끔 발생 가능하지만 거의 고정되어 있다(Close class)
         
        예시

        articles, prepositions, conjunctions, etc.

2. Morphemes

  • Morphology(형태론) : 단어의 형성의 규칙에 대한 학문
  • Morpheme(형태소) : 의미를 가지고있는 최소 단위
    • 형태소는 그 자체로 단어가 된다.
    • 형태소끼리 결합하여 새로운 단어를 만들 수 있다.

Bound and Free Morphemes

  • Free morphemes
    • 혼자 사용이 가능하다
    • ex) books에서 book
  • Bound morphemes
    • 혼자서 사용이 불가능하고, 다름 morphemes에 붙어서 사용이 가능하다
    • ex) boos에서 s, undo에서 un
    • prefixes vs suffixes
      • 영어에서는 거의 99.9%가 prefixes와 suffixes로 이루어져 있다
    • Infixes
      • fikas "strong"이라는 뜻 → fumikas "to be strong"라는 뜻
    • circumfixes
      • chokma "he is good"이라는 뜻 → ikchokmo "he is not good"이라는 뜻

Roots and Stems

  • Roots(어근) : morpheme의 기반?
    • ex) um-love-able 에서 love가 root
  • stems(어간) :
    • ex) um-loveable 에서 loveable가 stem

Rule of word formation

  • Derivational morphemes
    • 의미 또는 품사가 달라지는 형태소
    • ex)
      • un- → undo 의미가 바뀜
      • -ish → boyish 의미와 품사가 모두 바뀜
  • Inflectional morphemes
    • 문법적 기능을 하는 morphemes (의미나 품사를 바꾸는 역할 x), 항상 단어의 마지막에 위치
    • ex) -s, -ed, -ing, -en, -s, -'s, -er $\cdots$

Hierarchical Structure of Words

  • Morphemes는 정해진 단어 구조로 만들어진다.
  • unsystematic = un- + system + -atic
  • Untitled
  • 단어의 계층 구조는 애매한 단어를 명확하게 해줄 수 있다.
  • ex. unlockable"not able to be locked" 잠글 수 없는"able to be unlocked" 여는것이 가능한
  • Untitled 2
  • Untitled 1

Rule productivity

  • Derivational affixes는 단어를 매우 많이 만들 수 있다.
  • 예외가 있다
    • know의 과거는 knowed가 아닌 knew
    • 보통 자주 사용되는 단어가 불규칙이 많다(많이 사용하기 때문에 인지할 것이라서), 어려운 단어일 수록 규칙을 활용한다.
    • 차이가 없는 경우도 있다(hit-hit-hit)
    • 명사로부터 의미가 파생된 동사도 있다. ring : 반지 → 반지를 끼다

3. Other Morphological Processes

  • 사람들의 언어 능력은 엄청나게 생산적이다. 신조어가 아주 많다.

Back-formations

  • 잘못된 형태소 분석으로 만들어진 단어
  • editor → edit (사람을 나타낼 때 -er, -or을 붙인다, 그래서 editor의 -or을 빼고 편집이라는 단어를 만들었다, 즉 editor가 만들어지고 edit이 생겨났다)
  • television → televise (-tion, -sion은 명사를 만들때 사용된다. 따라서 televise는 television의 동사형이라고 생각해서 "방송을 내보내다"라는 뜻의 단어가 생겨났다)

Acronym

  • 첫번째 글자를 가지고 만든 단어
    예시
      - NASA(National Aeronautics and Space Agency)
      - UCLA(university of California, Los Angeles)
      - 별다줄
      - ㅈㄱㄴ
      - ㅇㅈ

Abbreviation/Clipping

  • 일부분만 사용하거나 축약하여 사용하는 단어
    예시
      - Fax(facsimile)
      - Gym(gymnasium)
      - Ad(advertisement)
      - Bike(bicycle)
      - Math(mathematics)
      - gas(gasoline)
      - dis(disrespect)

Eponym

  • 특정 인물의 이름을 사용하여 만든 단어
    예시
      - denim(de Nemes)
      - argyle(argyli in Scotland)
      - paparazzi(Signor Paparazzo)
      - Murphy's Law(captain Ed Murphy)
      - guy(Guy Fawkes)

Blends

  • 두 단어를 합쳐서 만든 단어(각 단어의 일부를 결합)
    예시
      - smog(smoke + fog)
      - urinalysis(urine + analysis)
      - brunch(breakfast + lunch)
      - saladent(salaryman + student)
      - bromance(brother + romance)
      - 어른이(어른 + 어린이)
      - 턱스크(턱 + 마스크)

Compounds

  • 두 단어를 합쳐서 새로운 의미의 단어를 생성
    예시
      - greenhouse → 온실
      - Whitehouse → 백악관
      - Blackboard → 칠판

Idioms

  • 새로운 의미를 갖는 관용어구
  • 한번에 의미를 유추하기 어렵고 언어의 문화를 알아야 한다
  • 다양한 종류
    1. 모양 고정 붙어있음 (hot potato)
    2. 모양 고정 떨어짐 (take a rest)
    3. 모양 변화
    4. 모양 변화 떨어짐 (took a rest)
    5. 모양 변화 어순 (ice breaking)
      예시
       
    • A hot potato → 최근 화제가되는 이슈
    • Piece of cake → 누워서 떡먹이의 뜻
    • Once in a blue moon
    • 숟가락을 올리다
    • 가뭄에 콩 나다
    • 삼천포로 빠지다

Multi-token words

  • 여러개의 토큰으로 이루어진 단어
  • Idioms, 숙어의 상위 개념
    예시
    • New York
    • Rock 'n' roll

Morphology를 할때 해야할 작업

1. Sentence splitting

  • 문장을 분류해야 한다
    예시
      Three years after its artificial-intelligence engine Watson made its
      high-profile win on Jeopardy!, IBM is adapting the technology as it
      seeks practical commercial uses, an IBM executive explained
      yesterday at EmTech, a conference organized by MIT Technology
      Review. Rhodin said IBM is refining Watson to make it more adept at
      providing the correct answer to a specific question in a specific
      domain? For example, by learning from previous queries. IBM has
      also been working with USAA, a company that provides financial
      services to U.S. military personnel. Mr. Sherwood said reaction to
      Sea Containers' proposal has been "very positive." In New York Stock
      Exchange composite trading yesterday, Sea Containers closed at
      $62.625, up 62.5 cents. "I said, 'what're you? Crazy?' "said
      Sadowsky. IL-33 is known to induce the production of Th2-associated
      cytokines (e.g. IL-5 and IL-13).
    
      - 빨간색은 어려운 예시
          - Jeopardy!의 경우 tv 프로그램 이름으로 고유 명사이다
          - MIT Technology Review 의 경우 하나의 의미를 가진다
          - `.`(마침표)가 있다고 문장의 끝이 아니다!

2. Word tokenization

  • 한국어 영어의 경우 띄어쓰기를 기준으로 할 수 있다.
  • 중국어, 일본어의 경우 띄어쓰기가 없어 어려움이 있다.
  • Tokenization issue
    • 같은 형태의축약형, 문맥에따라 다른 의미 갖는다
      예시
        - Mary's → Mary's / Mary is / Mary has
    • Hyphens
      예시
        Calcium-dependent
      
        Hsp-60
    • Word-internal punctuation
      예시
        - M.p.h
        - Ph.D.
        - 01/02/06
        - Google.com
        - 555,500.50$
    • Multi-token words
      예시
        - New York
        - Rock 'n' roll
  • 다른 issue
    • 레반슈타인 거리 알고리즘 (해결 방법의 일부)
    • 오탈자
    • 고의로 틀리게 쓰는 경우
      • 한국인만 읽을 수 있는 한글 앖녒핪셊욦
      • 기여워 끼여워 끼욥 귀욥 귀여워 $\cdots$

3. Morphological analysis

형태소 분석

Untitled 3

Reference

위 글은 데이터 청년캠퍼스 장지원 교수님의 강의를 기반으로 작성되었습니다.

반응형

'AI > 자연어처리(NLP)' 카테고리의 다른 글

응용 언어학 - 영어(Syntax)  (1) 2021.07.05
응용 언어학 - 영어(Semantics)  (0) 2021.07.05