기계 학습 전 NLP를 위한 텍스트 정리에 대한 최종 가이드

문자열 데이터 유형 기계 학습을 위한 자료를 준비하기 위한 최고의 가이드를 살펴보세요. 또는 기계 학습을 구현하기 전에 NLP에 대한 텍스트 정리를 호출합니다.

이 기사에서는 문자열 데이터 유형 기계 학습을 위한 자료를 준비하기 위한 궁극적인 가이드를 살펴보겠습니다. 또는 기계 학습을 구현하기 전에 NLP에 대한 텍스트 정리를 호출합니다. 이 작품이 끝나면 Python을 사용하여 프로젝트의 문자열 데이터를 정리할 수 있습니다.

목차: 기계 학습 준비에서 NLP를 위한 텍스트 정리에 대한 최종 가이드

기계 학습에서 NLP의 텍스트 정리란 무엇입니까?

텍스트 클리닝은 기계가 인간의 언어를 직접적이고 명확하게 이해할 수 있도록 NLP(자연어 처리)용 원시 텍스트를 준비하는 프로세스입니다. 기본적으로 여기에는 수행하려는 프로젝트에 대한 세 가지 주요 부분이 포함됩니다.

  • Text Cleaning 및 불순물 제거
  • 의미 체계에 따른 토큰화 및 그룹화
  • 기능 및 대상 데이터 구조

사례 정규화

단어마다 대문자를 다르게 사용하거나 동일한 단어를 사용하면 컴퓨터가 내용과 의미를 이해하는 데 혼란을 줄 수 있습니다. 먼저, 여기에 모든 단어의 표준 대문자 사용을 설정하는 코드 샘플이 있습니다.

abc = content.lower()

유니코드 문자 제거

콘텐츠에는 이모티콘, URL, 이메일 주소 등과 같은 유니코드 문자가 상당히 많이 포함되어 있습니다. 실제로 이러한 문자는 잘 처리되어야 합니다. 그렇지 않으면 컴퓨터가 혼란스러울 수도 있습니다. 다음은 모든 URL과 이메일 주소를 처리하는 두 가지 정규식 코드 샘플입니다.

URL:

content = re.sub(r"(@\[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)|^rt|http.+?", "", content)

이메일:

content = re.sub(r"([A-z0-9._%+-]+@[A-z0-9.-]+\.[Az]{2,4}

", "", content)

모든 콘텐츠를 목록의 개별 값으로 토큰화

불필요한 유니코드 문자를 모두 제거한 후 콘텐츠를 토큰화하여 목록을 생성해야 합니다.

다음은 Python을 사용한 샘플입니다.

word_tokens = word_tokenize ( content )

불용어 처리

언어에는 의미에 가치를 더하지 못하는 단어가 꽤 많고, 대부분이 일종의 언어 문법이다. 따라서 불용어를 처리하는 것은 이러한 종류의 단어를 줄여 컴퓨터에 대한 혼란을 더욱 줄이는 작업입니다.

다음은 Python에서 가장 인기 있는 패키지 중 하나인 NLTK를 사용한 샘플입니다.

   nltk . download ( 'stopwords' )

   nltk . download ( 'punkt' )

   nltk . download ( 'wordnet' )

   nltk . data . path . append ( 'nltk_data/corpora/stopwords' )

   nltk . data . path . append ( 'nltk_data/tokenizers/punkt' )

   nltk . data . path . append ( 'nltk_data/corpora/wordnet' )

   stopwords123 = set ( stopwords . words ( 'english' ))

NLTK 구축 기능과 클라우드에 배포된 앱을 사용하는 데 관심이 있지만 NLTK 데이터 소스를 배포하는 방법을 잘 모르는 경우 이 기사 끝에 있는 다음 형식으로 구독하세요.

마지막으로, 위에서 토큰화한 목록에서 모든 불용어를 제거하는 코드를 작성할 수 있습니다. 그리고 그 목록에는 핵심가치 메시지와 내용만 남아있습니다.

표절화

인간의 언어에는 과거, 현재, 미래 시제가 있습니다. 또한 1인칭, 2인칭, 3인칭 각도로 의미를 표현하고 있습니다. 그래서 Lemmatization은 불필요한 단어나 오타를 없애기 위한 목적으로 이를 처리하는 방법입니다.

   lemmatizer = WordNetLemmatizer ()

   for lemmatizedContent in content :

       lemmatizer . lemmatize ( lemmatizedContent )

의미론적 처리를 위한 POS 태깅

대규모 콘텐츠의 POS 합계를 표로 작성하려면 의미론적 목적에 따라 단어를 태그하고 그룹화해야 합니다. 인간의 언어에는 명사, 동사, 형용사, 부사 등 다양한 유형의 단어가 있습니다. 또한 동일한 단어일 수도 있고 음성의 변형이 있을 수도 있습니다.

따라서 음성 의미와 목적을 구별하기 위해서는 POS 태깅이 필요합니다. 혼동하지 않기 위해 기계가 이 목적을 이해하는 것입니다.

Pandas, Numpy 및 Scikit Learn을 사용한 데이터 전처리

이 주제에 대한 자세한 내용은 이전에 발표한 기사를 참조하세요.

Python 및 Scikit Learn을 사용한 데이터 전처리 팁

기계 학습에서 NLP를 위한 텍스트 정리의 전체 Python 스크립트(웹 앱이나 DApp 또는 클라우드에 배포된 기능에서 NLTK 데이터 파일을 처리하는 방법 포함)

기계 학습 준비에서 NLP를 위한 텍스트 정리의 전체 Python 스크립트에 관심이 있다면, 'NLP 텍스트 정리 + NLTK 데이터 배포 + 전체 스크립트 및 스크랩 API 무료 토큰'이라는 메시지를 추가하여 뉴스레터를 구독 하세요. . 최신 앱 스크립트가 활성화되면 스크립트를 보내드리겠습니다.

기계 학습 준비에서 NLP를 위한 텍스트 정리에 대한 궁극적인 가이드를 재미있게 읽으시기 바랍니다. 그렇게 했다면 아래 나열된 일 중 하나를 수행하여 우리를 지원해 주세요. 이는 항상 우리 채널에 도움이 되기 때문입니다.

  • PayPal( paypal.me/Easy2digital )을 통해 채널을 지원하고 기부하세요.
  • 내 채널을 구독하고 Easy2Digital Youtube 채널 알림 벨을 켜십시오.
  • 내 페이지 Easy2Digital Facebook 페이지를 팔로우하고 좋아요를 누르세요.
  • 해시태그 #easy2digital을 사용하여 소셜 네트워크에 기사를 공유하세요.
  • Easy2Digital 최신 기사, 비디오 및 할인 코드를 받으려면 주간 뉴스레터에 가입하세요.
  • Patreon을 통해 월간 멤버십을 구독하여 독점적인 혜택을 누리세요( www.patreon.com/louisludigital )