Полное руководство по очистке текста для НЛП перед машинным обучением

Ознакомьтесь с полным руководством по подготовке материалов для машинного обучения строковых типов данных. Или мы вызываем очистку текста для НЛП перед внедрением машинного обучения.

В этой статье я расскажу о подробном руководстве по подготовке материалов для машинного обучения строковых типов данных. Или мы вызываем очистку текста для НЛП перед внедрением машинного обучения. К концу этой статьи вы сможете начать использовать Python для очистки строковых данных в вашем проекте.

Оглавление: Полное руководство по очистке текста для НЛП при подготовке к машинному обучению

Что такое очистка текста для НЛП в машинном обучении

Очистка текста — это процесс подготовки необработанного текста для НЛП (обработки естественного языка), чтобы машины могли понимать человеческий язык прямо и ясно. По сути, он включает в себя три основные части, посвященные любым проектам, которые вы собираетесь реализовать.

  • Очистка текста и удаление примесей
  • Токенизация и группировка по семантике
  • Характеристика и целевая структура данных

Нормализация случая

Разная заглавная буква в разных словах или одни и те же слова могут сбить с толку компьютер, который не сможет понять ваше содержание и семантику. Итак, во-первых, вот пример кода для установки стандартной заглавной буквы для всех слов.

abc = content.lower()

Удалить символы Юникода

В фрагменте контента довольно много символов Юникода, таких как смайлы, URL-адреса, адрес электронной почты и т. д. На самом деле, с этими символами нужно обращаться хорошо, иначе это также может сбить с толку компьютеры. Ниже приведены два примера кода регулярных выражений для обработки всех URL-адресов и адресов электронной почты.

URL-адреса:

content = re.sub(r"(@\[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)|^rt|http.+?", "", content)

Электронная почта:

content = re.sub(r"([A-z0-9._%+-]+@[A-z0-9.-]+\.[Az]{2,4}

", "", content)

Токенизировать весь контент как отдельное значение в списке.

После удаления всех ненужных символов Юникода нам нужно создать список из содержимого, токенизировав его.

Вот пример использования Python

word_tokens = word_tokenize ( content )

Обработка стоп-слов

В языке довольно много слов, которые не могут придать значения значению, и большинство из них представляют собой своего рода языковую грамматику. Таким образом, обработка стоп-слов — это задача, которая еще больше снизит путаницу в компьютерах за счет сокращения количества таких слов.

Вот пример использования NLTK, одного из самых популярных пакетов Python.

   nltk . download ( 'stopwords' )

   nltk . download ( 'punkt' )

   nltk . download ( 'wordnet' )

   nltk . data . path . append ( 'nltk_data/corpora/stopwords' )

   nltk . data . path . append ( 'nltk_data/tokenizers/punkt' )

   nltk . data . path . append ( 'nltk_data/corpora/wordnet' )

   stopwords123 = set ( stopwords . words ( 'english' ))

Если вы заинтересованы в использовании функций построения NLTK и приложения, развернутого в облаке, но не знаете, как развернуть источник данных NLTK, подпишитесь на нас в следующем формате в конце этой статьи.

И последнее, но не менее важное: мы можем написать код для удаления всех стоп-слов из списка, который мы только что токенизировали выше. И в списке остаются только основные ценностные сообщения и контент.

Лемматизация

В человеческом языке оно имеет прошедшее, настоящее и будущее время. Кроме того, для выражения смысла оно имеет вид от первого, второго и третьего лица. Итак, лемматизация — это метод решения этой проблемы с целью устранения ненужных слов или опечаток.

   lemmatizer = WordNetLemmatizer ()

   for lemmatizedContent in content :

       lemmatizer . lemmatize ( lemmatizedContent )

POS-теги для семантической обработки

Для табулирования общих показателей POS для больших объемов контента нам необходимо пометить и сгруппировать слова, основанные на семантической цели. В человеческом языке есть разные типы слов, такие как существительные, глаголы, прилагательные, наречия и т. д. Более того, это может быть одно и то же слово с вариациями в речи.

Таким образом, нам нужны POS-теги, чтобы различать семантику и цель речи. Машины должны понимать эту цель, чтобы не путать ее.

Предварительная обработка данных с использованием Pandas, Numpy и Scikit Learn

Более подробную информацию по этой теме можно найти в статье, которую я опубликовал ранее.

Советы по предварительной обработке данных с использованием Python и Scikit Learn

Полные сценарии Python для очистки текста для NLP в машинном обучении (включает способы обработки файлов данных NLTK в веб-приложении или DApp или функциях, развернутых в облаке)

Если вас интересуют полные сценарии Python для очистки текста для НЛП при подготовке к машинному обучению, подпишитесь на нашу рассылку , добавив сообщение «Очистка текста NLP + развертывание данных NLTK + полные сценарии и бесплатный токен API очистки». . Мы отправим вам сценарий, когда будет опубликована актуальная версия сценария приложения.

Надеюсь, вам понравится читать «Полное руководство по очистке текста для НЛП при подготовке к машинному обучению». Если да, поддержите нас, выполнив одно из действий, перечисленных ниже, потому что это всегда помогает нашему каналу.

  • Поддержите наш канал и сделайте пожертвование через PayPal ( paypal.me/Easy2digital ).
  • Подпишитесь на мой канал и включите колокольчик Easy2Digital Youtube-канал .
  • Подпишитесь на мою страницу и поставьте ей лайк. Страница Easy2Digital в Facebook.
  • Поделитесь статьей в своей социальной сети с хэштегом #easy2digital.
  • Вы подписываетесь на нашу еженедельную рассылку, чтобы получать последние статьи, видео и коды скидок Easy2Digital.
  • Подпишитесь на наше ежемесячное членство через Patreon, чтобы пользоваться эксклюзивными преимуществами ( www.patreon.com/louisludigital ).