Полное руководство по очистке текста для НЛП перед машинным обучением

В этой статье я расскажу о подробном руководстве по подготовке материалов для машинного обучения строковых типов данных. Или мы вызываем очистку текста для НЛП перед внедрением машинного обучения. К концу этой статьи вы сможете начать использовать Python для очистки строковых данных в вашем проекте.

Оглавление: Полное руководство по очистке текста для НЛП при подготовке к машинному обучению

Что такое очистка текста для НЛП в машинном обучении
Нормализация случая
Удалить символы Юникода
Токенизировать весь контент в строковом типе данных
Обработка стоп-слов
Лемматизация
POS-теги для семантической обработки
Предварительная обработка данных с использованием Pandas, Numpy и Scikit Learn
Полные сценарии Python для очистки текста для NLP в машинном обучении (включает способы обработки файлов данных NLTK в веб-приложении или DApp или функциях, развернутых в облаке)

Что такое очистка текста для НЛП в машинном обучении

Очистка текста — это процесс подготовки необработанного текста для НЛП (обработки естественного языка), чтобы машины могли понимать человеческий язык прямо и ясно. По сути, он включает в себя три основные части, посвя. щенные любым проектам, которые вы собираетесь реализовать.

Очистка текста и удаление примесей
Токенизация и группировка по семантике
Характеристика и целевая структура данных

Нормализация случая

Разная заглавная буква в разных словах или одни и те же слова могут сбить с толку компьютер, который не сможет понять ваше содержание и семантику. Итак, во-первых, вот пример кода для установки стандартной заглавной буквы для всех слов.

abc = content.lower()

Удалить символы Юникода

В фрагменте контента довольно много символов Юникода, таких как смайлы, URL-адреса, адрес электронной почты и т. д. На самом деле, с этими символами нужно обращаться хорошо, иначе это также может сбить с толку компьютеры. Ниже приведены два примера кода регулярных выражений для обработки всех URL-адресов и адресов электронной почты.

URL-адреса:

content = re.sub(r"(@\[A-Za-z0-9]+)|([^0-9A-Za-z \t])|(\w+:\/\/\S+)|^rt|http.+?", "", content)

Электронная почта:

content = re.sub(r"([A-z0-9._%+-]+@[A-z0-9.-]+\.[Az]{2,4}
", "", content)

Токенизировать весь контент как отдельное значение в списке.

После удаления всех ненужных символов Юникода нам нужно создать список из содержимого, токенизировав его.

Вот пример использования Python

word_tokens = word_tokenize ( content )

Обработка стоп-слов

В языке довольно много слов, которые не могут придать значения значению, и большинство из них представляют собой своего рода языковую грамматику. Таким образом, обработка стоп-слов — это задача, которая еще больше снизит путаницу в компьютерах за счет сокращения количества таких слов.

Вот пример использования NLTK, одного из самых популярных пакетов Python.

nltk . download ( 'stopwords' )
nltk . download ( 'punkt' )
nltk . download ( 'wordnet' )
nltk . data . path . append ( 'nltk_data/corpora/stopwo. rds' )
nltk . data . path . append ( 'nltk_data/tokenizers/punkt' )
nltk . data . path . append ( 'nltk_data/corpora/wordnet' )
stopwords123 = set ( stopwords . words ( 'english' ))

Если вы заинтересованы в использовании функций построения NLTK и приложения, развернутого в облаке, но не знаете, как развернуть источник данных NLTK, подпишитесь на нас в следующем формате в конце этой статьи.

И последнее, но не менее важное: мы можем написать код для удаления всех стоп-слов из списка, который мы только что токенизировали выше. И в списке остаются только основные ценностные сообщения и контент.

Лемматизация

В человеческом языке оно имеет прошедшее, настоящее и будущее время. Кроме того, для выражения смысла оно имеет вид от первого, второго и третьего лица. Итак, лемматизация — это метод решения этой проблемы с целью устранения ненужных слов или опечаток.

lemmatizer = WordNetLemmatizer ()
for lemmatizedContent in content :
lemmatizer . lemmatize ( lemmatizedContent )

POS-теги для семантической обработки

Для табулирования общих показателей POS для больших объемов контента нам необходимо пометить и сгруппировать слова, основанные на семантической цели. В человеческом языке есть разные типы слов, такие как существительные, глаголы, прилагательные, наречия и т. д. Более того, это может быть одно и то же слово с вариациями в речи.

Таким образом, нам нужны POS-теги, чтобы различать семантику и цель речи. Машины должны понимать эту цель, чтобы не путать ее.

Предварительная обработка данных с использованием Pandas, Numpy и Scikit Learn

Более подробную информацию по этой теме можно найти в статье, которую я опубликовал ранее.

Советы по предварительной обработке данных с использованием Python и Scikit Learn

Полные сценарии Python для. очистки текста для NLP в машинном обучении (включает способы обработки файлов данных NLTK в веб-приложении или DApp или функциях, развернутых в облаке)

Если вас интересуют полные сценарии Python для очистки текста для НЛП при подготовке к машинному обучению, подпишитесь на нашу рассылку , добавив сообщение «Очистка текста NLP + развертывание данных NLTK + полные сценарии и бесплатный токен API очистки». . Мы отправим вам сценарий, когда будет опубликована актуальная версия сценария приложения.

Надеюсь, вам понравится читать «Полное руководство по очистке текста для НЛП при подготовке к машинному обучению». Если да, поддержите нас, выполнив одно из действий, перечисленных ниже, потому что это всегда помогает нашему каналу.

Поддержите наш канал и сделайте пожертвование через PayPal ( paypal.me/Easy2digital ).
Подпишитесь на мой канал и включите колокольчик Easy2Digital Youtube-канал .
Подпишитесь на мою страницу и поставьте ей лайк. Страница Easy2Digital в Facebook.
Поделитесь статьей в своей социальной сети с хэштегом #easy2digital.
Вы подписываетесь на нашу еженедельную рассылку, чтобы получать последние статьи, видео и коды скидок Easy2Digital.
Подпишитесь на наше ежемесячное членство через Patreon, чтобы пользоваться эксклюзивными преимуществами ( www.patreon.com/louisludigital ).

Оглавление: Полное руководство по очистке текста для НЛП при подготовке к машинному обучению

Что такое очистка текста для НЛП в машинном обучении

Нормализация случая

Удалить символы Юникода

Токенизировать весь контент как отдельное значение в списке.

Обработка стоп-слов

Лемматизация

POS-теги для семантической обработки

Предварительная обработка данных с использованием Pandas, Numpy и Scikit Learn

Поделиться этим постом

Раздел комментариев

Подпишитесь на нашу рассылку!

Файлы cookie и конфиденциальность данных