Система для анализа английских текстов

Как начать изучать язык с нуля, какой метод изучения языка выбрать, получить рекомендации по самостоятельному изучению языка, обсудить другие вопросы.

Модератор: zymbronia

Cynic
Сообщения: 38
Зарегистрирован: 23 май 2020, 16:06
Благодарил (а): 8 раз
Поблагодарили: 1 раз

#1

Сообщение Cynic »

Меня давно занимает мысль позаниматься анализом английских текстов. Смысл следующий:
  • Выбираем какой то источник текста (например, онлайн библиотека, социальная сеть, газеты и т.д.)
  • Ищем примеры использования некоторого слова или выражения в текстах источника. Причем поиск более менее интеллектуальный, т.к. я хочу найти не просто слово и выражение, а например предложение в пределах которого есть слово 'child' и 'it' которое ссылается на него. Или я например хочу найти пример предложения, в котором может быть набор ключевых слов в определенном порядке и между этими словами могут появляться другие слова. Или например мне надо в определенном источнике найти сколько раз употребляется определенное слово в таком то контексте (например, в такой то фразе или после артикля и т.д.)
Поскольку сейчас BigData в моде, верую, что такие системы существуют, т.к. не руками же специалисты лингвисты это делают то в 21 веке. Как плохой пример, есть такая штука как https://context.reverso.net/ которая умеет искать по ключевым словам примеры их использования в тексте (т.е. в контексте). Ну уж больно тупой у нее поиск, не понятно откуда база текстов взялась, и не умеет статистику по текстам считать.
В связи с этим вопросы следующие:
  • Как вообще называется класс подобных систем?
  • Может ли кто ни будь подсказать конкретное название/производителя/ссыль в интернетах?
За это сообщение автора Cynic поблагодарил:
mustang
mustang
Сообщения: 5287
Зарегистрирован: 23 май 2018, 06:17
Благодарил (а): 830 раз
Поблагодарили: 1704 раза

#2

Сообщение mustang »

Cynic,
Cynic пишет: 31 мар 2021, 02:51 Поскольку сейчас BigData в моде, верую, что такие системы существуют,
Вчера только слушал подкаст "star talk radio" (Improving the News, with Max Tegmark), пришедший гость, профессор MIT по физике, написал прогу-агрегатор новостей с ползунками (прога анализирует огромное кол-во текстов и разбивает их на категории, т.е проводит смысловой анализ, ориентирусяь на отдельные слова и выражения).

Регулируя ползунки, можно просматривать одни и те же новости, но предназначенные разным группам населения.

Типа на самых краях находятся фанатики-приверженцы определенных взглядов, а все, что посередние, тексты на ту же тематику, но с более взвешенным/нейтральным взглядом на вещи. (это вот такие своеобразные первые попытки борьбы с сегментированностью американского общества, попытки дать возможность людям получать доступ к разным точкам зрения.)

Сам прогу не пробовал, (прослушал только подкаст) в ближайщее время ее потестирую.

Ссыль на подкаст:
https://www.startalkradio.net/show/impr ... x-tegmark/

Сссыль на прогу:
http://www.improvethenews.org/

ps Понимаю, что вы спрашивали немного о другом, но вот вчера наткнулся на пример такой программы, решил с вами поделиться. Что касается вашего запроса, то, насоклько я знаю, освоив питон, можно на изи такие прожки самому писать. Ничего там фантастического нет. Даже есть специальные учебники по компьютерной лингвистике, пользуясь которыми полный нуб в программировании через несколько месяцев сможет научить себя писать проги для анализа текста.
Cynic
Сообщения: 38
Зарегистрирован: 23 май 2020, 16:06
Благодарил (а): 8 раз
Поблагодарили: 1 раз

#3

Сообщение Cynic »

За ссыль спасибо, поглядим.
С Python'ом проблем не было и нет, но это ж надо убиться такаю штуку написать. Там же всё и frontend, и backend, и база будет, это только кажется легко. Просто не верю, я что нет готового продукта. Просто видимо не много людей этим занимаются и потому тема не очень то и популярна.
Milanya
Сообщения: 845
Зарегистрирован: 03 мар 2018, 22:44
Благодарил (а): 135 раз
Поблагодарили: 452 раза

#4

Сообщение Milanya »

А почему не посмотреть в корпусах? Там можно найти подборки и по словам и по сочетаниям.
english-corpora.org
За это сообщение автора Milanya поблагодарил:
Cynic
mustang
Сообщения: 5287
Зарегистрирован: 23 май 2018, 06:17
Благодарил (а): 830 раз
Поблагодарили: 1704 раза

#5

Сообщение mustang »

Cynic пишет: 01 апр 2021, 03:27 Просто не верю, я что нет готового продукта. Просто видимо не много людей этим занимаются и потому тема не очень то и популярна.
Да не , занимаются, посмотрите в сторону питона для лингвистов и всех ,кому приходистя иметь дело с анализом текстов, nltk решает как раз описанные вами проблемы.

http://www.nltk.org/book_1ed/ch00.html
Cynic
Сообщения: 38
Зарегистрирован: 23 май 2020, 16:06
Благодарил (а): 8 раз
Поблагодарили: 1 раз

#6

Сообщение Cynic »

Да прикольно. Почитаю.
Cynic
Сообщения: 38
Зарегистрирован: 23 май 2020, 16:06
Благодарил (а): 8 раз
Поблагодарили: 1 раз

#7

Сообщение Cynic »

Milanya пишет: 01 апр 2021, 04:54 А почему не посмотреть в корпусах? Там можно найти подборки и по словам и по сочетаниям.
english-corpora.org
Это просто огонь! Спасибо!
Milanya
Сообщения: 845
Зарегистрирован: 03 мар 2018, 22:44
Благодарил (а): 135 раз
Поблагодарили: 452 раза

#8

Сообщение Milanya »

Cynic пишет: 13 май 2021, 18:23 Это просто огонь! Спасибо!
Anytime. Glad to be of service.
Ответить

Вернуться в «Основной форум об изучении английского языка»