Анализаторы текста

Словарный состав языка, выбор лексических единиц, как учить и запоминать новые слова, тесты и задания на знание лексики, специальная лексика, словари и другие вопросы.

Модератор: zymbronia

garans
Сообщения: 812
Зарегистрирован: 03 мар 2018, 19:40
Благодарил (а): 32 раза
Поблагодарили: 176 раз

#26

Сообщение garans »

Знаю несколько анализаторов.
Все они не согласуются друг с другом.

Наиболее надёжным и сильным считаю
https://www.oxfordlearnersdictionaries. ... 0_profiler

Там можно анализировать на две и три тысячи (на самом деле больше трёх, почти 4).

Но и этот анализатор с пробоинами - попадаются простые слова, которые он не воспринимает.

Тем не менее.

Пофайлеры
http://www.englishprofile.org/wordlists/text-inspector

https://www.lextutor.ca/vp/eng/

http://vocabkitchen.com/profiler/cefr

Красиво смотрятся, особенно последний, но данные их принимаю с долей сомнения.
За это сообщение автора garans поблагодарили (всего 2):
helsm, Zlatko_Berrin
garans
Сообщения: 812
Зарегистрирован: 03 мар 2018, 19:40
Благодарил (а): 32 раза
Поблагодарили: 176 раз

#27

Сообщение garans »

Проанализировал один из текстов Cambridge Graded Readers - Nelson's Dream - level 6.
Разочаровался.

http://vocabkitchen.com/profiler/cefr - показал очень малое число слов уровня advanced - меньше одного процента.
Все они оказались в числе Oxford3000.

Масса слов якобы превышает С2.
Но слова не особо сложные, например:

accountant
ache
advisors
africa
airy
alcohol
armchair
astonishment
australia
avenues
backpack
bare
basement
basketball
begging
beings
bench
billions
blanket
bleeding
blessing
blinding
blouse
boast
bookshelves
breaths
bruise
bucket
bugs

Не смешно ли?
Можно ли пользоваться этими средствами и Graded Readers для совершенствования языка для заявленного уровня?
При всей их красоте и эффективности...

Любопытно также, что Oxford3000 не знает слов basketball и alcohol, в то время как основанный на Кембриджской линейке http://www.englishprofile.org/wordlists/text-inspector считает их соответственно из уровней А1 и А2.

Так что...
Нужно просто язык учить, по тем материалам, которые тебе могут пригодиться.
имхо
Alex2018
Сообщения: 1167
Зарегистрирован: 02 мар 2018, 15:24
Благодарил (а): 161 раз
Поблагодарили: 160 раз

#28

Сообщение Alex2018 »

garans пишет: 07 апр 2018, 10:54 basketball и alcohol
Это и хорошо, на кои они нужны, это же не смыслообразующие слова. Запустил сейчас Неумана 4000 в анки, а он выдает мне слово астрология. Ну разве это ессентиал слово?
garans
Сообщения: 812
Зарегистрирован: 03 мар 2018, 19:40
Благодарил (а): 32 раза
Поблагодарили: 176 раз

#29

Сообщение garans »

Alex2018 пишет: 07 апр 2018, 14:40
garans пишет: 07 апр 2018, 10:54 basketball и alcohol
Это и хорошо, на кои они нужны, это же не смыслообразующие слова. Запустил сейчас Неумана 4000 в анки, а он выдает мне слово астрология. Ну разве это ессентиал слово?
Сложно без них что-то рассказывать.

Как чашка, ложка, кружка, вилка, нож, тарелка, чай суп, котлета, картошка, помидоры, лук, огурцы...
имхо
Astrologer
Сообщения: 3012
Зарегистрирован: 15 май 2018, 05:08
Благодарил (а): 25 раз
Поблагодарили: 126 раз

#30

Сообщение Astrologer »

Chinara пишет: 29 мар 2018, 23:01 Кто какие анализаторы текста знает и может посоветовать?
Нужен следующий функционал:
1. Загружаем текст. Если будет возможность загрузить файл txt или pdf, то вообще супер
2. На выходе получаем список слов, который можно отсортировать по порядку появления, по частоте употребления в тексте, по алфавиту, по частотным спискам, по списку CEFR-уровней
3. Список слов можно выгрузить в табличном или текстовом (txt, pdf) формате с/без Definitions, примерами из нашего текста, другими примерами. Если можно прицепить перевод, то это было бы вообще фантастикой.
4. Если бы анализатор мог бы выделять не только одиночные слова, но и phrasal verbs, idioms, collocations, было бы замечательно

Ну что, есть такой в природе?

Пусть даже за некоторую плату
Кодил я эту программу, соответсвующую всем ваши требованиям. Думаю даже больше, чем вы ожидали и могли себе представить.
Однако разрабатывать гораздо дольше чем кодить и тем более просто передрать и использовать на сайтах.
Сейчас нет времени поддерживать проект. Но что то мне подсказывает, что даже сейчас нет аналогов, хотя и не мало слизано. Однако давненько не следил за темой.
Аватара пользователя
maximus
Сообщения: 214
Зарегистрирован: 02 мар 2018, 17:05
Благодарил (а): 124 раза
Поблагодарили: 47 раз

#31

Сообщение maximus »

Я пользуюсь http://wordsfromtext.com/. Там нет CEFR-уровней уровней, правда - какая то своя классификация. Но сервис годный.
Ответить
  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Лексика, словарный запас»