Анализаторы текста

Словарный состав языка, выбор лексических единиц, как учить и запоминать новые слова, тесты и задания на знание лексики, специальная лексика, словари и другие вопросы.

Модератор: zymbronia

Аватара пользователя
Chinara
Сообщения: 1181
Зарегистрирован: 28 фев 2018, 22:46
Благодарил (а): 299 раз
Поблагодарили: 324 раза

#1

Сообщение Chinara »

Кто какие анализаторы текста знает и может посоветовать?
Нужен следующий функционал:
1. Загружаем текст. Если будет возможность загрузить файл txt или pdf, то вообще супер
2. На выходе получаем список слов, который можно отсортировать по порядку появления, по частоте употребления в тексте, по алфавиту, по частотным спискам, по списку CEFR-уровней
3. Список слов можно выгрузить в табличном или текстовом (txt, pdf) формате с/без Definitions, примерами из нашего текста, другими примерами. Если можно прицепить перевод, то это было бы вообще фантастикой.
4. Если бы анализатор мог бы выделять не только одиночные слова, но и phrasal verbs, idioms, collocations, было бы замечательно

Ну что, есть такой в природе?

Пусть даже за некоторую плату
Аватара пользователя
Xander
Сообщения: 675
Зарегистрирован: 04 мар 2018, 14:47
Благодарил (а): 47 раз
Поблагодарили: 355 раз

#2

Сообщение Xander »

Chinara,
Dunno if this website, which btw I found today, has functionality you're looking for, but it's truly a lingustic marvel.

Behold! ))
https://www.lextutor.ca/
Аватара пользователя
Chinara
Сообщения: 1181
Зарегистрирован: 28 фев 2018, 22:46
Благодарил (а): 299 раз
Поблагодарили: 324 раза

#3

Сообщение Chinara »

Xander,
Спасибо. Об этом сайте мне давно известно. Но там нет такого функционала, который нужен мне. А дизайн сайта - вообще «вырви глаз».
Хотя есть полезные функции, но в основном он повторяет функционал программы Range от Paul Nation
Аватара пользователя
Xander
Сообщения: 675
Зарегистрирован: 04 мар 2018, 14:47
Благодарил (а): 47 раз
Поблагодарили: 355 раз

#4

Сообщение Xander »

Chinara пишет: 30 мар 2018, 11:00 Range от Paul Nation
never heard of that one
paveltashkinov
Сообщения: 553
Зарегистрирован: 01 мар 2018, 12:35
Благодарил (а): 318 раз
Поблагодарили: 142 раза

#5

Сообщение paveltashkinov »

Cambridge Write & Improve
За это сообщение автора paveltashkinov поблагодарил:
Zlatko_Berrin
garans
Сообщения: 812
Зарегистрирован: 03 мар 2018, 19:40
Благодарил (а): 32 раза
Поблагодарили: 176 раз

#6

Сообщение garans »

Chinara пишет: 29 мар 2018, 23:01 Кто какие анализаторы текста знает и может посоветовать?
Нужен следующий функционал:
1. Загружаем текст. Если будет возможность загрузить файл txt или pdf, то вообще супер
2. На выходе получаем список слов, который можно отсортировать по порядку появления, по частоте употребления в тексте, по алфавиту, по частотным спискам, по списку CEFR-уровней
3. Список слов можно выгрузить в табличном или текстовом (txt, pdf) формате с/без Definitions, примерами из нашего текста, другими примерами. Если можно прицепить перевод, то это было бы вообще фантастикой.
4. Если бы анализатор мог бы выделять не только одиночные слова, но и phrasal verbs, idioms, collocations, было бы замечательно

Ну что, есть такой в природе?

Пусть даже за некоторую плату
Слишком много требований.
Такого не встречал - только отдельные элементы.

Встречный вопрос - а что бы это дало?
На мой взгляд, этого нет, потому что практически большой пользы от этого не будет.

Сейчас во многих курсах после уроков даются слова и фразы, которые встретились в уроке и которые нужно хорошо знать.
Т.е. работа эта делается вручную, но люди не механически это выполняют - это делается совместно с формированием изучаемого материала, что в 3 раза ценнее, имхо.
За это сообщение автора garans поблагодарил:
Mike
Аватара пользователя
Chinara
Сообщения: 1181
Зарегистрирован: 28 фев 2018, 22:46
Благодарил (а): 299 раз
Поблагодарили: 324 раза

#7

Сообщение Chinara »

garans пишет: 30 мар 2018, 14:50 Встречный вопрос - а что бы это дало?
Вообще-то пыталась готовить материалы к челенджу по чтению Harry Potter.
garans пишет: 30 мар 2018, 14:50 Т.е. работа эта делается вручную, но люди не механически это выполняют - это делается совместно с формированием изучаемого материала, что в 3 раза ценнее, имхо.
Я вообще-то сторонник того, чтобы автоматизировать рутинные процессы и тратить время эффективно. А уже готовый автоматически созданный материал гораздо легче вычитать и исправить, дополнить.
garans
Сообщения: 812
Зарегистрирован: 03 мар 2018, 19:40
Благодарил (а): 32 раза
Поблагодарили: 176 раз

#8

Сообщение garans »

Chinara пишет: 30 мар 2018, 14:57 Я вообще-то сторонник того, чтобы автоматизировать рутинные процессы и тратить время эффективно. А уже готовый автоматически созданный материал гораздо легче вычитать и исправить, дополнить.
Не согласен я... :)

Язык - это вообще устное народное творчество в основном. :)

Как можно вычислить и расчленить какую-нибудь Крошечку-Хаврошечку?
Или даже Войну и Мир.

Какая разница, сколько там разных слов, словосочетаний.
Все литературные (и не только) произведения несут определённый духовный заряд, который в цифрах вряд ли определишь.

Но, конечно, на экзаменах счетоводство не уберёшь.
Хотя, пишут, что достаточно небольшого числа сложностей - главное, чтобы к месту.
Аватара пользователя
Chinara
Сообщения: 1181
Зарегистрирован: 28 фев 2018, 22:46
Благодарил (а): 299 раз
Поблагодарили: 324 раза

#9

Сообщение Chinara »

garans, не вижу смысла продолжать оффтопик и что-то вам доказывать
За это сообщение автора Chinara поблагодарили (всего 3):
tourist, Avaddon, Bobcat
garans
Сообщения: 812
Зарегистрирован: 03 мар 2018, 19:40
Благодарил (а): 32 раза
Поблагодарили: 176 раз

#10

Сообщение garans »

Chinara пишет: 30 мар 2018, 16:45 garans, не вижу смысла продолжать оффтопик и что-то вам доказывать
Извините, если задел и повёл разговор в сторону.
Аватара пользователя
Avaddon
Сообщения: 391
Зарегистрирован: 06 мар 2018, 19:38
Благодарил (а): 121 раз
Поблагодарили: 231 раз

#11

Сообщение Avaddon »

Вот хоть убейте - не понимаю, что вы так носитесь со своим Гарри Поттером. Возьмите нормальный Graded Reader - скажем, Dangerous Skies. Но, нет, вы будете анализировать первую главу первой книжки заучивать выражение

peck somebody on the cheek/forehead etc

to kiss someone quickly and lightly:
She pecked her father lightly on the cheek.

Которое я только в ГП и встречал.
Аватара пользователя
Chinara
Сообщения: 1181
Зарегистрирован: 28 фев 2018, 22:46
Благодарил (а): 299 раз
Поблагодарили: 324 раза

#12

Сообщение Chinara »

Avaddon пишет: 31 мар 2018, 01:47 Вот хоть убейте - не понимаю, что вы так носитесь со своим Гарри Поттером.
Так я в основном не для себя лично, а для планируемого челенджа.
И ещё почему Гарри: три канала информации для изучающих язык - книга, аудиокнига, фильмы. И все три прекрасного качества.

А полезность Graded Readers не оспариваю 😉
Dream32
Сообщения: 358
Зарегистрирован: 28 фев 2018, 23:23
Благодарил (а): 410 раз
Поблагодарили: 162 раза

#13

Сообщение Dream32 »

Chinara пишет: 30 мар 2018, 14:57 Я вообще-то сторонник того, чтобы автоматизировать рутинные процессы и тратить время эффективно. А уже готовый автоматически созданный материал гораздо легче вычитать и исправить, дополнить.
При этом теряется огромная часть пользы от самостоятельной работы с текстом.
Для интенсивного чтения лучше брать небольшие тексты и разбирать их самостоятельно.
Автоматизация упрощает процесс получения лексических единиц из текста, но при этом теряется очень важная для изучения языка часть самостоятельной работы с текстом, через эту работу в том числе и происходит усвоение тех самых единиц.
Это по сути своей медвежья услуга.
За это сообщение автора Dream32 поблагодарили (всего 2):
Avaddon, Mike
garans
Сообщения: 812
Зарегистрирован: 03 мар 2018, 19:40
Благодарил (а): 32 раза
Поблагодарили: 176 раз

#14

Сообщение garans »

Сравнил покрытие текста для Madam Bovary - оригинал и версия 3000 (advanced - level 6 Penguin Reader).
У оригинала 85%, у 3000 - 93%.
Много имён собственных.

Всё же разница в 8 % слишком велика, чтобы утверждать, что с 3000 слов можно свободно читать художественную литературу.
Это примерно двадцать неизвестных слов на страницу.
Аватара пользователя
Avaddon
Сообщения: 391
Зарегистрирован: 06 мар 2018, 19:38
Благодарил (а): 121 раз
Поблагодарили: 231 раз

#15

Сообщение Avaddon »

И вообще, что мешает людям самим читать и самим работать? Пусть привыкают быть взрослыми.
(Chinara уже, наверное, не рада, что обратилась с просьбой)))
Mike
Сообщения: 1056
Зарегистрирован: 01 мар 2018, 03:43
Благодарил (а): 52 раза
Поблагодарили: 550 раз

#16

Сообщение Mike »

Dream32 пишет: 31 мар 2018, 09:25 Автоматизация упрощает процесс получения лексических единиц из текста, но при этом теряется очень важная для изучения языка часть самостоятельной работы с текстом, через эту работу в том числе и происходит усвоение тех самых единиц.
Это по сути своей медвежья услуга.
Очень точно подмечено.
Аватара пользователя
Xander
Сообщения: 675
Зарегистрирован: 04 мар 2018, 14:47
Благодарил (а): 47 раз
Поблагодарили: 355 раз

#17

Сообщение Xander »

Dream32 пишет: 31 мар 2018, 09:25
Chinara пишет: 30 мар 2018, 14:57 Я вообще-то сторонник того, чтобы автоматизировать рутинные процессы и тратить время эффективно. А уже готовый автоматически созданный материал гораздо легче вычитать и исправить, дополнить.
При этом теряется огромная часть пользы от самостоятельной работы с текстом.
Для интенсивного чтения лучше брать небольшие тексты и разбирать их самостоятельно.
Автоматизация упрощает процесс получения лексических единиц из текста, но при этом теряется очень важная для изучения языка часть самостоятельной работы с текстом, через эту работу в том числе и происходит усвоение тех самых единиц.
Это по сути своей медвежья услуга.
Dream32, I guess you're misinterpreting the message here. What Chinara is looking for could probably save teachers TONS OF TIME when preparing/checking/choosing materials for students with different levels. Nothing was said about students using this software for self-learning purposes, hw, etc. Or it's me here missing the point? ))
За это сообщение автора Xander поблагодарил:
Chinara
Dream32
Сообщения: 358
Зарегистрирован: 28 фев 2018, 23:23
Благодарил (а): 410 раз
Поблагодарили: 162 раза

#18

Сообщение Dream32 »

Xander, на сколько мне известно Chinara язык изучает, а не преподает.
Но я высказала свое мнение именно о подходе ученика к работе с текстом.
Автоматизация лишает ученика очень важного этапа работы с текстом на мой взгляд.
Если это недопонимание, тогда прошу меня извинить.
Сорри, здесь это возможно оффтоп, предложить такую программу я все равно не могу.
Alex2018
Сообщения: 1167
Зарегистрирован: 02 мар 2018, 15:24
Благодарил (а): 161 раз
Поблагодарили: 160 раз

#19

Сообщение Alex2018 »

Человек задал интересный вопрос по поводу автоматизации, а ему в ответ 15 постов что автоматизация бесполезна.
Аватара пользователя
Avaddon
Сообщения: 391
Зарегистрирован: 06 мар 2018, 19:38
Благодарил (а): 121 раз
Поблагодарили: 231 раз

#20

Сообщение Avaddon »

Да, бесполезна. А вы не знали?
Alex2018
Сообщения: 1167
Зарегистрирован: 02 мар 2018, 15:24
Благодарил (а): 161 раз
Поблагодарили: 160 раз

#21

Сообщение Alex2018 »

Avaddon пишет: 31 мар 2018, 13:01 Да, бесполезна. А вы не знали?
Логика железная.
Аватара пользователя
IlyaShalnov
Сообщения: 448
Зарегистрирован: 28 фев 2018, 23:21
Благодарил (а): 38 раз
Поблагодарили: 29 раз

#22

Сообщение IlyaShalnov »

Chinara пишет: 29 мар 2018, 23:01 Кто какие анализаторы текста знает и может посоветовать?
Нужен следующий функционал:
1. Загружаем текст. Если будет возможность загрузить файл txt или pdf, то вообще супер
2. На выходе получаем список слов, который можно отсортировать по порядку появления, по частоте употребления в тексте, по алфавиту, по частотным спискам, по списку CEFR-уровней
3. Список слов можно выгрузить в табличном или текстовом (txt, pdf) формате с/без Definitions, примерами из нашего текста, другими примерами. Если можно прицепить перевод, то это было бы вообще фантастикой.
4. Если бы анализатор мог бы выделять не только одиночные слова, но и phrasal verbs, idioms, collocations, было бы замечательно

Ну что, есть такой в природе?

Пусть даже за некоторую плату

В самом простом варианте загружается в программу именно txt. Если что, вы сами можете легко перевести pdf в txt.

А что это за списки CEFR-уровней? Где их можно найти, если они есть?

С definitions – это не простая задача для программы. Вы имеете в виду описание слова в монолингвальном словаре? У каждого слова может быть очень много значений (скажем, пятьдесят или сто). Какое вам подойдет? Тут появляется много неоднозначностей. Программа должна быть весьма интеллектуальной уже только для того, чтобы выписать слова. Она должна распознать слово в разных его словоформах.

С примерами из данного текста было бы не сложно. С примерами из других текстов? Для этого программа должна быть достаточно мощным словарем. И куда вы хотите поместить примеры? Каждое слово, найденное программой, в вашем запросе может получиться размером с небольшую книгу или даже с большую книгу.

Выгрузка в txt больших текстов, соответствующих каждому слову, будет нечитабельна. Но можно было бы выгружать каждую словарную статью и в других разношрифтных, разноотступных и прочих форматах.

Перевод слов или фраз? С переводами слов те же сложности, что и с «definitions». Но какое-никакое решение тут возможно.

Если это фразы, то нужен переводчик. Скажем Google. Но переводчик этот – это супермашина, работающая на суперкомпьютерах и супербазах, и выдающая всё еще сомнительные результаты. Хотя программа могла бы брать переводы у того же Гугла.

С выделением колокаций опять большая сложность, потому что конструкции могут быть типа took бла-бла-бла-got-бла-бла-бла off. Как программе понять, что имелось в виду take off?




ЗЫ. После прочтения вашего поста я понял, что если я буду делать новый словарь (хотя вряд ли буду), который выписывает слова из текста, то в него надо будет добавить сортировки по частотности и по количеству использований в этом конкретно тексте.
Аватара пользователя
Chinara
Сообщения: 1181
Зарегистрирован: 28 фев 2018, 22:46
Благодарил (а): 299 раз
Поблагодарили: 324 раза

#23

Сообщение Chinara »

Я нашла то, что мне нужно. Или практически ио что нужно.

Всем спасибо за оффтопик
Alex2018
Сообщения: 1167
Зарегистрирован: 02 мар 2018, 15:24
Благодарил (а): 161 раз
Поблагодарили: 160 раз

#24

Сообщение Alex2018 »

Chinara, дак расскажите.
За это сообщение автора Alex2018 поблагодарил:
Yety
Materiya
Сообщения: 43
Зарегистрирован: 30 мар 2018, 00:16
Благодарил (а): 46 раз
Поблагодарили: 3 раза

#25

Сообщение Materiya »

Chinara пишет: 31 мар 2018, 17:46 Я нашла то, что мне нужно. Или практически ио что нужно.

Всем спасибо за оффтопик
Поделитесь,пожалуйста, названием или ссылкой
За это сообщение автора Materiya поблагодарил:
Yety
Ответить
  • Похожие темы
    Ответы
    Просмотры
    Последнее сообщение

Вернуться в «Лексика, словарный запас»