Анализаторы текста
Модератор: zymbronia
- Chinara
- Сообщения: 1181
- Зарегистрирован: 28 фев 2018, 22:46
- Благодарил (а): 299 раз
- Поблагодарили: 324 раза
Кто какие анализаторы текста знает и может посоветовать?
Нужен следующий функционал:
1. Загружаем текст. Если будет возможность загрузить файл txt или pdf, то вообще супер
2. На выходе получаем список слов, который можно отсортировать по порядку появления, по частоте употребления в тексте, по алфавиту, по частотным спискам, по списку CEFR-уровней
3. Список слов можно выгрузить в табличном или текстовом (txt, pdf) формате с/без Definitions, примерами из нашего текста, другими примерами. Если можно прицепить перевод, то это было бы вообще фантастикой.
4. Если бы анализатор мог бы выделять не только одиночные слова, но и phrasal verbs, idioms, collocations, было бы замечательно
Ну что, есть такой в природе?
Пусть даже за некоторую плату
Нужен следующий функционал:
1. Загружаем текст. Если будет возможность загрузить файл txt или pdf, то вообще супер
2. На выходе получаем список слов, который можно отсортировать по порядку появления, по частоте употребления в тексте, по алфавиту, по частотным спискам, по списку CEFR-уровней
3. Список слов можно выгрузить в табличном или текстовом (txt, pdf) формате с/без Definitions, примерами из нашего текста, другими примерами. Если можно прицепить перевод, то это было бы вообще фантастикой.
4. Если бы анализатор мог бы выделять не только одиночные слова, но и phrasal verbs, idioms, collocations, было бы замечательно
Ну что, есть такой в природе?
Пусть даже за некоторую плату
- Xander
- Сообщения: 675
- Зарегистрирован: 04 мар 2018, 14:47
- Благодарил (а): 47 раз
- Поблагодарили: 355 раз
Chinara,
Dunno if this website, which btw I found today, has functionality you're looking for, but it's truly a lingustic marvel.
Behold! ))
https://www.lextutor.ca/
Dunno if this website, which btw I found today, has functionality you're looking for, but it's truly a lingustic marvel.
Behold! ))
https://www.lextutor.ca/
- Chinara
- Сообщения: 1181
- Зарегистрирован: 28 фев 2018, 22:46
- Благодарил (а): 299 раз
- Поблагодарили: 324 раза
Xander,
Спасибо. Об этом сайте мне давно известно. Но там нет такого функционала, который нужен мне. А дизайн сайта - вообще «вырви глаз».
Хотя есть полезные функции, но в основном он повторяет функционал программы Range от Paul Nation
Спасибо. Об этом сайте мне давно известно. Но там нет такого функционала, который нужен мне. А дизайн сайта - вообще «вырви глаз».
Хотя есть полезные функции, но в основном он повторяет функционал программы Range от Paul Nation
-
- Сообщения: 553
- Зарегистрирован: 01 мар 2018, 12:35
- Благодарил (а): 318 раз
- Поблагодарили: 142 раза
-
- Сообщения: 812
- Зарегистрирован: 03 мар 2018, 19:40
- Благодарил (а): 32 раза
- Поблагодарили: 176 раз
Слишком много требований.Chinara пишет: ↑29 мар 2018, 23:01 Кто какие анализаторы текста знает и может посоветовать?
Нужен следующий функционал:
1. Загружаем текст. Если будет возможность загрузить файл txt или pdf, то вообще супер
2. На выходе получаем список слов, который можно отсортировать по порядку появления, по частоте употребления в тексте, по алфавиту, по частотным спискам, по списку CEFR-уровней
3. Список слов можно выгрузить в табличном или текстовом (txt, pdf) формате с/без Definitions, примерами из нашего текста, другими примерами. Если можно прицепить перевод, то это было бы вообще фантастикой.
4. Если бы анализатор мог бы выделять не только одиночные слова, но и phrasal verbs, idioms, collocations, было бы замечательно
Ну что, есть такой в природе?
Пусть даже за некоторую плату
Такого не встречал - только отдельные элементы.
Встречный вопрос - а что бы это дало?
На мой взгляд, этого нет, потому что практически большой пользы от этого не будет.
Сейчас во многих курсах после уроков даются слова и фразы, которые встретились в уроке и которые нужно хорошо знать.
Т.е. работа эта делается вручную, но люди не механически это выполняют - это делается совместно с формированием изучаемого материала, что в 3 раза ценнее, имхо.
- Chinara
- Сообщения: 1181
- Зарегистрирован: 28 фев 2018, 22:46
- Благодарил (а): 299 раз
- Поблагодарили: 324 раза
Вообще-то пыталась готовить материалы к челенджу по чтению Harry Potter.
Я вообще-то сторонник того, чтобы автоматизировать рутинные процессы и тратить время эффективно. А уже готовый автоматически созданный материал гораздо легче вычитать и исправить, дополнить.
-
- Сообщения: 812
- Зарегистрирован: 03 мар 2018, 19:40
- Благодарил (а): 32 раза
- Поблагодарили: 176 раз
Не согласен я... :)
Язык - это вообще устное народное творчество в основном. :)
Как можно вычислить и расчленить какую-нибудь Крошечку-Хаврошечку?
Или даже Войну и Мир.
Какая разница, сколько там разных слов, словосочетаний.
Все литературные (и не только) произведения несут определённый духовный заряд, который в цифрах вряд ли определишь.
Но, конечно, на экзаменах счетоводство не уберёшь.
Хотя, пишут, что достаточно небольшого числа сложностей - главное, чтобы к месту.
- Avaddon
- Сообщения: 391
- Зарегистрирован: 06 мар 2018, 19:38
- Благодарил (а): 121 раз
- Поблагодарили: 231 раз
Вот хоть убейте - не понимаю, что вы так носитесь со своим Гарри Поттером. Возьмите нормальный Graded Reader - скажем, Dangerous Skies. Но, нет, вы будете анализировать первую главу первой книжки заучивать выражение
peck somebody on the cheek/forehead etc
to kiss someone quickly and lightly:
She pecked her father lightly on the cheek.
Которое я только в ГП и встречал.
peck somebody on the cheek/forehead etc
to kiss someone quickly and lightly:
She pecked her father lightly on the cheek.
Которое я только в ГП и встречал.
- Chinara
- Сообщения: 1181
- Зарегистрирован: 28 фев 2018, 22:46
- Благодарил (а): 299 раз
- Поблагодарили: 324 раза
Так я в основном не для себя лично, а для планируемого челенджа.
И ещё почему Гарри: три канала информации для изучающих язык - книга, аудиокнига, фильмы. И все три прекрасного качества.
А полезность Graded Readers не оспариваю 😉
-
- Сообщения: 358
- Зарегистрирован: 28 фев 2018, 23:23
- Благодарил (а): 410 раз
- Поблагодарили: 162 раза
При этом теряется огромная часть пользы от самостоятельной работы с текстом.
Для интенсивного чтения лучше брать небольшие тексты и разбирать их самостоятельно.
Автоматизация упрощает процесс получения лексических единиц из текста, но при этом теряется очень важная для изучения языка часть самостоятельной работы с текстом, через эту работу в том числе и происходит усвоение тех самых единиц.
Это по сути своей медвежья услуга.
-
- Сообщения: 812
- Зарегистрирован: 03 мар 2018, 19:40
- Благодарил (а): 32 раза
- Поблагодарили: 176 раз
Сравнил покрытие текста для Madam Bovary - оригинал и версия 3000 (advanced - level 6 Penguin Reader).
У оригинала 85%, у 3000 - 93%.
Много имён собственных.
Всё же разница в 8 % слишком велика, чтобы утверждать, что с 3000 слов можно свободно читать художественную литературу.
Это примерно двадцать неизвестных слов на страницу.
У оригинала 85%, у 3000 - 93%.
Много имён собственных.
Всё же разница в 8 % слишком велика, чтобы утверждать, что с 3000 слов можно свободно читать художественную литературу.
Это примерно двадцать неизвестных слов на страницу.
-
- Сообщения: 1056
- Зарегистрирован: 01 мар 2018, 03:43
- Благодарил (а): 52 раза
- Поблагодарили: 550 раз
Очень точно подмечено.Dream32 пишет: ↑31 мар 2018, 09:25 Автоматизация упрощает процесс получения лексических единиц из текста, но при этом теряется очень важная для изучения языка часть самостоятельной работы с текстом, через эту работу в том числе и происходит усвоение тех самых единиц.
Это по сути своей медвежья услуга.
- Xander
- Сообщения: 675
- Зарегистрирован: 04 мар 2018, 14:47
- Благодарил (а): 47 раз
- Поблагодарили: 355 раз
Dream32, I guess you're misinterpreting the message here. What Chinara is looking for could probably save teachers TONS OF TIME when preparing/checking/choosing materials for students with different levels. Nothing was said about students using this software for self-learning purposes, hw, etc. Or it's me here missing the point? ))Dream32 пишет: ↑31 мар 2018, 09:25При этом теряется огромная часть пользы от самостоятельной работы с текстом.
Для интенсивного чтения лучше брать небольшие тексты и разбирать их самостоятельно.
Автоматизация упрощает процесс получения лексических единиц из текста, но при этом теряется очень важная для изучения языка часть самостоятельной работы с текстом, через эту работу в том числе и происходит усвоение тех самых единиц.
Это по сути своей медвежья услуга.
-
- Сообщения: 358
- Зарегистрирован: 28 фев 2018, 23:23
- Благодарил (а): 410 раз
- Поблагодарили: 162 раза
Xander, на сколько мне известно Chinara язык изучает, а не преподает.
Но я высказала свое мнение именно о подходе ученика к работе с текстом.
Автоматизация лишает ученика очень важного этапа работы с текстом на мой взгляд.
Если это недопонимание, тогда прошу меня извинить.
Сорри, здесь это возможно оффтоп, предложить такую программу я все равно не могу.
Но я высказала свое мнение именно о подходе ученика к работе с текстом.
Автоматизация лишает ученика очень важного этапа работы с текстом на мой взгляд.
Если это недопонимание, тогда прошу меня извинить.
Сорри, здесь это возможно оффтоп, предложить такую программу я все равно не могу.
- IlyaShalnov
- Сообщения: 448
- Зарегистрирован: 28 фев 2018, 23:21
- Благодарил (а): 38 раз
- Поблагодарили: 29 раз
Chinara пишет: ↑29 мар 2018, 23:01 Кто какие анализаторы текста знает и может посоветовать?
Нужен следующий функционал:
1. Загружаем текст. Если будет возможность загрузить файл txt или pdf, то вообще супер
2. На выходе получаем список слов, который можно отсортировать по порядку появления, по частоте употребления в тексте, по алфавиту, по частотным спискам, по списку CEFR-уровней
3. Список слов можно выгрузить в табличном или текстовом (txt, pdf) формате с/без Definitions, примерами из нашего текста, другими примерами. Если можно прицепить перевод, то это было бы вообще фантастикой.
4. Если бы анализатор мог бы выделять не только одиночные слова, но и phrasal verbs, idioms, collocations, было бы замечательно
Ну что, есть такой в природе?
Пусть даже за некоторую плату
В самом простом варианте загружается в программу именно txt. Если что, вы сами можете легко перевести pdf в txt.
А что это за списки CEFR-уровней? Где их можно найти, если они есть?
С definitions – это не простая задача для программы. Вы имеете в виду описание слова в монолингвальном словаре? У каждого слова может быть очень много значений (скажем, пятьдесят или сто). Какое вам подойдет? Тут появляется много неоднозначностей. Программа должна быть весьма интеллектуальной уже только для того, чтобы выписать слова. Она должна распознать слово в разных его словоформах.
С примерами из данного текста было бы не сложно. С примерами из других текстов? Для этого программа должна быть достаточно мощным словарем. И куда вы хотите поместить примеры? Каждое слово, найденное программой, в вашем запросе может получиться размером с небольшую книгу или даже с большую книгу.
Выгрузка в txt больших текстов, соответствующих каждому слову, будет нечитабельна. Но можно было бы выгружать каждую словарную статью и в других разношрифтных, разноотступных и прочих форматах.
Перевод слов или фраз? С переводами слов те же сложности, что и с «definitions». Но какое-никакое решение тут возможно.
Если это фразы, то нужен переводчик. Скажем Google. Но переводчик этот – это супермашина, работающая на суперкомпьютерах и супербазах, и выдающая всё еще сомнительные результаты. Хотя программа могла бы брать переводы у того же Гугла.
С выделением колокаций опять большая сложность, потому что конструкции могут быть типа took бла-бла-бла-got-бла-бла-бла off. Как программе понять, что имелось в виду take off?
ЗЫ. После прочтения вашего поста я понял, что если я буду делать новый словарь (хотя вряд ли буду), который выписывает слова из текста, то в него надо будет добавить сортировки по частотности и по количеству использований в этом конкретно тексте.
-
- Похожие темы
- Ответы
- Просмотры
- Последнее сообщение
-
-
Транскрипция текста
Hyzer Jefferson » 27 мар 2018, 14:02 » в форуме Основной форум об изучении английского языка - 2 Ответы
- 608 Просмотры
-
Последнее сообщение Hyzer Jefferson
27 мар 2018, 14:17
-
-
- 23 Ответы
- 3231 Просмотры
-
Последнее сообщение Bobbi86
09 июл 2023, 11:35
-
-
Онлайн озвучивание текста
Hyzer Jefferson » 15 мар 2018, 17:55 » в форуме Основной форум об изучении английского языка - 8 Ответы
- 1155 Просмотры
-
Последнее сообщение Bobbi86
11 авг 2023, 17:20
-
-
- 7 Ответы
- 5326 Просмотры
-
Последнее сообщение PisikShmax
21 апр 2021, 20:31
-
-
Работа со словами из текста
Moo » 27 фев 2019, 00:12 » в форуме Основной форум об изучении английского языка - 87 Ответы
- 3185 Просмотры
-
Последнее сообщение Moo
11 мар 2019, 11:05
-
-
- 0 Ответы
- 347 Просмотры
-
Последнее сообщение Lavr
25 май 2020, 20:38
-
-
Фонетическая разметка текста
IrinaLog21 » 26 окт 2021, 15:29 » в форуме Основной педагогический форум - 41 Ответы
- 4251 Просмотры
-
Последнее сообщение cherkas
02 ноя 2021, 18:44
-