|
|
|
|
|
Рейтинг 4.90/67:
|
|
19 / 19 / 6
Регистрация: 10.01.2011
Сообщений: 241
|
|
Как отличить «слово» от бессмысленного набора символов?12.03.2016, 20:45. Показов 13483. Ответов 14
Метки нет (Все метки)
Здравствуйте.
Ребята, подскажите пожалуйста, какие инструменты (без привязки к языкам программирования) можно применить для определения того, что введенные символы являются словом, а не бессмысленным набором символов "влдатдукывта вызвтк". Перебор заготовленных ранее словарей не является решением задачи. И ещё один вопрос. Можно ли здесь использовать Теорию вероятностей?
0
|
|
| 12.03.2016, 20:45 | |
|
Ответы с готовыми решениями:
14
Как открыть файл в виде набора символов? Как сгенерировать случайную строку из набора символов? |
|
66 / 66 / 31
Регистрация: 11.03.2016
Сообщений: 252
|
|||
| 12.03.2016, 20:48 | |||
|
0
|
|||
|
19 / 19 / 6
Регистрация: 10.01.2011
Сообщений: 241
|
|||
| 12.03.2016, 20:54 [ТС] | |||
|
Но есть же и другие способы решения задачи?
0
|
|||
|
66 / 66 / 31
Регистрация: 11.03.2016
Сообщений: 252
|
|
| 12.03.2016, 20:58 | |
|
OdessaNA, просто без словарей сам вопрос не имеет особого смысла. Конечно, вы можете описать слова русского языка какими-то правилами (вот тут суффикс, вот тут приставка, это идёт за этим), но это заведомо не охватывает ВСЕ слова (как минимум заимствования) и уж точно не охватывает неологизмы — а, как я понял, вы на них и нацелены.
Так как я не специалист в лингвистике, то я бы пошёл по топорному пути — реализовал бы генетический алгоритм, который формирует новые слова из имеющихся, сравнивая результаты со словарём и отбрасывая заведомо не-слова (например, некоторые наборы букв подряд не встречаются ни в одном слове русского языка). Если на форуме есть специалисты по нейронным сетям — я думаю, им тоже есть что сказать
0
|
|
|
61 / 61 / 15
Регистрация: 18.05.2015
Сообщений: 322
|
|
| 12.03.2016, 20:59 | |
|
Если нет перебора словаря, то можно создать алгоритмы, например, проанализировав те же словари, но их результат все равно будет сугубо вероятностным, т.к. всегда можно будет придумать странное слово, которое алгоритм пропустит (т.е. похожее на настоящее, но которого нет), и есть неплохой риск отфильтровать нормальные слова, которые являются специфичными и встречаются редко.
1
|
|
|
698 / 572 / 75
Регистрация: 20.09.2014
Сообщений: 3,700
|
|
| 12.03.2016, 21:30 | |
|
Зачем какой-то интеллект для этой задачи? Интеллект будет долго обучаться. Между тем мы уже можем быстро сформулировать несколько правил.
Я бы лучше решил противоположную задачу, я бы доказывал, что набор букв - это не слово. Например, предлагаю очень простой алгоритм: если идет три и более подряд гласных или согласных - считать набор букв "несловом". Еще можно зацепиться за буквы ь, ы, ъ - они тоже плохо сочетаются с гласными и некоторыми согласными... Любой алгоритм, в том числе словарный алгоритм, не смогут достичь 100% надежности. Зато предлагаемый метод - простой как пень. Теория вероятностей (точнее лингвистическая статистика) тоже может давать неплохие оценки, на мой взгляд. Буква "ы" не может часто попадаться. А лучше конечно анализировать сочетания букв, например, "ый" может встречаться часто, чаще чем другие сочетания с буквой "ы".
1
|
|
|
Модератор
3133 / 2280 / 469
Регистрация: 26.03.2015
Сообщений: 8,876
|
||
| 12.03.2016, 22:10 | ||
|
Видимо, Вам нужно решение какой-то другой задачи. И не забудьте сформулировать, что в рамках Вашей задачи является "словом". Например, "эйафьятлайокудль" является словом русского языка. Добавлено через 2 минуты И "lisp", "c#" - тоже нельзя отнести к "бессмысленным наборам символов".
1
|
||
|
19 / 19 / 6
Регистрация: 10.01.2011
Сообщений: 241
|
|
| 12.03.2016, 22:37 [ТС] | |
|
Да, перебор заготовленных ранее словарей - лучшее решение (тем более, что предметная область ограничивает количество возможных вариантов).
Но в том-то и заключается сложность этой задачи - вариант со словарями, как решение, не рассматривается. По вопросу формулировки. Могут быть использованы только имена существительные без специальных символов.
0
|
|
|
Модератор
3133 / 2280 / 469
Регистрация: 26.03.2015
Сообщений: 8,876
|
||
| 13.03.2016, 04:18 | ||
|
1
|
||
|
698 / 572 / 75
Регистрация: 20.09.2014
Сообщений: 3,700
|
|||||
| 13.03.2016, 07:41 | |||||
|
И еще хочу обратить внимание: что "мой" алгоритм и алгоритм, основанный на лингвистической статистике, являются разновидностью словарного алгоритма. Например, в моем алгоритме имеется "словарь" гласных и согласных букв. P.S. Я бы поставил не менее востребованную практическую задачу: определить по имени пользователя, является ли он спам-ботом? Примерный список:
1
|
|||||
|
19 / 19 / 6
Регистрация: 10.01.2011
Сообщений: 241
|
|
| 13.03.2016, 09:50 [ТС] | |
|
Конечно же о 100% речь идти не может. В любом случае есть процент погрешности. Моя задача и заключается в том, чтобы выработать механизм с наименьшим процентом погрешности.
0
|
|
|
698 / 572 / 75
Регистрация: 20.09.2014
Сообщений: 3,700
|
|
| 13.03.2016, 10:34 | |
|
Нужно определить баланс между размером словаря и качеством фильтрации.
1
|
|
|
Модератор
3133 / 2280 / 469
Регистрация: 26.03.2015
Сообщений: 8,876
|
|||
| 13.03.2016, 13:57 | |||
|
Если Вы просто ищете наборы букв, которые выглядят и звучат как слово русского языка (и Вам всё равно, есть ли у этого набора букв смысл), то это совсем другая задача. И у этой задачи есть простое решение, основанное на статистике. Добавлено через 7 минут "клад" - это тоже слово, как и "эйафьятлайокудль" В задаче написано "бессмысленный набор символов" и ничего про "благозвучный набор символов" и т.п. Конечно, многие отвечают в стиле "автор просит одно, но мне лучше знать, что ему надо, поэтому я отвечу про другое" (и часто угадывают), но у меня нет желания гадать.
1
|
|||
|
698 / 572 / 75
Регистрация: 20.09.2014
Сообщений: 3,700
|
|
| 13.03.2016, 17:34 | |
Сообщение было отмечено OdessaNA как решение
Решение
0
|
|
|
2623 / 1634 / 266
Регистрация: 19.02.2010
Сообщений: 4,341
|
||
| 13.03.2016, 22:28 | ||
Сообщение было отмечено OdessaNA как решение
РешениеТ.е. на вопрос из стартового поста о применении теории вероятности - да, считаете частоты или вероятности и проверяете статистические гипотезы о равенстве или различии частот либо вероятностей. А для слова - только словарь, может, с проверкой-коррекцией возможных опечаток (расстояние Левенштейна).
1
|
||
| 13.03.2016, 22:28 | |
|
Помогаю со студенческими работами здесь
15
Написать программу, которая удаляет из данного набора символов все вхождения символов S и s Для каждой строки из заданного набора S проверить: верно ли, что она содержит как подстроку одну из строк из набора T В тексте удалить каждое слово с четным числом символов, продублировать каждое слово с нечетным числом символов
Искать еще темы с ответами Или воспользуйтесь поиском по форуму: |
|
Новые блоги и статьи
|
|||
|
Модель микоризы: классовый агентный подход 3
anaschu 06.01.2026
aa0a7f55b50dd51c5ec569d2d10c54f6/
O1rJuneU_ls
https:/ / vkvideo. ru/ video-115721503_456239114
|
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ФедосеевПавел 06.01.2026
Owen Logic: О недопустимости использования связки «аналоговый ПИД» + RegKZR
ВВЕДЕНИЕ
Введу сокращения:
аналоговый ПИД — ПИД регулятор с управляющим выходом в виде числа в диапазоне от 0% до. . .
|
Модель микоризы: классовый агентный подход 2
anaschu 06.01.2026
репозиторий https:/ / github. com/ shumilovas/ fungi
ветка по-частям.
коммит Create переделка под биомассу. txt
вход sc, но sm считается внутри мицелия. кстати, обьем тоже должен там считаться. . . .
|
Расчёт токов в цепи постоянного тока
igorrr37 05.01.2026
/ *
Дана цепь постоянного тока с сопротивлениями и напряжениями. Надо найти токи в ветвях.
Программа составляет систему уравнений по 1 и 2 законам Кирхгофа и решает её.
Последовательность действий:. . .
|
|
Новый CodeBlocs. Версия 25.03
palva 04.01.2026
Оказывается, недавно вышла новая версия CodeBlocks за номером 25. 03. Когда-то давно я возился с только что вышедшей тогда версией 20. 03. С тех пор я давно снёс всё с компьютера и забыл. Теперь. . .
|
Модель микоризы: классовый агентный подход
anaschu 02.01.2026
Раньше это было два гриба и бактерия. Теперь три гриба, растение.
И на уровне агентов добавится между грибами или бактериями взаимодействий.
До того я пробовал подход через многомерные массивы,. . .
|
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Programma_Boinc 28.12.2025
Советы по крайней бережливости. Внимание, это ОЧЕНЬ длинный пост.
Налог на собак: https:/ / **********/ gallery/ V06K53e
Финансовый отчет в Excel: https:/ / **********/ gallery/ bKBkQFf
Пост отсюда. . .
|
Кто-нибудь знает, где можно бесплатно получить настольный компьютер или ноутбук? США.
Programma_Boinc 26.12.2025
Нашел на реддите интересную статью под названием Anyone know where to get a free Desktop or Laptop?
Ниже её машинный перевод.
После долгих разбирательств я наконец-то вернула себе. . .
|