С Новым годом! Форум программистов, компьютерный форум, киберфорум
Microsoft SQL Server
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.70/30: Рейтинг темы: голосов - 30, средняя оценка - 4.70
Кибернетик
465 / 89 / 12
Регистрация: 10.04.2009
Сообщений: 424
1

Select ошибок-очепяток в данных

20.09.2011, 16:08. Показов 5556. Ответов 2
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Приветствую.

Сначала опишу ситуацию.

Есть таблица (в ней есть и другие поля которые могут совпадать или нет, нас они не интересуют):

имяфамилияотчествогод рождения
ИванПупкинАлександрович1987
ИванПупкинАлександрович1987
ИванПупкинАлександровис1987

В третьей строчке опечатка, выделено жирным. Как ее можно найти? Желательно получить пару

кол-воимяфамилияотчествогод рождения
2ИванПупкинАлександрович1987
1ИванПупкинАлександровис1987


Я нагуглил что для поиска опечаток можно использовать "арифметическую разность строк"
Или как - то с помощью
T-SQL
1
Group by
Если кто то сталкивался буду благодарен)


***сорри если не туды запостил((

Добавлено через 45 минут
Нашел на хабре:
Алгоритмы нечеткого поиска (также известного как поиск по сходству или fuzzy string search) являются основой систем проверки орфографии и полноценных поисковых систем вроде Google или Yandex. Например, такие алгоритмы используются для функций наподобие «Возможно вы имели в виду …» в тех же поисковых системах.

... методы и алгоритмы:
  • Расстояние Левенштейна
  • Расстояние Дамерау-Левенштейна
  • Алгоритм Bitap с модификациями от Wu и Manber
  • Алгоритм расширения выборки
  • Метод N-грамм
  • Хеширование по сигнатуре
  • BK-деревья
Можете помочь с реализацией алгоритма "Расстояние Дамерау-Левенштейна" на MS SQL?
Кто нибудь делал что-либо похожее?..

Добавлено через 16 минут
________________________________________________________________________________ __________
Ну, ок! с алгоритмом я сам разберусь, на SQL его переписывать глупо. Но вот с поиском строки-верной и строки-с_опечаткой можете помочь??
0
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
20.09.2011, 16:08
Ответы с готовыми решениями:

Генератор очепяток
Народ вопрос в следующем, есть слово в TEdit или слова в текстовом файле, необходимо на каждое...

Изменение данных одного select при изменении другого select
нужно что бы выбирая одну группу менялись данные в "номере по журналу" не понимаю как это сделать...

Перекидывание данных из одного <select>...</select> в другой
Yest dve korobki tipa &lt;select&gt;...&lt;/select&gt;: odna bitkom nabitaya dannimi s bazi dannih, a vtoraya...

Выборка из БД и вставка данных в <select></select>
Есть 4 таблицы в БД, откуда берется инфа, потом по средствам форм, если быть точнее селекта, хочу...

2
168 / 142 / 1
Регистрация: 01.04.2010
Сообщений: 474
20.09.2011, 17:14 2
Сам не пользовался и не проверял подобной системой но проверь функции системы Soundex()
Я прочитал про неё в книге "Библия пользователя. SQL Server 2005 Пола Нильсена"

С книги:
T-SQL
1
2
3
SELECT SOUNDEX('Nielsen') AS Nielsen, 
SOUNDEX('Nelson') AS NELSON, 
SOUNDEX('Neilson') AS NEILSON
Результат этого запроса будет следующим:
Nielsen NELSON NEILSON
N425 N425 N425

Кстати, если решите данную проблему как то по другому, то опишите, пожалуйста, как вы её решили. И как заменяли неправильные фамилии на правильные (если автоматом исправление было)
1
Кибернетик
465 / 89 / 12
Регистрация: 10.04.2009
Сообщений: 424
20.09.2011, 21:38  [ТС] 3
T-SQL
1
2
SOUNDEX -- Soundex — один из алгоритмов сравнения двух строк по их звучанию. 
        --Он устанавливает одинаковый индекс для строк, имеющих схожее звучание в английском языке.
Удивительно Мне не подходит и все таки.
Цитата Сообщение от Devil_FoX Посмотреть сообщение
Кстати, если решите данную проблему как то по другому, то опишите, пожалуйста, как вы её решили. И как заменяли неправильные фамилии на правильные (если автоматом исправление было)
Обязательно, для этого и существуют форумы вроде этого.

Добавлено через 2 часа 30 минут
Придумал вот решение, если будут поправки в процессе реализации, подправлю.

Алгоритм поиска и замены опечаток в текстовых полях таблицы (Пример с полем "Фамилия"):
  1. Получаем список уникальных строк-эталонов. (я беру из другой таблицы, где есть эти же данные) вида:
    ФамилияИмяОтчествоГод. рожд.
  2. Берем 1-ю строку-эталон и делаем селект вида:
    T-SQL
    1
    
    Select [familiya] From [bad_table] Where [Name] = 'etalon_name' And [Otchestvo] = 'etalon_otchestvo' And [GodRogdeniya] = 'etalon_godrogdeniya'
  3. Из полученной выборки таблицы [bad_table] последовательно сравниваем значения [familiya] с строкой-эталоном по алгоритму "Расстояние Дамерау-Левенштейна", и если значения отличаются в 1 символ, то делаем Update этой записи.
  4. Сам алгоритм лучше реализовать в программе и переложить на нее обязанности вычисления, ибо записей много а сервер один
Описание алгоритма есть в википедии, а реализация на C# вот:
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
public static Int32 DamerauLevenshteinDistance(String source, String target)
{
    if (String.IsNullOrEmpty(source))
    {
        if (String.IsNullOrEmpty(target))
        {
            return 0;
        }
        else
        {
            return target.Length;
        }
    }
    else if (String.IsNullOrEmpty(target))
    {
        return source.Length;
    } 
 
    Int32 m = source.Length;
    Int32 n = target.Length;
    Int32[,] H = new Int32[m + 2, n + 2];
 
    Int32 INF = m + n;
    H[0, 0] = INF;
    for (Int32 i = 0; i <= m; i++) { H[i + 1, 1] = i; H[i + 1, 0] = INF; }
    for (Int32 j = 0; j <= n; j++) { H[1, j + 1] = j; H[0, j + 1] = INF; }
 
    SortedDictionary<Char, Int32> sd = new SortedDictionary<Char, Int32>();
    foreach (Char Letter in (source + target))
    {
        if (!sd.ContainsKey(Letter))
            sd.Add(Letter, 0);
    }
 
    for (Int32 i = 1; i <= m; i++)
    {
        Int32 DB = 0;
        for (Int32 j = 1; j <= n; j++)
        {
            Int32 i1 = sd[target[j - 1]];
            Int32 j1 = DB;
 
            if (source[i - 1] == target[j - 1])
            {
                H[i + 1, j + 1] = H[i, j];
                DB = j;
            }
            else
            {
                H[i + 1, j + 1] = Math.Min(H[i, j], Math.Min(H[i + 1, j], H[i, j + 1])) + 1;
            }
 
            H[i + 1, j + 1] = Math.Min(H[i + 1, j + 1], H[i1, j1] + (i - i1 - 1) + 1 + (j - j1 - 1));
        }
 
        sd[source[i - 1]] = i;
    }
 
    return H[m + 1, n + 1];
}
0
20.09.2011, 21:38
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
20.09.2011, 21:38
Помогаю со студенческими работами здесь

SELECT данных в реляционной базе MySQL с выводом данных внешнего ключа
Например, есть MySQL и в ней бд - firma, в бд 3 таблицы - professions, fio, current_workers. В ...

Отключение контроля ошибок ввода данных
Здравствуйте! Допустим в программе требуется ввести целое число. Нужно сделать так чтобы если...

Ввод данных в запросы без ошибок
Здравствуйте. Использую Microsoft Access 2007 для создания базы данных. У меня это первая БД, так...

Получение данных из select
Есть такой селект: &lt;p&gt;Количество человек:&lt;/p&gt; &lt;p&gt;&lt;select name=&quot;option&quot; id=&quot;option227&quot;...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
Книги и учебные ресурсы по C#
InfoMaster 08.01.2025
Базовые учебники и руководства Одной из лучших книг для начинающих является "C# 10 и . NET 6 для начинающих" Эндрю Троелсена и Филиппа Джепикса . Книга последовательно раскрывает основные концепции. . .
Что такое NullReferenceEx­­­ception и как исправить?
InfoMaster 08.01.2025
NullReferenceException - одно из самых распространенных исключений, с которым сталкиваются разработчики на C#. Это исключение возникает при попытке обратиться к членам объекта (методам, свойствам или. . .
Что такое Null Pointer Exception (NPE) и как это исправить?
InfoMaster 08.01.2025
Null Pointer Exception (NPE) - это одно из самых распространенных исключений в Java, которое возникает при попытке использовать ссылку на объект, значение которой равно null. Это исключение относится. . .
Русский язык в консоли C++
InfoMaster 08.01.2025
При разработке программ на C++ одной из частых проблем, с которой сталкиваются русскоязычные программисты, является корректное отображение кириллицы в консольных приложениях. Эта проблема особенно. . .
Telegram бот на C#
InfoMaster 08.01.2025
Разработка ботов для Telegram стала неотъемлемой частью современной экосистемы мессенджеров. C# предоставляет мощный и удобный инструментарий для создания разнообразных ботов, от простых. . .
Использование GraphQL в Go (Golang)
InfoMaster 08.01.2025
Go (Golang) является одним из наиболее популярных языков программирования, используемых для создания высокопроизводительных серверных приложений. Его архитектурные особенности и встроенные. . .
Что лучше использовать при создании класса в Java: сеттеры или конструктор?
Alexander-7 08.01.2025
Вопрос подробнее: На вопрос: «Когда одновременно создаются конструктор и сеттеры в классе – это нормально?» куратор уточнил: «Ваш класс может вообще не иметь сеттеров, а только конструктор и геттеры. . .
Как работать с GraphQL на TypeScript
InfoMaster 08.01.2025
Введение в GraphQL и TypeScript В современной разработке веб-приложений GraphQL стал мощным инструментом для создания гибких и эффективных API. В сочетании с TypeScript, эта технология. . .
Счётчик на базе сумматоров + регистров и генератора сигналов согласования.
Hrethgir 07.01.2025
Создан с целью проверки скорости асинхронной логики: ранее описанного сумматора и предополагаемых fast регистров. Регистры созданы на базе ранее описанного, предполагаемого fast триггера. То-есть. . .
Как перейти с Options API на Composition API в Vue.js
BasicMan 06.01.2025
Почему переход на Composition API актуален В мире современной веб-разработки фреймворк Vue. js продолжает эволюционировать, предлагая разработчикам все более совершенные инструменты для создания. . .
Архитектура современных процессоров
inter-admin 06.01.2025
Процессор (центральный процессор, ЦП) является основным вычислительным устройством компьютера, которое выполняет обработку данных и управляет работой всех остальных компонентов системы. Архитектура. . .
История создания реляционной модели баз данных, правила Кодда
Programming 06.01.2025
Предпосылки создания реляционной модели В конце 1960-х годов компьютерная индустрия столкнулась с серьезными проблемами в области управления данными. Существовавшие на тот момент модели данных -. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru