Форум программистов, компьютерный форум, киберфорум
Python для начинающих
Войти
Регистрация
Восстановить пароль
Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 5.00/6: Рейтинг темы: голосов - 6, средняя оценка - 5.00
1 / 1 / 0
Регистрация: 09.03.2022
Сообщений: 75

Парсинг слов и синонимов к ним

22.07.2022, 23:56. Показов 1427. Ответов 2

Студворк — интернет-сервис помощи студентам
На повестке дня, делаю парсинг базы данных синонимов, и вот в чем делема, происходит это очень долго, примерно 100 слов с синонимами в минуту, там около 20000 слов, и мне бы хотелось ускорить этот процесс, в этом деле новичок, надеюсь специалисты подскажут как можно ускорить это дело, свой код оставляю ниже
Python
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
import requests
import sqlite3
from bs4 import BeautifulSoup as BS
 
 
db = sqlite3.connect('mySY.db')
c = db.cursor()
c.execute("""CREATE TABLE IF NOT EXISTS nana (
    word    STRING ,
    synonim STRING DEFAULT ('')
)""")
global number
alpha = 'АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЫЬЭЮЯ'
for i in alpha:
    url_ = f'https://synonymonline.ru/{i}'
    sosa_ = requests.get(url_)
    soup_ = BS(sosa_.content, 'lxml')
    words_ = soup_.find(
        'ul', {'class': 'list-unstyled list-columns'}).find_all('a')
    for word_ in words_:
        c.execute(
            "INSERT INTO 'nana' ('word') VALUES(?)", (word_.text,))
        db.commit()
        url_syn = url_+f'/{word_.text.lower()}'
        sisi_ = requests.get(url_syn)
        siup_ = BS(sisi_.content, 'lxml')
        w_ = siup_.find(
            'ol', {'class': 'list-words list-columns'}).find_all('li')
        main = []
        for m in w_:
            main.append(m.text)
        a = ','.join(main)
        c.execute(
            "UPDATE nana SET synonim=? WHERE word=?", (a, word_.text,))
        db.commit()
    number = soup_.find('ul', {'class': 'pagination'}).find_all('li')
    for numanuma in number:
        pass
    for num in range(2, int(numanuma.text), 1):
        url = f'https://synonymonline.ru/{i}?page={num}'
        sosa = requests.get(url)
        soup = BS(sosa.content, 'lxml')
        words = soup.find(
            'ul', {'class': 'list-unstyled list-columns'}).find_all('li')
        for word in words:
            c.execute("INSERT INTO 'nana' ('word') VALUES(?)", (word.text,))
            db.commit()
            urlsyn = url_+f'/{word.text.lower()}'
            sisi = requests.get(urlsyn)
            siup = BS(sisi.content, 'lxml')
            w = siup.find(
                'ol', {'class': 'list-words list-columns'}).find_all('li')
            main = []
            for m in w:
                main.append(m.text)
            b = ','.join(main)
            c.execute(
                "UPDATE nana SET synonim=? WHERE word=?", (b, word.text,))
            db.commit()
 
db.close()
Добавлено через 2 часа 9 минут
Конкретно меня интересует оптимизация этих строк кода:
Python
1
2
3
4
5
6
7
8
9
 w_ = siup_.find(
            'ol', {'class': 'list-words list-columns'}).find_all('li')
        main = []
        for m in w_:
            main.append(m.text)
        a = ','.join(main)
        c.execute(
            "UPDATE nana SET synonim=? WHERE word=?", (a, word_.text,))
        db.commit()
0
Лучшие ответы (1)
IT_Exp
Эксперт
34794 / 4073 / 2104
Регистрация: 17.06.2006
Сообщений: 32,602
Блог
22.07.2022, 23:56
Ответы с готовыми решениями:

Какой ресурс посоветуете для поиска синонимов слов?
Какой ресурс посоветуете для поиска синонимов слов по английскому языку? Желательно, чтобы к синонимам еще бы и приводились примеры...

Из слов составить предложение и произвести с ним заданные действия
Составить программу, которая: вводит три слова в разные строковые переменные; объединяет введенные строки с учетом разделения слов...

Парсинг ключевых слов
как собирать ключевые слова для определенной темы? Парсер настроен под поисковик, но как правильно задавать слово или тему в поиске и...

2
Эксперт Python
 Аватар для Red white socks
4523 / 1899 / 336
Регистрация: 18.01.2021
Сообщений: 3,489
23.07.2022, 01:11
Лучший ответ Сообщение было отмечено Arsenicum как решение

Решение

Уберите вставку, апдейт и коммит из цикла.
Во-первых, непонятно, зачем вы вставляете в таблицу слово, потом апдейтите в этой строке синонимы. Вместо того, чтобы по-человечески вставить сразу строку целиком.
Во-вторых, если уж у вас БД, то какой смысл тратить на слово всего одну строку таблицы, схлопывая все синонимы. Как потом с этим работать? Вставляйте каждый синоним в отдельной строке.
В-третьих, причина медленной работы в построчном коммите. Считайте пакет слов с их синонимами, например, все слова на конкретную букву, а затем вставляйте их, используя executemany.
И последнее по порядку, но не по важности
Цитата Сообщение от Arsenicum Посмотреть сообщение
и вот в чем делема
Никогда! Никогда не употребляйте, тем более на письме, слов, смысла которых не понимаете. И правописания которых не знаете.
Дилемма - проблема выбора из двух, как правило равнозначных, альтернатив.
5
1 / 1 / 0
Регистрация: 09.03.2022
Сообщений: 75
23.07.2022, 01:43  [ТС]
Благодарю, и вправду работать стало быстрее!
Цитата Сообщение от Red white socks Посмотреть сообщение
Никогда! Никогда не употребляйте, тем более на письме, слов, смысла которых не понимаете.
Извиняюсь, до этого момента я думал что понимаю
0
Надоела реклама? Зарегистрируйтесь и она исчезнет полностью.
BasicMan
Эксперт
29316 / 5623 / 2384
Регистрация: 17.02.2009
Сообщений: 30,364
Блог
23.07.2022, 01:43
Помогаю со студенческими работами здесь

Парсинг нецензурных слов в файле
Написать программу, которая заменит все "нецензурные слова" в файле на , пишем в тот же файл результат."нецензурные слова"...

Создать объект WordArray, содержащий массив слов и позволяющий проводить над ним операции
Вот такая вот лаба мне досталось, нужно в JavaScript создать сценарий с использованием объектов... "Создайте сценарий в...

Реализовать парсинг слов в строке в соответствии с условием
Дана строка, содержащая последовательность слов, разделенных пробелами. Приняв первое слово в последовательности за образец, выбрать из...

Парсинг строк: подсчитать и вывести количество слов в заданной строке
Прочитать из файла строку символов. Данная строка состоит из нулей, единиц и пробелов. Группы нулей и единиц, разделенные пробелами (одним...

Docx + python парсинг xml, не обновляются данные страниц, слов и символов
Добрый вечер, не могу решить следующую ситуацию. Создаю файл *.docx добавляю в него параграф в параграф пишу текст и сохраняю, если открыть...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
3
Ответ Создать тему
Новые блоги и статьи
PhpStorm 2025.3: WSL Terminal всегда стартует в ~
and_y87 14.12.2025
PhpStorm 2025. 3: WSL Terminal всегда стартует в ~ (home), игнорируя директорию проекта Симптом: После обновления до PhpStorm 2025. 3 встроенный терминал WSL открывается в домашней директории. . .
Access
VikBal 11.12.2025
Помогите пожалуйста !! Как объединить 2 одинаковые БД Access с разными данными.
Новый ноутбук
volvo 07.12.2025
Всем привет. По скидке в "черную пятницу" взял себе новый ноутбук Lenovo ThinkBook 16 G7 на Амазоне: Ryzen 5 7533HS 64 Gb DDR5 1Tb NVMe 16" Full HD Display Win11 Pro
Музыка, написанная Искусственным Интеллектом
volvo 04.12.2025
Всем привет. Некоторое время назад меня заинтересовало, что уже умеет ИИ в плане написания музыки для песен, и, собственно, исполнения этих самых песен. Стихов у нас много, уже вышли 4 книги, еще 3. . .
От async/await к виртуальным потокам в Python
IndentationError 23.11.2025
Армин Ронахер поставил под сомнение async/ await. Создатель Flask заявляет: цветные функции - провал, виртуальные потоки - решение. Не threading-динозавры, а новое поколение лёгких потоков. Откат?. . .
Поиск "дружественных имён" СОМ портов
Argus19 22.11.2025
Поиск "дружественных имён" СОМ портов На странице: https:/ / norseev. ru/ 2018/ 01/ 04/ comportlist_windows/ нашёл схожую тему. Там приведён код на С++, который показывает только имена СОМ портов, типа,. . .
Сколько Государство потратило денег на меня, обеспечивая инсулином.
Programma_Boinc 20.11.2025
Сколько Государство потратило денег на меня, обеспечивая инсулином. Вот решила сделать интересный приблизительный подсчет, сколько государство потратило на меня денег на покупку инсулинов. . . .
Ломающие изменения в C#.NStar Alpha
Etyuhibosecyu 20.11.2025
Уже можно не только тестировать, но и пользоваться C#. NStar - писать оконные приложения, содержащие надписи, кнопки, текстовые поля и даже изображения, например, моя игра "Три в ряд" написана на этом. . .
Мысли в слух
kumehtar 18.11.2025
Кстати, совсем недавно имел разговор на тему медитаций с людьми. И обнаружил, что они вообще не понимают что такое медитация и зачем она нужна. Самые базовые вещи. Для них это - когда просто люди. . .
Создание Single Page Application на фреймах
krapotkin 16.11.2025
Статья исключительно для начинающих. Подходы оригинальностью не блещут. В век Веб все очень привыкли к дизайну Single-Page-Application . Быстренько разберем подход "на фреймах". Мы делаем одну. . .
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2025, CyberForum.ru