Очистка текста от HTML тэгов

@Hydies · Регистрация: 07.10.2019

Author24 — интернет-сервис помощи студентам

Очистите файл от HTML-тегов: http://dfedorov.spb.ru/python/files/p.html
Выведите на экран «чистый» текст. P.S. можно использовать только
стандартные модули Python.

@DobroAlex · 18.06.2020, 16:46

Hydies, могу предложить только Beautiful Soup

@Viktorrus · 18.06.2020, 17:09

Hydies, Если я не ошибаюсь (HTML занимался в прошлом и немного) любые теги размещаются в угловых скобках <...> . Если это так , то нужно искать смещение первого символа "<" и затем первого символа ">" и срезом удалять этот кусок строки. И так в цикле удалить из строки (текста) все теги.
Возможно все это просто сделать с помощью регулярных выражений. Но я в них не разбираюсь.
Но это будет работать, только если в исходном тексте нет символов "<" и ">".
Но и в этом случае задача решаема, только алгоритм усложнится. Потребуется убеждаться, что мы имеем дело с символами тега а не для других мест в исходном тексте.

Рыжий Лис · 18.06.2020, 18:11

Сообщение от Viktorrus

только если в исходном тексте нет символов "<" и ">".

Вот это считать за тег или нет?

HTML5

<div id="krqqdiv" 
class="smallfont krqq_popupbutton" 
onmouseout="krobj.settime=setTimeout('hide_insert()',2000); krobj.insert_over = false;" 
onmousedown="krobj.insert_text();" 
onmouseover="clearTimeout(krobj.settime); krobj.insert_over=true; catchSelection();" 
title="Цитировать выделенный текст" style="left: -100px; top: -100px; visibility: hidden;">Цитировать</div>

Добавлено через 2 минуты

Python

import re
 
t = '''\
<!DOCTYPE html>
<html>
    <head>
       <meta charset="utf-8">
       <title>Абзацы</title>
    </head>
    <body>
        <p>Абзац - отрезок письменной речи, состоящий из нескольких предложений.</p>
        Выделение фразы в особый абзац <br> усиливает падающий на него смысловой акцент.<br>
        Для выделения абзаца его, <br> помимо новой строки, печатают со строки красной, <br> то есть отделяют вертикальным отступом <br> от соседних абзацев и/или делают абзацный отступ.
 
<div id="krqqdiv" 
class="smallfont krqq_popupbutton" 
onmouseout="krobj.settime=setTimeout('hide_insert()',2000); krobj.insert_over = false;" 
onmousedown="krobj.insert_text();" 
onmouseover="clearTimeout(krobj.settime); krobj.insert_over=true; catchSelection();" 
title="Цитировать выделенный текст" style="left: -100px; top: -100px; visibility: hidden;">Цитировать</div>
 
<p><img src="http://unecon.ru/sites/all/themes/by_igavs/images/footer_gr.png" alt="Картинка грифона"></p>
 
    </body>
</html>
'''
 
print(re.sub(r'<.*?>', '', t))

@DobroAlex · 18.06.2020, 19:13

Рыжий Лис, регулярки и HTML? Ну такое

@Viktorrus · 18.06.2020, 19:20

Рыжий Лис, Вот открывающий тег

Python

<div id="krqqdiv" 
class="smallfont krqq_popupbutton" 
onmouseout="krobj.settime=setTimeout('hide_insert()',2000); krobj.insert_over = false;" 
onmousedown="krobj.insert_text();" 
onmouseover="clearTimeout(krobj.settime); krobj.insert_over=true; catchSelection();" 
title="Цитировать выделенный текст" style="left: -100px; top: -100px; visibility: hidden;">

его нужно удалять
и удалить закрывающий тег

Python

</div>

Хотя теги бывают вложенные. Я не уверен, что текст будет читаемым, если просто удалить теги.
Аналогично с таблицами. Если удалить теги формирующие таблицу, то текст будет не читаемым.
Алгоритм, который предложил я годится только для простых, не структурированных текстов.
А в общем, для получения из страницы с тегами содержательный текст нужно использовать существующие методики парсинга и используемые для этого программы. Других вариантов я думаю нет.

Добавлено через 6 минут
Кстати в питоне заложены средства для парсинга, включающие встроенный модуль.

Добавлено через 45 секунд

Сообщение от Hydies

P.S. можно использовать только
стандартные модули Python.

Я имел ввиду это условие в задаче.

Рыжий Лис · 18.06.2020, 19:21

Сообщение от DobroAlex

регулярки и HTML? Ну такое

Да норм, я же не парсю ими.

В джанге реализовано так:

Кликните здесь для просмотра всего текста

Python

def strip_tags(value):
    """Return the given HTML with all tags stripped."""
    # Note: in typical case this loop executes _strip_once once. Loop condition
    # is redundant, but helps to reduce number of executions of _strip_once.
    value = str(value)
    while '<' in value and '>' in value:
        new_value = _strip_once(value)
        if value.count('<') == new_value.count('<'):
            # _strip_once wasn't able to detect more tags.
            break
        value = new_value
    return value

Правда, в _strip_once спрятан парсер

@Viktorrus · 18.06.2020, 19:54

Итак подытожу. Нужно используя встроенные средства питона для парсинга, что бы решить данную задачу. Для этого нужно изучить эти средства питона. Я про них читал, когда интересовался парсингом, но не изучал.

Добавлено через 11 минут
Я думал, что читал у Лутца про парсинг с помощью питона. Но сейчас посмотрел, у него этого нет. Видимо мне это попадалось на просторах интернета, когда я было попытался заняться парсингом, но потом бросил это занятие.

Добавлено через 14 минут
Hydies, Вот одна из ссылок о парсинге на питоне.
"Всё о парсинге сайтов на Python"
https://proglib.io/p/parsing-sites/
Но у меня в памяти смутно, но я читал про какие то средства встроенные в питон (с примерами), которые находятся то ли в модуле, то ли просто инструкции питона предназначенные для парсинга. Но это может рассказать только человек, который занимается парсингом и изучал эти средства питона.
Если хотите разобраться сами, то это нужно лазить по интернету и искать информацию по использованию питона для парсинга сайтов.
Я уже от этого полностью отошел.

Добавлено через 5 минут
Кстати, лазия сейчас по интернету, по моему в той ссылке, которую я дал, я заметил, что для парсинга используется в том числе json. Глянул список модулей питона. json это один из встроенных модулей питона.

@Garry Galler · 18.06.2020, 19:54

Сообщение от DobroAlex

регулярки и HTML? Ну такое

Да везде так делается, где нужно тупо clean text from html сделать.
Вот gensim'овский препроцессор gensim.parsing.preprocessing.strip_tags(text):

Python

>>> RE_TAGS = re.compile(r"<([^>]+)>", re.UNICODE)
>>> def strip_tags(text,marker=''):
        '''Remove tags from s using RE_TAGS.
        >>> strip_tags('<href="http://google.com">')
        ''
        >>> 
        '''
        return RE_TAGS.sub(marker, text)
 
>>> print(strip_tags(t))
 
 
    
       
       Абзацы
    
    
        Абзац - отрезок письменной речи, состоящий из нескольких предложений.
        Выделение фразы в особый абзац  усиливает падающий на него смысловой акцент.
        Для выделения абзаца его,  помимо новой строки, печатают со строки красной,  то есть отделяют вертикальным отступом  от соседних абзацев и/или делают абзацный отступ.
 
Цитировать
 
 
 
    
 
 
>>>

От лишних пробелов уже другая регулярка нужна: RE_WHITESPACE = re.compile(r'(\s)+', re.UNICODE)

@Viktorrus · 18.06.2020, 19:59

А вот еще встроенный модуль в питоне parser. Видимо именно он используется для парсинга, и именно про него я находил инфу в интернете, как парсить питоном.

Добавлено через 2 минуты
Garry Galler, как всегда дал исчерпывающий ответ

@Hydies 0 / 0 / 0 Регистрация: 07.10.2019 Сообщений: 12
		1
	Очистка текста от HTML тэгов 18.06.2020, 10:50. Показов 11007. Ответов 9 Метки нет (Все метки) Очистите файл от HTML-тегов: http://dfedorov.spb.ru/python/files/p.html Выведите на экран «чистый» текст. P.S. можно использовать только стандартные модули Python. 0

@DobroAlex Заклинатель змей 705 / 560 / 219 Регистрация: 30.04.2016 Сообщений: 2,604
	18.06.2020, 16:46	2
	Hydies, могу предложить только Beautiful Soup 0

@Viktorrus 1728 / 968 / 199 Регистрация: 22.02.2018 Сообщений: 2,694 Записей в блоге: 6
	18.06.2020, 17:09	3
	Hydies, Если я не ошибаюсь (HTML занимался в прошлом и немного) любые теги размещаются в угловых скобках <...> . Если это так , то нужно искать смещение первого символа "<" и затем первого символа ">" и срезом удалять этот кусок строки. И так в цикле удалить из строки (текста) все теги. Возможно все это просто сделать с помощью регулярных выражений. Но я в них не разбираюсь. Но это будет работать, только если в исходном тексте нет символов "<" и ">". Но и в этом случае задача решаема, только алгоритм усложнится. Потребуется убеждаться, что мы имеем дело с символами тега а не для других мест в исходном тексте. 0

@DobroAlex Заклинатель змей 705 / 560 / 219 Регистрация: 30.04.2016 Сообщений: 2,604
	18.06.2020, 19:13	5
	Рыжий Лис, регулярки и HTML? Ну такое 0

@Viktorrus 1728 / 968 / 199 Регистрация: 22.02.2018 Сообщений: 2,694 Записей в блоге: 6
	18.06.2020, 19:54	8
	Итак подытожу. Нужно используя встроенные средства питона для парсинга, что бы решить данную задачу. Для этого нужно изучить эти средства питона. Я про них читал, когда интересовался парсингом, но не изучал. Добавлено через 11 минут Я думал, что читал у Лутца про парсинг с помощью питона. Но сейчас посмотрел, у него этого нет. Видимо мне это попадалось на просторах интернета, когда я было попытался заняться парсингом, но потом бросил это занятие. Добавлено через 14 минут Hydies, Вот одна из ссылок о парсинге на питоне. "Всё о парсинге сайтов на Python" https://proglib.io/p/parsing-sites/ Но у меня в памяти смутно, но я читал про какие то средства встроенные в питон (с примерами), которые находятся то ли в модуле, то ли просто инструкции питона предназначенные для парсинга. Но это может рассказать только человек, который занимается парсингом и изучал эти средства питона. Если хотите разобраться сами, то это нужно лазить по интернету и искать информацию по использованию питона для парсинга сайтов. Я уже от этого полностью отошел. Добавлено через 5 минут Кстати, лазия сейчас по интернету, по моему в той ссылке, которую я дал, я заметил, что для парсинга используется в том числе json. Глянул список модулей питона. json это один из встроенных модулей питона. 0

@Viktorrus 1728 / 968 / 199 Регистрация: 22.02.2018 Сообщений: 2,694 Записей в блоге: 6
	18.06.2020, 19:59	10
	А вот еще встроенный модуль в питоне parser. Видимо именно он используется для парсинга, и именно про него я находил инфу в интернете, как парсить питоном. Добавлено через 2 минуты Garry Galler, как всегда дал исчерпывающий ответ 0