Форум программистов, компьютерный форум, киберфорум
C# для начинающих
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
Рейтинг 4.57/35: Рейтинг темы: голосов - 35, средняя оценка - 4.57
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
1

Получить текст из документа HTML

06.03.2012, 17:19. Показов 7286. Ответов 19
Метки нет (Все метки)

Author24 — интернет-сервис помощи студентам
Всем добрый день!!! Подскажите как получить текст из документа html. В документе он начинается с тега <p>.
Допустим если на входе строка такого вида <p class=Title align=center style='text-align:center'>РОССИЙСКАЯ
ФЕДЕРАЦИЯ</p>

Делаю так:
C#
1
2
3
4
5
6
webBrowser1.Navigate(path);            
            
            foreach (HtmlElement he in webBrowser1.Document.GetElementsByTagName("p"))
            {
                MessageBox.Show(he.OuterHtml);
            }
Надо получить РОССИЙСКАЯ
ФЕДЕРАЦИЯ

Но MessageBox выдает<p class=Title align=center style='text-align:center'></p>

В чем ошибка?
Заранее спасибо!!!
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
06.03.2012, 17:19
Ответы с готовыми решениями:

Получить массив параграфов документа html
Добрый день! Нужно получить массив праграфов из документа Html средствами c#. Как это сделать?

Получить текст из документа по URL
Здравствуйте! Допустим есть ссылка &quot;http://sait.ru/text.txt&quot;, по этому адресу есть текст всего с...

Получить все сериалы из N страниц html документа
Продолжая развивать тему скрапа страниц из темы...

На оборотной стороне документа word в правой части документа, текст съезжает за границу документа
Добрый вечер. Есть код, который формирует документ из шаблона. И все вроде бы, но происходит что...

19
Эксперт Java
4093 / 3827 / 745
Регистрация: 18.05.2010
Сообщений: 9,331
Записей в блоге: 11
07.03.2012, 07:13 2
Скорее всего стоит заменить OuterHtml на что-то из: InnerHtml, InnerText
0
136 / 104 / 9
Регистрация: 30.01.2011
Сообщений: 699
07.03.2012, 07:18 3
Ты берешь outerHtml, а надо обычный текст.Смотри методы, которые используешь
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
07.03.2012, 09:14  [ТС] 4
Цитата Сообщение от turbanoff Посмотреть сообщение
Скорее всего стоит заменить OuterHtml на что-то из: InnerHtml, InnerText
Все равно не получается. Может дело в кодировке?
0
Эксперт Java
4093 / 3827 / 745
Регистрация: 18.05.2010
Сообщений: 9,331
Записей в блоге: 11
07.03.2012, 09:30 5
Цитата Сообщение от SoloWay Посмотреть сообщение
Все равно не получается. Может дело в кодировке?
Вы покажите что они содержат.
0
6287 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
08.03.2012, 11:44 6
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
using System;
using HtmlAgilityPack;
 
class Program
{
    static void Main(string[] args)
    {
        HtmlNode node = HtmlNode.CreateNode(
                @"<p class=Title align=center style='text-align:center'>" + 
                "РОССИЙСКАЯ ФЕДЕРАЦИЯ</p>");
        string innerText = node.InnerText;
        Console.WriteLine(innerText);
        /**
         * РОССИЙСКАЯ ФЕДЕРАЦИЯ
         */ 
    }
}
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
08.03.2012, 14:05  [ТС] 7
А если несколько документов и у них разное содержимое?
Пример в прикрепленном файле
Вложения
Тип файла: rar Файл.rar (514 байт, 24 просмотров)
0
6287 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
08.03.2012, 14:19 8
SoloWay, что Вы имели ввиду?
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
08.03.2012, 14:26  [ТС] 9
Допустим документов несколько. Допустим в них по 10 строчек текста. Я знаю что структура их одинаковая. Мне необходимо вытягивать из этих документов текст. Как это сделать?
0
45 / 44 / 7
Регистрация: 15.10.2008
Сообщений: 320
08.03.2012, 14:35 10
основной текст скорее всего находится в тегах span,div,p. находишь эти теги в своем хтмл (можно регексом) потом по показанной выше схеме обрабатываешь их
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
08.03.2012, 14:43  [ТС] 11
Текст находится тут @"<p class=Title align=center style='text-align:center'>" +
Текст тут </p>");
0
6287 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
08.03.2012, 14:55 12
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
using System;
using System.Collections.Generic;
using HtmlAgilityPack;
 
class Program
{
    static void Main(string[] args)
    {
        HtmlDocument doc = new HtmlDocument();
        doc.Load("D:\\Файл.htm");
        IEnumerable<HtmlNode> pars = doc.DocumentNode.Descendants("p");
        foreach (HtmlNode p in pars)
            Console.WriteLine(p.InnerText);
        Console.ReadKey(true);
    }
}
1
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
08.03.2012, 20:32  [ТС] 13
C#
1
2
3
4
5
6
7
private void button1_Click(object sender, EventArgs e)
        {
          HAP.HtmlDocument doc = new HAP.HtmlDocument();
            doc.Load("D:\\641.htm");
            IEnumerable<HtmlNode> pars = doc.DocumentNode.Descendants("p");
            foreach (HtmlNode p in pars)
                richTextBox1.Text = p.InnerText;
Почему то этот код на выходе выдает &nbsp;

Добавлено через 1 час 7 минут
не читает кириллицу, как сделать чтоб читал?
0
6287 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
08.03.2012, 21:57 14
&nbsp - это пробел в HTML. По Умолчанию браузер режет множество пробелов до одного. В таблицах в пустых ячейках рекомендуется ставить &nbsp что бы не возникало проблем с IE
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
10.03.2012, 14:42  [ТС] 15
Теперь заморока в том что не выводит в richtextbox кириллицу из html. Если текст документа на английском то выводит. Как быть?

Добавлено через 51 минуту
Проблему решил. Теперь необходимо создать массив тегов <p>. Как это сделать?
0
6287 / 3570 / 900
Регистрация: 28.10.2010
Сообщений: 5,937
10.03.2012, 14:52 16
C#
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
using System;
using System.Collections.Generic;
using HtmlAgilityPack;
 
class Program
{
    static void Main(string[] args)
    {
        HtmlNode[] paragraphs = new HtmlNode[10];
        HtmlDocument doc = new HtmlDocument();
        for (int i = 0; i < paragraphs.Length; i++)
        {
            paragraphs[i] = new HtmlNode(HtmlNodeType.Element, doc, i);
            paragraphs[i].Name = "p";
            paragraphs[i].InnerHtml = string.Format("я параграф #{0}", i + 1);
            doc.DocumentNode.ChildNodes.Add(paragraphs[i]);
        }
        IEnumerable<HtmlNode> _paragraphs = doc.DocumentNode.Descendants("p");
        foreach (HtmlNode node in _paragraphs)
            Console.WriteLine(node.InnerText);
        Console.ReadKey(true);
    }
}
2
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
10.03.2012, 15:51  [ТС] 17
Петрр огромное спасибо. Извините за дерзость а как теперь подставлять эти массивы в словосочетания.
Допустим у меня в документе содержатся названия цвета.

зеленая
синее
желтое

В MessageBox хочу выводить так
C#
1
2
foreach (HtmlNode node in paragraphs)
MessageBox.Show("Трава"+(зеленая));
0
107 / 107 / 9
Регистрация: 19.12.2010
Сообщений: 417
10.03.2012, 18:32 18
Может просто отбросить теги (чтобы получить текст) регулярными выражениями типа:
C#
1
htmltext = Regex.Replace(htmltext, @"\<.*?\>", "");
И декодировать HTML-коды:
C#
1
2
htmltext = HttpUtility.HtmlDecode(htmltext);
htmltext = HttpUtility.UrlDecode(htmltext);
Может так лучше и проще?

Цитата Сообщение от SoloWay Посмотреть сообщение
Извините за дерзость а как теперь подставлять эти массивы в словосочетания.
C#
1
node.InnerText
Не подходит в данном случае? Я имею ввиду:
C#
1
2
foreach (HtmlNode node in paragraphs)
    MessageBox.Show("Трава " + node.InnerText);
0
25 / 25 / 6
Регистрация: 26.09.2010
Сообщений: 295
11.03.2012, 11:08  [ТС] 19
Но ведь InnerText берет весь текст, а мне нужно отдельные строки.

Добавлено через 1 час 13 минут
То есть доставать из массива индексы и вставлять в нужные места
0
107 / 107 / 9
Регистрация: 19.12.2010
Сообщений: 417
11.03.2012, 13:09 20
Не проверял, но...
Допустим, у вас уже есть нужный node, тогда что-то типа:
C#
1
2
3
4
5
var splitted = Regex.Split(node.InnerText, @"\n");
foreach (string str in splitted)
{
    MessageBox.Show("Трава " + str);
}
1
11.03.2012, 13:09
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
11.03.2012, 13:09
Помогаю со студенческими работами здесь

Как в Microsoft Visual Studio 2013 получить текст из документа по ссылке?
Допустим есть текстовый документ test.txt и он находится по адресу http://testsait.ru/test.txt....

как получить текст Word-документа в HTML-виде
Всем привет! Подскажите, пожалуйста, как получить текст в HTML-виде с помощью макроса, если,...

Извлечь текст из div'а HTML-документа
Привет всем! Прошу помочь разобраться в проблеме: Парсится страница, нужный HTML-блок находится...

Delphi - получить дату из HTML документа.
Здравствуйте, Как получить дату создания(редактирования) - веб-страницы, Внизу страницы находится...


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
20
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru