С Новым годом! Форум программистов, компьютерный форум, киберфорум
Программирование Android
Войти
Регистрация
Восстановить пароль
Карта форума Темы раздела Блоги Сообщество Поиск Заказать работу  
 
0 / 0 / 0
Регистрация: 10.04.2016
Сообщений: 3
1

Вытащить текст из org.jsoup.nodes.Document

18.04.2016, 14:36. Показов 1012. Ответов 0

Author24 — интернет-сервис помощи студентам
В процессе работы возникла необходимость вытащить из HTML-страницы русские названия и цифры - по факту, то, что отображается на сайте (если конкретнее, то названия фильмов, места и время, когда они идут). Посмотрел все мануалы по Jsoup, что нашел, но, видимо, моих знаний не хватает, чтобы понять, как вытаскивать не элементы, а нужный текст. Я являюсь полным чайником в программировании, поэтому очень хотелось бы попросить подробных объяснений.

Сайт - https://www.afisha.ru/msk/sche... hwYW5kZWQ=, вот кусок HTML для примера:

Кликните здесь для просмотра всего текста
PHP/HTML
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
    <div class="object s-votes-hover-area collapsed" id="o16_228212">
 
<div class="m-float-right">
<a href="#" class="b-users-votes" onclick="return IGoGetterClick(this,16,228212)">
<img src="https://s5.afisha.net/a/v16499494/dsn/ratio-x2/preloader.gif" width="16" height="16" alt="" class="preloader" />
 
<span title="Собираются пойти на событие" class="igo-counter">
 
<img class="png" src='https://s3.afisha.net/newIGo/igo/Movie/212/228212.png'/>
 
</span>
 
<span class="g-divider igo-divider">&middot;</span>
 
 
 
<span class="s-rate-change igo-rate-pad">
<img src="https://s2.afisha.net/newIGo/stars/Movie/212/228212_num.png" class="png igo-rate" />
</span>
 
</a>
<div class="b-igo-popup">
<div class="igo-popup g-hidden"></div>
</div></div>
    <img src="https://s2.afisha.net/a/v16499494/dsn/collapse.gif" title="Свернуть расписание" onclick="imgClick(this)" class="switcher collapse" alt="" />
    <img src="https://s3.afisha.net/a/v16499494/dsn/expand.gif" title="Развернуть расписание" onclick="imgClick(this)" class="switcher expand" alt="" />
    <div class="m-disp-table">      
    <h3 class="usetags"><a href='//www.afisha.ru/movie/228212/'>Русские евреи. Фильм первый. До революции</a></h3>
    
    <p>Начало трилогии Леонида Парфенова о судьбе евреев в России</p>                    
    </div>
<table><tbody><tr id="o16_228212_31_2836" class="">
    <td class="b-td-item">
                  
    <a href='//www.afisha.ru/msk/cinema/2836/'>Пионер</a>                
    <p class="booking">Продажа билетов онлайн&nbsp;(<a href="//www.afisha.ru/article/booking/">?</a>)</p>
    </td>
<td class="b-td-timetable">   
    
    <div class="line">   
    
 
    <span id="o16_228212_31_2836_1310" class="inactive">
    
 
    
    13:10
</span></div></td></tr><tr id="o16_228212_31_6106" class="">
    <td class="b-td-item">
                  
    <a href='//www.afisha.ru/msk/cinema/6106/'>Центр документального кино</a>                
    
    </td>
<td class="b-td-timetable">   
    
    <div class="line">   
    
 
    <span id="o16_228212_31_6106_1215" class="inactive">
    
 
    
    12:15
</span>
    <span id="o16_228212_31_6106_1600">
    
 
    
    16:00
</span></div></td></tr><tr id="o16_228212_31_2973" class="">
    <td class="b-td-item">
                  
    <a href='//www.afisha.ru/msk/cinema/2973/'>Эльдар</a>                
    
    </td>
<td class="b-td-timetable">   
    
    <div class="line">   
    
 
    <span id="o16_228212_31_2973_1730">
    
 
    
    17:30
</span></div></td></tr></tbody></table></div>
0
Programming
Эксперт
94731 / 64177 / 26122
Регистрация: 12.04.2006
Сообщений: 116,782
18.04.2016, 14:36
Ответы с готовыми решениями:

Jsoup, как вытащить картинку из rss ленты в теге <description>
пишу клиент для сайта использую xml sax parser вопрос как вытащить картинки и сделать что бы они...

Как вытащить ссылку base64 из тэга img через JSOUP?
Всем Привет! Встала задача, как вытащить через библиотеку jsoup ссылку на base64 кодированное...

HTTP Status 500 - java.lang.NoClassDefFoundError: org/jsoup/Jsoup
Добавил библиотеку в pom, все нормально импортируется. Но в рантайме кидает ошибку: &quot;Handler...

Org.jsoup.HttpStatusException: HTTP error fetching URL. Status=405
Привет всем! Народ, такая проблема, при попытке парсером попасть на сайт, выдает ошибку...

0
18.04.2016, 14:36
IT_Exp
Эксперт
87844 / 49110 / 22898
Регистрация: 17.06.2006
Сообщений: 92,604
18.04.2016, 14:36
Помогаю со студенческими работами здесь

String to org.w3c.dom.Document
Пытаюсь распарсить строку в DOM, чтобы потом вставить его как Node в более крупный xml. xmlStr =...

Как построчно считать/записать (текст получаю через JSoup)
Вот сам код: import java.io.IOException; import org.jsoup.Jsoup; import...

Как регулярным вытащить текст с тегами?Вытаскиваю только текст
$anurl = file_get_contents('http://site.ru/'); preg_match_all('/&lt;h.*?&gt;(.*)&lt;\/h.*?&gt;/', $anurl,...

document.CreateTextNode() - извлечь текст обратно
Добрый вечер есть такой кусочек кода var text = document.createTextNode(request.responseText);...

Не получается вставить такой вот текст в textarea с помощью document.getElementById
Не получается вставить такой вот текст в textarea с помощью...

Вывести с помощью цикла и функции document.write() в HTML документ текст
Вывести с помощью цикла и функции document.write() в HTML документ текст по следующему образцу:


Искать еще темы с ответами

Или воспользуйтесь поиском по форуму:
1
Ответ Создать тему
КиберФорум - форум программистов, компьютерный форум, программирование
Powered by vBulletin
Copyright ©2000 - 2024, CyberForum.ru