Парсинг HTML на PHP
Воскресенье, 27 сентября 2009 г.
Просмотров: 35522
Подписаться на комментарии по RSS
возможности PHP для создания парсеров сейчас расскажу об одном из способов парсинга html (он подойдет и для xml тоже, кстати).
Лучше ли парсить html регулярными выражениями или использовать для этих целей
возможности PHP DOM,
является холиваром. Все зависит от сложности структуры данных. Ведь если структура достаточно сложная, то с помощью регулярок приходится парсить в несколько этапов: сначала выделить большой кусок, потом разделить его на более маленькие и т.д.. В итоге, если данные сложные (или их очень много), то процесс парсинга может значительно затянуться. Ресурсоемкость в этом случае еще будет зависеть, конечно же, от самих регулярных выражений. Если в регэкспах много ".*" (они являются самыми ресурсоемкими, т.к. "прочесывают" исходный код с максимальной
жадностью), то замедление будет заметным.
И вот как раз в этом-то случае как нельзя кстати приходится PHP DOM. Это удобный
инструмент для парсинга как XML, так и HTML. Некоторые придерживаются мнения, что парсить html регэкспами вообще нельзя, и яростно защищают PHP DOM.
Пиример скрипта наглядно показывающий, как это все легко и просто. В примере разбирается html с частью карты сайта какого то блога. Он присвоен переменной прямо внутри кода. В "боевых" же условиях исходные данные следует получать, например, через file_get_contents().
<?php $html = ' <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd"> <head> <title>Parsing-and-i.blogspot.com Map</title> </head> <body> <h2>Последние темы блога</h2> <!-- на 09.08.2009 --> <table border="0"> <tbody> <tr> <td><a href="http://parsing-and-i.blogspot.com/2009/08/blog-post_06.html" title="Базы">http://parsing-and-i.blogspot.com/2009/08/blog-post_06.html</a></td> <td>Базы</td> </tr> <tr> <td><a href="http://parsing-and-i.blogspot.com/2009/08/mysql-delphi-express.html" title="MySQL и Delphi. Express-метод">http://parsing-and-i.blogspot.com/2009/08/mysql-delphi-express.html</a></td> <td>MySQL и Delphi. Express-метод</td> </tr> <tr> <td><a href="http://parsing-and-i.blogspot.com/2009/08/blog-post.html" title="Пост о том, что лучше сто раз проверить">http://parsing-and-i.blogspot.com/2009/08/blog-post.html</a></td> <td>Пост о том, что лучше сто раз проверить</td> </tr> </tbody> </table> </body> </html> '; /** создаем новый dom-объект **/ $dom = new domDocument; /** загружаем html в объект **/ $dom->loadHTML($html); $dom->preserveWhiteSpace = false; /** элемент по тэгу **/ $tables = $dom->getElementsByTagName('table'); /** получаем все строки таблицы **/ $rows = $tables->item(0)->getElementsByTagName('tr'); /** цикл по строкам **/ foreach ($rows as $row) { /** все ячейки по тэгу **/ $cols = $row->getElementsByTagName('td'); /** выводим значения **/ echo $cols->item(0)->nodeValue.'<br>'; echo $cols->item(1)->nodeValue.'<br>'; echo '<hr>'; } ?>
В результате после запуска скрипта примера получаем такую картину:
Еще записи по теме
- Самодельная втулка для закрепления багажника на велосипеды серии Avalanche фирмы GT. (GT Avalanche 2.0)
- Заработок в интернете ЧАСТЬ 1
- Автоматическая перезагрузка windows xp в safemode
- Тестирование видеофайлов HD качества (720i(p) и 1080p) на нетбуке Acer Aspire One 751h-52Bk с intel GMA 500 (часть2)
- Хобби приносит доход - это хорошо)))
- Гостевая книга с авторизацией и регистрацией
- Работа над игрой менеджер онлайн
Комментариев: 1
Интересный подход. Спасибо за идею! Хотя я применяю, в основном, регулярные выражения...