[Ilugc] How to get all the posts URL from a blog?

  • From: vatsala.lists@xxxxxxxxx (Vatsala Dorairajan)
  • Date: Tue, 05 Mar 2013 12:56:17 +0530

For blogs, and websites created using blogging software, you can access 
all current and upcoming(future) links via RSS feed no? Not sure if RSS 
will fetch info from archives.

Just check at  A related URL link - 
http://fskrealityguide.blogspot.in/2009/02/fsk-asks-fetching-old-items-on-rss-feed.html
 
- RSS doesnt give older feeds, but you can get around this on wordpress 
and blogger based sites by manipulating the URL parameters(pageid,etc)
sharing what crossed my mind.
Vatsala
On Tuesday 05 March 2013 12:41 PM, Shrinivasan T wrote:

I am working on creating Free Tamil Ebooks to read in kindle or tablet 
devices.

Read more here on how I am doing manually.
https://onroads.wordpress.com/2012/11/23/how-to-read-tamil-books-in-kindle-ebook-reader/

We have to copy the content from various websites/blogs and paste in
libreoffice write to generate pdf files.

To automate this, I wrote a script, which can read the links from a
text file, download them all, clean them all,
merge them into single html file.

Then, I convert the html into odt using xhtml2odt tool.

Here is my script.
https://github.com/tshrinivasan/html2odt

Now, I am stuck with the process of collecting links and storing in a text 
file.
This is a manual process.

How can we automate this?

For example, I want to get the URL of all the posts from a blog.

Example.
http://kaniyam.com
or
http://365process.blogspot.in/


How can we get the URL of all the posts?





Other related posts: