[ovs.git] / python / ovs / json.py

# Copyright (c) 2010, 2011 Nicira Networks
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at:
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

import re
import StringIO
import sys

escapes = {ord('"'): u"\\\"",
           ord("\\"): u"\\\\",
           ord("\b"): u"\\b",
           ord("\f"): u"\\f",
           ord("\n"): u"\\n",
           ord("\r"): u"\\r",
           ord("\t"): u"\\t"}
for i in range(32):
    if i not in escapes:
        escapes[i] = u"\\u%04x" % i

def __dump_string(stream, s):
    stream.write(u'"%s"' % ''.join(escapes.get(ord(c), c) for c in s))

def to_stream(obj, stream, pretty=False, sort_keys=True):
    if obj is None:
        stream.write(u"null")
    elif obj is False:
        stream.write(u"false")
    elif obj is True:
        stream.write(u"true")
    elif type(obj) in (int, long):
        stream.write(u"%d" % obj)
    elif type(obj) == float:
        stream.write("%.15g" % obj)
    elif type(obj) == unicode:
        __dump_string(stream, obj)
    elif type(obj) == str:
        __dump_string(stream, unicode(obj))
    elif type(obj) == dict:
        stream.write(u"{")
        if sort_keys:
            items = sorted(obj.items())
        else:
            items = obj.iteritems()
        for i, (key, value) in enumerate(items):
            if i > 0:
                stream.write(u",")
            __dump_string(stream, unicode(key))
            stream.write(u":")
            to_stream(value, stream, pretty, sort_keys)
        stream.write(u"}")
    elif type(obj) in (list, tuple):
        stream.write(u"[")
        for i, value in enumerate(obj):
            if i > 0:
                stream.write(u",")
            to_stream(value, stream, pretty, sort_keys)
        stream.write(u"]")
    else:
        raise Exception("can't serialize %s as JSON" % obj)

def to_file(obj, name, pretty=False, sort_keys=True):
    stream = open(name, "w")
    try:
        to_stream(obj, stream, pretty, sort_keys)
    finally:
        stream.close()

def to_string(obj, pretty=False, sort_keys=True):
    output = StringIO.StringIO()
    to_stream(obj, output, pretty, sort_keys)
    s = output.getvalue()
    output.close()
    return s

def from_stream(stream):
    p = Parser(check_trailer=True)
    while True:
        buf = stream.read(4096)
        if buf == "" or p.feed(buf) != len(buf):
            break
    return p.finish()

def from_file(name):
    stream = open(name, "r")
    try:
        return from_stream(stream)
    finally:
        stream.close()

def from_string(s):
    try:
        s = unicode(s, 'utf-8')
    except UnicodeDecodeError, e:
        seq = ' '.join(["0x%2x" % ord(c)
                        for c in e.object[e.start:e.end] if ord(c) >= 0x80])
        return ("not a valid UTF-8 string: invalid UTF-8 sequence %s" % seq)
    p = Parser(check_trailer=True)
    p.feed(s)
    return p.finish()

class Parser(object):
    ## Maximum height of parsing stack. ##
    MAX_HEIGHT = 1000

    def __init__(self, check_trailer=False):
        self.check_trailer = check_trailer

        # Lexical analysis.
        self.lex_state = Parser.__lex_start
        self.buffer = ""
        self.line_number = 0
        self.column_number = 0
        self.byte_number = 0
        
        # Parsing.
        self.parse_state = Parser.__parse_start
        self.stack = []
        self.member_name = None

        # Parse status.
        self.done = False
        self.error = None

    def __lex_start_space(self, c):
        pass
    def __lex_start_alpha(self, c):
        self.buffer = c
        self.lex_state = Parser.__lex_keyword
    def __lex_start_token(self, c):
        self.__parser_input(c)
    def __lex_start_number(self, c):
        self.buffer = c
        self.lex_state = Parser.__lex_number
    def __lex_start_string(self, c):
        self.lex_state = Parser.__lex_string
    def __lex_start_error(self, c):
        if ord(c) >= 32 and ord(c) < 128:
            self.__error("invalid character '%s'" % c)
        else:
            self.__error("invalid character U+%04x" % ord(c))

    __lex_start_actions = {}
    for c in " \t\n\r":
        __lex_start_actions[c] = __lex_start_space
    for c in "abcdefghijklmnopqrstuvwxyz":
        __lex_start_actions[c] = __lex_start_alpha
    for c in "[{]}:,":
        __lex_start_actions[c] = __lex_start_token
    for c in "-0123456789":
        __lex_start_actions[c] = __lex_start_number
    __lex_start_actions['"'] = __lex_start_string
    def __lex_start(self, c):
        Parser.__lex_start_actions.get(
            c, Parser.__lex_start_error)(self, c)
        return True

    __lex_alpha = {}
    for c in "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ":
        __lex_alpha[c] = True
    def __lex_finish_keyword(self):
        if self.buffer == "false":
            self.__parser_input(False)
        elif self.buffer == "true":
            self.__parser_input(True)
        elif self.buffer == "null":
            self.__parser_input(None)
        else:
            self.__error("invalid keyword '%s'" % self.buffer)
    def __lex_keyword(self, c):
        if c in Parser.__lex_alpha:
            self.buffer += c
            return True
        else:
            self.__lex_finish_keyword()
            return False

    __number_re = re.compile("(-)?(0|[1-9][0-9]*)(?:\.([0-9]+))?(?:[eE]([-+]?[0-9]+))?$")
    def __lex_finish_number(self):
        s = self.buffer
        m = Parser.__number_re.match(s)
        if m:
            sign, integer, fraction, exp = m.groups() 
            if (exp is not None and
                (long(exp) > sys.maxint or long(exp) < -sys.maxint - 1)):
                self.__error("exponent outside valid range")
                return

            if fraction is not None and len(fraction.lstrip('0')) == 0:
                fraction = None

            sig_string = integer
            if fraction is not None:
                sig_string += fraction
            significand = int(sig_string)

            pow10 = 0
            if fraction is not None:
                pow10 -= len(fraction)
            if exp is not None:
                pow10 += long(exp)

            if significand == 0:
                self.__parser_input(0)
                return
            elif significand <= 2**63:
                while pow10 > 0 and significand <= 2*63:
                    significand *= 10
                    pow10 -= 1
                while pow10 < 0 and significand % 10 == 0:
                    significand /= 10
                    pow10 += 1
                if (pow10 == 0 and
                    ((not sign and significand < 2**63) or
                     (sign and significand <= 2**63))):
                    if sign:
                        self.__parser_input(-significand)
                    else:
                        self.__parser_input(significand)
                    return

            value = float(s)
            if value == float("inf") or value == float("-inf"):
                self.__error("number outside valid range")
                return
            if value == 0:
                # Suppress negative zero.
                value = 0
            self.__parser_input(value)
        elif re.match("-?0[0-9]", s):
            self.__error("leading zeros not allowed")
        elif re.match("-([^0-9]|$)", s):
            self.__error("'-' must be followed by digit")
        elif re.match("-?(0|[1-9][0-9]*)\.([^0-9]|$)", s):
            self.__error("decimal point must be followed by digit")
        elif re.search("e[-+]?([^0-9]|$)", s):
            self.__error("exponent must contain at least one digit")
        else:
            self.__error("syntax error in number")
            
    def __lex_number(self, c):
        if c in ".0123456789eE-+":
            self.buffer += c
            return True
        else:
            self.__lex_finish_number()
            return False

    __4hex_re = re.compile("[0-9a-fA-F]{4}")
    def __lex_4hex(self, s):
        if len(s) < 4:
            self.__error("quoted string ends within \\u escape")
        elif not Parser.__4hex_re.match(s):
            self.__error("malformed \\u escape")
        elif s == "0000":
            self.__error("null bytes not supported in quoted strings")
        else:
            return int(s, 16)
    @staticmethod
    def __is_leading_surrogate(c):
        """Returns true if 'c' is a Unicode code point for a leading
        surrogate."""
        return c >= 0xd800 and c <= 0xdbff
    @staticmethod
    def __is_trailing_surrogate(c):
        """Returns true if 'c' is a Unicode code point for a trailing
        surrogate."""
        return c >= 0xdc00 and c <= 0xdfff
    @staticmethod
    def __utf16_decode_surrogate_pair(leading, trailing):
        """Returns the unicode code point corresponding to leading surrogate
        'leading' and trailing surrogate 'trailing'.  The return value will not
        make any sense if 'leading' or 'trailing' are not in the correct ranges
        for leading or trailing surrogates."""
        #  Leading surrogate:         110110wwwwxxxxxx
        # Trailing surrogate:         110111xxxxxxxxxx
        #         Code point: 000uuuuuxxxxxxxxxxxxxxxx
        w = (leading >> 6) & 0xf
        u = w + 1
        x0 = leading & 0x3f
        x1 = trailing & 0x3ff
        return (u << 16) | (x0 << 10) | x1
    __unescape = {'"': u'"',
                  "\\": u"\\",
                  "/": u"/",
                  "b": u"\b",
                  "f": u"\f",
                  "n": u"\n",
                  "r": u"\r",
                  "t": u"\t"}
    def __lex_finish_string(self):
        inp = self.buffer
        out = u""
        while len(inp):
            backslash = inp.find('\\')
            if backslash == -1:
                out += inp
                break
            out += inp[:backslash]
            inp = inp[backslash + 1:]
            if inp == "":
                self.__error("quoted string may not end with backslash")
                return

            replacement = Parser.__unescape.get(inp[0])
            if replacement is not None:
                out += replacement
                inp = inp[1:]
                continue
            elif inp[0] != u'u':
                self.__error("bad escape \\%s" % inp[0])
                return
            
            c0 = self.__lex_4hex(inp[1:5])
            if c0 is None:
                return
            inp = inp[5:]

            if Parser.__is_leading_surrogate(c0):
                if inp[:2] != u'\\u':
                    self.__error("malformed escaped surrogate pair")
                    return
                c1 = self.__lex_4hex(inp[2:6])
                if c1 is None:
                    return
                if not Parser.__is_trailing_surrogate(c1):
                    self.__error("second half of escaped surrogate pair is "
                                 "not trailing surrogate")
                    return
                code_point = Parser.__utf16_decode_surrogate_pair(c0, c1)
                inp = inp[6:]
            else:
                code_point = c0
            out += unichr(code_point)
        self.__parser_input('string', out)

    def __lex_string_escape(self, c):
        self.buffer += c
        self.lex_state = Parser.__lex_string
        return True
    def __lex_string(self, c):
        if c == '\\':
            self.buffer += c
            self.lex_state = Parser.__lex_string_escape
        elif c == '"':
            self.__lex_finish_string()
        elif ord(c) >= 0x20:
            self.buffer += c
        else:
            self.__error("U+%04X must be escaped in quoted string" % ord(c))
        return True

    def __lex_input(self, c):
        self.byte_number += 1
        if c == '\n':
            self.column_number = 0
            self.line_number += 1
        else:
            self.column_number += 1

        eat = self.lex_state(self, c)
        assert eat is True or eat is False
        return eat

    def __parse_start(self, token, string):
        if token == '{':
            self.__push_object()
        elif token == '[':
            self.__push_array()
        else:
            self.__error("syntax error at beginning of input")
    def __parse_end(self, token, string):
        self.__error("trailing garbage at end of input")
    def __parse_object_init(self, token, string):
        if token == '}':
            self.__parser_pop()
        else:
            self.__parse_object_name(token, string)
    def __parse_object_name(self, token, string):
        if token == 'string':
            self.member_name = string
            self.parse_state = Parser.__parse_object_colon
        else:
            self.__error("syntax error parsing object expecting string")
    def __parse_object_colon(self, token, string):
        if token == ":":
            self.parse_state = Parser.__parse_object_value
        else:
            self.__error("syntax error parsing object expecting ':'")
    def __parse_object_value(self, token, string):
        self.__parse_value(token, string, Parser.__parse_object_next)
    def __parse_object_next(self, token, string):
        if token == ",":
            self.parse_state = Parser.__parse_object_name
        elif token == "}":
            self.__parser_pop()
        else:
            self.__error("syntax error expecting '}' or ','")
    def __parse_array_init(self, token, string):
        if token == ']':
            self.__parser_pop()
        else:
            self.__parse_array_value(token, string)
    def __parse_array_value(self, token, string):
        self.__parse_value(token, string, Parser.__parse_array_next)
    def __parse_array_next(self, token, string):
        if token == ",":
            self.parse_state = Parser.__parse_array_value
        elif token == "]":
            self.__parser_pop()
        else:
            self.__error("syntax error expecting ']' or ','")
    def __parser_input(self, token, string=None):
        self.lex_state = Parser.__lex_start
        self.buffer = ""
        #old_state = self.parse_state
        self.parse_state(self, token, string)
        #print ("token=%s string=%s old_state=%s new_state=%s"
        #       % (token, string, old_state, self.parse_state))

    def __put_value(self, value):
        top = self.stack[-1]
        if type(top) == dict:
            top[self.member_name] = value
        else:
            top.append(value)

    def __parser_push(self, new_json, next_state):
        if len(self.stack) < Parser.MAX_HEIGHT:
            if len(self.stack) > 0:
                self.__put_value(new_json)
            self.stack.append(new_json)
            self.parse_state = next_state
        else:
            self.__error("input exceeds maximum nesting depth %d" %
                         Parser.MAX_HEIGHT)
    def __push_object(self):
        self.__parser_push({}, Parser.__parse_object_init)
    def __push_array(self):
        self.__parser_push([], Parser.__parse_array_init)

    def __parser_pop(self):
        if len(self.stack) == 1:
            self.parse_state = Parser.__parse_end
            if not self.check_trailer:
                self.done = True
        else:
            self.stack.pop()
            top = self.stack[-1]
            if type(top) == list:
                self.parse_state = Parser.__parse_array_next
            else:
                self.parse_state = Parser.__parse_object_next

    def __parse_value(self, token, string, next_state):
        if token in [False, None, True] or type(token) in [int, long, float]:
            self.__put_value(token)
        elif token == 'string':
            self.__put_value(string)
        else:
            if token == '{':
                self.__push_object()
            elif token == '[':
                self.__push_array()
            else:
                self.__error("syntax error expecting value")
            return
        self.parse_state = next_state

    def __error(self, message):
        if self.error is None:
            self.error = ("line %d, column %d, byte %d: %s"
                          % (self.line_number, self.column_number,
                             self.byte_number, message))
            self.done = True

    def feed(self, s):
        i = 0
        while True:
            if self.done or i >= len(s):
                return i
            if self.__lex_input(s[i]):
                i += 1

    def is_done(self):
        return self.done

    def finish(self):
        if self.lex_state == Parser.__lex_start:
            pass
        elif self.lex_state in (Parser.__lex_string,
                                Parser.__lex_string_escape):
            self.__error("unexpected end of input in quoted string")
        else:
            self.__lex_input(" ")

        if self.parse_state == Parser.__parse_start:
            self.__error("empty input stream")
        elif self.parse_state != Parser.__parse_end:
            self.__error("unexpected end of input")

        if self.error == None:
            assert len(self.stack) == 1
            return self.stack.pop()
        else:
            return self.error
Commit	Line	Data
be44585c	1	# Copyright (c) 2010, 2011 Nicira Networks
99155935 BP	2	#
	3	# Licensed under the Apache License, Version 2.0 (the "License");
	4	# you may not use this file except in compliance with the License.
	5	# You may obtain a copy of the License at:
	6	#
	7	# http://www.apache.org/licenses/LICENSE-2.0
	8	#
	9	# Unless required by applicable law or agreed to in writing, software
	10	# distributed under the License is distributed on an "AS IS" BASIS,
	11	# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
	12	# See the License for the specific language governing permissions and
	13	# limitations under the License.
	14
	15	import re
	16	import StringIO
	17	import sys
	18
	19	escapes = {ord('"'): u"\\\"",
	20	ord("\\"): u"\\\\",
	21	ord("\b"): u"\\b",
	22	ord("\f"): u"\\f",
	23	ord("\n"): u"\\n",
	24	ord("\r"): u"\\r",
	25	ord("\t"): u"\\t"}
	26	for i in range(32):
	27	if i not in escapes:
	28	escapes[i] = u"\\u%04x" % i
	29
	30	def __dump_string(stream, s):
e0b23327	31	stream.write(u'"%s"' % ''.join(escapes.get(ord(c), c) for c in s))
99155935 BP	32
	33	def to_stream(obj, stream, pretty=False, sort_keys=True):
	34	if obj is None:
	35	stream.write(u"null")
	36	elif obj is False:
	37	stream.write(u"false")
	38	elif obj is True:
	39	stream.write(u"true")
	40	elif type(obj) in (int, long):
	41	stream.write(u"%d" % obj)
	42	elif type(obj) == float:
	43	stream.write("%.15g" % obj)
	44	elif type(obj) == unicode:
	45	__dump_string(stream, obj)
	46	elif type(obj) == str:
	47	__dump_string(stream, unicode(obj))
	48	elif type(obj) == dict:
	49	stream.write(u"{")
	50	if sort_keys:
	51	items = sorted(obj.items())
	52	else:
	53	items = obj.iteritems()
367da738	54	for i, (key, value) in enumerate(items):
99155935 BP	55	if i > 0:
99155935 BP	56	stream.write(u",")
99155935 BP	57	__dump_string(stream, unicode(key))
	58	stream.write(u":")
	59	to_stream(value, stream, pretty, sort_keys)
	60	stream.write(u"}")
	61	elif type(obj) in (list, tuple):
	62	stream.write(u"[")
367da738	63	for i, value in enumerate(obj):
99155935 BP	64	if i > 0:
99155935 BP	65	stream.write(u",")
99155935 BP	66	to_stream(value, stream, pretty, sort_keys)
	67	stream.write(u"]")
	68	else:
6732237b	69	raise Exception("can't serialize %s as JSON" % obj)
99155935 BP	70
	71	def to_file(obj, name, pretty=False, sort_keys=True):
	72	stream = open(name, "w")
	73	try:
	74	to_stream(obj, stream, pretty, sort_keys)
	75	finally:
	76	stream.close()
	77
	78	def to_string(obj, pretty=False, sort_keys=True):
	79	output = StringIO.StringIO()
	80	to_stream(obj, output, pretty, sort_keys)
	81	s = output.getvalue()
	82	output.close()
	83	return s
	84
	85	def from_stream(stream):
	86	p = Parser(check_trailer=True)
	87	while True:
	88	buf = stream.read(4096)
	89	if buf == "" or p.feed(buf) != len(buf):
	90	break
	91	return p.finish()
	92
	93	def from_file(name):
	94	stream = open(name, "r")
	95	try:
	96	return from_stream(stream)
	97	finally:
	98	stream.close()
	99
	100	def from_string(s):
	101	try:
	102	s = unicode(s, 'utf-8')
	103	except UnicodeDecodeError, e:
070de9bd BP	104	seq = ' '.join(["0x%2x" % ord(c)
070de9bd BP	105	for c in e.object[e.start:e.end] if ord(c) >= 0x80])
be44585c	106	return ("not a valid UTF-8 string: invalid UTF-8 sequence %s" % seq)
99155935 BP	107	p = Parser(check_trailer=True)
	108	p.feed(s)
	109	return p.finish()
	110
	111	class Parser(object):
	112	## Maximum height of parsing stack. ##
	113	MAX_HEIGHT = 1000
	114
	115	def __init__(self, check_trailer=False):
	116	self.check_trailer = check_trailer
	117
	118	# Lexical analysis.
	119	self.lex_state = Parser.__lex_start
	120	self.buffer = ""
	121	self.line_number = 0
	122	self.column_number = 0
	123	self.byte_number = 0
	124
	125	# Parsing.
	126	self.parse_state = Parser.__parse_start
	127	self.stack = []
	128	self.member_name = None
	129
	130	# Parse status.
	131	self.done = False
	132	self.error = None
	133
	134	def __lex_start_space(self, c):
	135	pass
	136	def __lex_start_alpha(self, c):
	137	self.buffer = c
	138	self.lex_state = Parser.__lex_keyword
	139	def __lex_start_token(self, c):
	140	self.__parser_input(c)
	141	def __lex_start_number(self, c):
	142	self.buffer = c
	143	self.lex_state = Parser.__lex_number
	144	def __lex_start_string(self, c):
	145	self.lex_state = Parser.__lex_string
	146	def __lex_start_error(self, c):
	147	if ord(c) >= 32 and ord(c) < 128:
	148	self.__error("invalid character '%s'" % c)
	149	else:
	150	self.__error("invalid character U+%04x" % ord(c))
	151
	152	__lex_start_actions = {}
	153	for c in " \t\n\r":
	154	__lex_start_actions[c] = __lex_start_space
	155	for c in "abcdefghijklmnopqrstuvwxyz":
	156	__lex_start_actions[c] = __lex_start_alpha
	157	for c in "[{]}:,":
	158	__lex_start_actions[c] = __lex_start_token
	159	for c in "-0123456789":
	160	__lex_start_actions[c] = __lex_start_number
	161	__lex_start_actions['"'] = __lex_start_string
	162	def __lex_start(self, c):
	163	Parser.__lex_start_actions.get(
	164	c, Parser.__lex_start_error)(self, c)
	165	return True
	166
	167	__lex_alpha = {}
	168	for c in "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ":
	169	__lex_alpha[c] = True
	170	def __lex_finish_keyword(self):
171	if self.buffer == "false":
172	self.__parser_input(False)
173	elif self.buffer == "true":
174	self.__parser_input(True)
175	elif self.buffer == "null":
176	self.__parser_input(None)
177	else:
178	self.__error("invalid keyword '%s'" % self.buffer)
179	def __lex_keyword(self, c):
180	if c in Parser.__lex_alpha:
181	self.buffer += c
182	return True
183	else:
184	self.__lex_finish_keyword()
185	return False
186
187	__number_re = re.compile("(-)?(0\|[1-9][0-9]*)(?:\.([0-9]+))?(?:[eE]([-+]?[0-9]+))?$")
188	def __lex_finish_number(self):
189	s = self.buffer
190	m = Parser.__number_re.match(s)
191	if m:
192	sign, integer, fraction, exp = m.groups()
193	if (exp is not None and
194	(long(exp) > sys.maxint or long(exp) < -sys.maxint - 1)):
195	self.__error("exponent outside valid range")
196	return
197
198	if fraction is not None and len(fraction.lstrip('0')) == 0:
199	fraction = None
200
201	sig_string = integer
202	if fraction is not None:
203	sig_string += fraction
204	significand = int(sig_string)
205
206	pow10 = 0
207	if fraction is not None:
208	pow10 -= len(fraction)
209	if exp is not None:
210	pow10 += long(exp)
211
212	if significand == 0:
213	self.__parser_input(0)
214	return
215	elif significand <= 2**63:
216	while pow10 > 0 and significand <= 2*63:
217	significand *= 10
218	pow10 -= 1
219	while pow10 < 0 and significand % 10 == 0:
220	significand /= 10
221	pow10 += 1
222	if (pow10 == 0 and
223	((not sign and significand < 2**63) or
224	(sign and significand <= 2**63))):
225	if sign:
226	self.__parser_input(-significand)
227	else:
228	self.__parser_input(significand)
229	return
230
231	value = float(s)
232	if value == float("inf") or value == float("-inf"):
233	self.__error("number outside valid range")
234	return
235	if value == 0:
236	# Suppress negative zero.
237	value = 0
238	self.__parser_input(value)
239	elif re.match("-?0[0-9]", s):
240	self.__error("leading zeros not allowed")
241	elif re.match("-([^0-9]\|$)", s):
242	self.__error("'-' must be followed by digit")
243	elif re.match("-?(0\|[1-9][0-9]*)\.([^0-9]\|$)", s):
244	self.__error("decimal point must be followed by digit")
245	elif re.search("e[-+]?([^0-9]\|$)", s):
246	self.__error("exponent must contain at least one digit")
247	else:
248	self.__error("syntax error in number")
249
250	def __lex_number(self, c):
251	if c in ".0123456789eE-+":
252	self.buffer += c
253	return True
254	else:
255	self.__lex_finish_number()
256	return False
257
258	__4hex_re = re.compile("[0-9a-fA-F]{4}")
259	def __lex_4hex(self, s):
260	if len(s) < 4:
261	self.__error("quoted string ends within \\u escape")
262	elif not Parser.__4hex_re.match(s):
263	self.__error("malformed \\u escape")
264	elif s == "0000":
265	self.__error("null bytes not supported in quoted strings")
266	else:
267	return int(s, 16)
268	@staticmethod
269	def __is_leading_surrogate(c):
270	"""Returns true if 'c' is a Unicode code point for a leading
271	surrogate."""
272	return c >= 0xd800 and c <= 0xdbff
273	@staticmethod
274	def __is_trailing_surrogate(c):
275	"""Returns true if 'c' is a Unicode code point for a trailing
276	surrogate."""
277	return c >= 0xdc00 and c <= 0xdfff
278	@staticmethod
279	def __utf16_decode_surrogate_pair(leading, trailing):
280	"""Returns the unicode code point corresponding to leading surrogate
281	'leading' and trailing surrogate 'trailing'. The return value will not
282	make any sense if 'leading' or 'trailing' are not in the correct ranges
283	for leading or trailing surrogates."""
284	# Leading surrogate: 110110wwwwxxxxxx
285	# Trailing surrogate: 110111xxxxxxxxxx
286	# Code point: 000uuuuuxxxxxxxxxxxxxxxx
287	w = (leading >> 6) & 0xf
288	u = w + 1
289	x0 = leading & 0x3f
290	x1 = trailing & 0x3ff
291	return (u << 16) \| (x0 << 10) \| x1
292	__unescape = {'"': u'"',
293	"\\": u"\\",
294	"/": u"/",
295	"b": u"\b",
296	"f": u"\f",
297	"n": u"\n",
298	"r": u"\r",
299	"t": u"\t"}
300	def __lex_finish_string(self):
301	inp = self.buffer
302	out = u""
303	while len(inp):
304	backslash = inp.find('\\')
305	if backslash == -1:
306	out += inp
307	break
308	out += inp[:backslash]
309	inp = inp[backslash + 1:]
310	if inp == "":
311	self.__error("quoted string may not end with backslash")
312	return
313
314	replacement = Parser.__unescape.get(inp[0])
315	if replacement is not None:
316	out += replacement
317	inp = inp[1:]
318	continue
319	elif inp[0] != u'u':
320	self.__error("bad escape \\%s" % inp[0])
321	return
322
323	c0 = self.__lex_4hex(inp[1:5])
324	if c0 is None:
325	return
326	inp = inp[5:]
327
328	if Parser.__is_leading_surrogate(c0):
329	if inp[:2] != u'\\u':
330	self.__error("malformed escaped surrogate pair")
331	return
332	c1 = self.__lex_4hex(inp[2:6])
333	if c1 is None:
334	return
335	if not Parser.__is_trailing_surrogate(c1):
336	self.__error("second half of escaped surrogate pair is "
337	"not trailing surrogate")
338	return
339	code_point = Parser.__utf16_decode_surrogate_pair(c0, c1)
340	inp = inp[6:]
341	else:
342	code_point = c0
343	out += unichr(code_point)
344	self.__parser_input('string', out)
345
346	def __lex_string_escape(self, c):
347	self.buffer += c
348	self.lex_state = Parser.__lex_string
349	return True
350	def __lex_string(self, c):
351	if c == '\\':
352	self.buffer += c
353	self.lex_state = Parser.__lex_string_escape
354	elif c == '"':
355	self.__lex_finish_string()
356	elif ord(c) >= 0x20:
357	self.buffer += c
358	else:
359	self.__error("U+%04X must be escaped in quoted string" % ord(c))
360	return True
361
362	def __lex_input(self, c):
363	self.byte_number += 1
364	if c == '\n':
365	self.column_number = 0
366	self.line_number += 1
367	else:
368	self.column_number += 1
369
370	eat = self.lex_state(self, c)
371	assert eat is True or eat is False
372	return eat
373
374	def __parse_start(self, token, string):
375	if token == '{':
376	self.__push_object()
377	elif token == '[':
378	self.__push_array()
379	else:
380	self.__error("syntax error at beginning of input")
381	def __parse_end(self, token, string):
382	self.__error("trailing garbage at end of input")
383	def __parse_object_init(self, token, string):
384	if token == '}':
385	self.__parser_pop()
386	else:
387	self.__parse_object_name(token, string)
388	def __parse_object_name(self, token, string):
389	if token == 'string':
390	self.member_name = string
391	self.parse_state = Parser.__parse_object_colon
392	else:
393	self.__error("syntax error parsing object expecting string")
394	def __parse_object_colon(self, token, string):
395	if token == ":":
396	self.parse_state = Parser.__parse_object_value
397	else:
398	self.__error("syntax error parsing object expecting ':'")
399	def __parse_object_value(self, token, string):
400	self.__parse_value(token, string, Parser.__parse_object_next)
401	def __parse_object_next(self, token, string):
402	if token == ",":
403	self.parse_state = Parser.__parse_object_name
404	elif token == "}":
405	self.__parser_pop()
406	else:
407	self.__error("syntax error expecting '}' or ','")
408	def __parse_array_init(self, token, string):
409	if token == ']':
410	self.__parser_pop()
411	else:
412	self.__parse_array_value(token, string)
413	def __parse_array_value(self, token, string):
414	self.__parse_value(token, string, Parser.__parse_array_next)
415	def __parse_array_next(self, token, string):
416	if token == ",":
417	self.parse_state = Parser.__parse_array_value
418	elif token == "]":
419	self.__parser_pop()
420	else:
421	self.__error("syntax error expecting ']' or ','")
422	def __parser_input(self, token, string=None):
423	self.lex_state = Parser.__lex_start
424	self.buffer = ""
425	#old_state = self.parse_state
426	self.parse_state(self, token, string)
427	#print ("token=%s string=%s old_state=%s new_state=%s"
428	# % (token, string, old_state, self.parse_state))
429
430	def __put_value(self, value):
431	top = self.stack[-1]
432	if type(top) == dict:
433	top[self.member_name] = value
434	else:
435	top.append(value)
436
437	def __parser_push(self, new_json, next_state):
438	if len(self.stack) < Parser.MAX_HEIGHT:
439	if len(self.stack) > 0:
440	self.__put_value(new_json)
441	self.stack.append(new_json)
442	self.parse_state = next_state
443	else:
444	self.__error("input exceeds maximum nesting depth %d" %
445	Parser.MAX_HEIGHT)
446	def __push_object(self):
447	self.__parser_push({}, Parser.__parse_object_init)
448	def __push_array(self):
449	self.__parser_push([], Parser.__parse_array_init)
450
451	def __parser_pop(self):
452	if len(self.stack) == 1:
453	self.parse_state = Parser.__parse_end
454	if not self.check_trailer:
455	self.done = True
456	else:
457	self.stack.pop()
458	top = self.stack[-1]
459	if type(top) == list:
460	self.parse_state = Parser.__parse_array_next
461	else:
462	self.parse_state = Parser.__parse_object_next
463
464	def __parse_value(self, token, string, next_state):
465	if token in [False, None, True] or type(token) in [int, long, float]:
466	self.__put_value(token)
467	elif token == 'string':
468	self.__put_value(string)
469	else:
470	if token == '{':
471	self.__push_object()
472	elif token == '[':
473	self.__push_array()
474	else:
475	self.__error("syntax error expecting value")
476	return
477	self.parse_state = next_state
478
479	def __error(self, message):
480	if self.error is None:
481	self.error = ("line %d, column %d, byte %d: %s"
482	% (self.line_number, self.column_number,
483	self.byte_number, message))
484	self.done = True
485
486	def feed(self, s):
487	i = 0
488	while True:
489	if self.done or i >= len(s):
490	return i
491	if self.__lex_input(s[i]):
492	i += 1
493
494	def is_done(self):
495	return self.done
496
497	def finish(self):
498	if self.lex_state == Parser.__lex_start:
499	pass
500	elif self.lex_state in (Parser.__lex_string,
501	Parser.__lex_string_escape):
502	self.__error("unexpected end of input in quoted string")
503	else:
504	self.__lex_input(" ")
505
506	if self.parse_state == Parser.__parse_start:
507	self.__error("empty input stream")
508	elif self.parse_state != Parser.__parse_end:
509	self.__error("unexpected end of input")
510
511	if self.error == None:
512	assert len(self.stack) == 1
513	return self.stack.pop()
514	else:
515	return self.error